Initial release.

2021-08-11 15:26:05 -07:00 · 2021-08-11 15:26:05 -07:00 · c5c8fccf8e
commit c5c8fccf8e
parent b0e125ffc9
3 changed files with 95 additions and 0 deletions
--- a/webwatcher/test.csv
+++ b/webwatcher/test.csv
@ -0,0 +1,4 @@
+url,hash
+https://packages.gentoo.org/packages/sys-kernel/gentoo-sources,d38c5d823f690f928ba31e739cbdbe1748321e120bbcbca3325e7f1e
+https://packages.gentoo.org/packages/sys-kernel/git-sources,60869301e0b1beb470b1cf224568fe89c5d532a9e69898962286b96c
+https://packages.gentoo.org/packages/sys-kernel/vanilla-sources,3cf20983f27b8412dd37748f65a7d26c01d6a779493cf0a2889b2dd3
--- a/webwatcher/test.csv.bak
+++ b/webwatcher/test.csv.bak
@ -0,0 +1,2 @@
+https://packages.gentoo.org/packages/sys-kernel/gentoo-sources,d38c5d823f690f928ba31e739cbdbe1748321e120bbcbca3325e7f1e
+https://packages.gentoo.org/packages/sys-kernel/git-sources,60869301e0b1beb470b1cf224568fe89c5d532a9e69898962286b96c
--- a/webwatcher/webwatcher.py
+++ b/webwatcher/webwatcher.py
@ -0,0 +1,89 @@
+import sys
+import time
+import hashlib
+from urllib.request import urlopen, Request
+from pandas import *
+import csv
+
+if len(sys.argv) < 2:
+	print("Sorry, need a url!")
+	exit(1)
+else:
+	checkurl = sys.argv[1]
+
+url = Request(checkurl,
+			headers={'User-Agent': 'Mozilla/5.0'})
+
+# to perform a GET request and load the
+# content of the website and store it in a var
+response = urlopen(url).read()
+
+# to create the initial hash
+currentHash = hashlib.sha224(response).hexdigest()
+keeprunning = True
+
+while keeprunning == True:
+	try:
+		# perform the get request and store it in a var
+		response = urlopen(url).read()
+		
+		# create a hash
+		currentHash = hashlib.sha224(response).hexdigest()
+		newHash = "null"
+		currenturl = -1
+		
+		# csv file name
+		data = read_csv("test.csv")
+ 
+		# converting column data to list
+		urls = data['url'].tolist()
+		hashes = data['hash'].tolist()
+
+		for link in range(len(urls)):
+			if urls[link] == checkurl:
+				newHash = hashes[link]
+				currenturl = urls[link]
+
+		# check if new hash is same as the previous hash
+		if newHash == currentHash:
+			print("same hash!")
+			keeprunning = False
+			break
+		# if something changed in the hashes
+		else:
+			print("something changed")
+
+			if currenturl == -1:
+				# this ia a new url
+				print("found new url")
+				urls.append(checkurl)
+				hashes.append(hashlib.sha224(response).hexdigest())
+				keeprunning = False
+				break
+			else:
+				# this is an update to an existing url
+				print("found update to existing url")
+				for link in range(len(urls)):
+					if urls[link] == checkurl:
+						hashes[link] = hashlib.sha224(response).hexdigest()
+						keeprunning = False
+						break
+
+			
+	# To handle exceptions
+	except Exception as e:
+		print(traceback.format_exc())
+		#print("error:")
+		exit(e)
+
+finallist = []
+finallist.append("url,hash")
+for i in range(len(urls)):
+	finallist.append(urls[i] + "," + hashes[i])
+
+with open('test.csv', mode='w') as csv_file:
+	csv_writer = csv.writer(csv_file)
+	reader = csv.reader(finallist, delimiter=',')
+	for row in reader:
+		#print('\t'.join(row))
+		csv_writer.writerow(row)