Codestin Search App

#google_search ##作用：利用python selenium模块来爬取google搜索结果，在源代码的基础上做了些修改

##相关文件说明：

google-web-search.py：从Google抓取某个关键词的所有结果，以“［debug］标题 ; 链接”显示，以一条链接一行的格式保存。
google-web-search-state-crawler.py：从Google抓取某个关键词的结果数，即提取类似“找到约 1,130,000 条结果”中的数字。＃没试过
result-crawler.py：从Google返回的结果链接中抓取文本。注意只会处理网页和pdf文件。（pdf的下载处理貌似有点问题，可能需要再改一下。）＃没试过

##使用方法：

	#使用python2 + selenium + firefox profile 实现的随机user agent 模拟抓取Google搜索结果和关键词的结果数。
	#首先请自行安装selenium
	cd google_search
	python google_web_search.py
	#程序会在当前目录下创建一个keyword-result-drive目录，里面以每条google搜索关键词为文件名的txt文件，文件内容为搜索结果
	#在console输出端，以“［debug］标题 ; 链接”显示爬取结果

配置说明:

base_dir = os.path.dirname(__file__)	＃获取当前路径
google_adds = 'google-add.txt'		＃为goolge的子域名，提供搜索，减少被google反爬虫限制次数
keywords = 'keywords.txt'		＃为google搜索关键词，例如 "公司inurl:php id"
keywords_remain = 'keywords_remain.txt'	#core.py每运行一条关键词，就删掉重新写入该文件，猜测是用来断点保存用
useragents_text = 'useragent.txt'	＃随机变换useragent
result_dir = os.path.join(base_dir, 'keyword-result-drive')＃结果输出目录

参考来源： https://github.com/reee/Google-Web-Search-Crawler/

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
geckodriver-v0.16.1-win64		geckodriver-v0.16.1-win64
core.py		core.py
core.pyc		core.pyc
firefoxtest.py		firefoxtest.py
geckodriver-v0.16.1-win64.zip		geckodriver-v0.16.1-win64.zip
geckodriver.log		geckodriver.log
google-add.txt		google-add.txt
google_web_search.py		google_web_search.py
goole_api_search.py		goole_api_search.py
keywords.txt		keywords.txt
keywords_remain.txt		keywords_remain.txt
proxy_chrome.py		proxy_chrome.py
readme.md		readme.md
test_file.py		test_file.py
useragent.txt		useragent.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Uh oh!

Releases

Packages

Languages

viewer010/google_search

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages