weixin-gongzhonghao 爬取微信公众号的内容 1.寻找公众号网页地址(搜狗搜索公众号,微信公众平台,手机APP),选定微信公众平台 2.对公众平台的注册,观察网站结构,进行页面分析,找到所要抓取的部分 3.开始爬取,首先突破代码实现对公众平台登录,二维码的验证 4.依靠请求头信息,携带cookies信息,伪装进入微信公众平台(抓包解决cookies信息和请求头信息) 5.开始对所需要内容的探寻,找到内容,寻找接口,对接口内容的抓取 6.大量的抓取极其容易被发现ip,所以ip会被封掉,需要不同的ip进行抓取 7.在网上寻找新的可使用免费ip,该ip在西刺代理,快代理,天狼网站的爬取,建立ip池,防止ip被封 8.对网站的全自动爬取