Thanks to visit codestin.com
Credit goes to github.com

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
weibo		weibo
README.md		README.md

Repository files navigation

环境

我的环境是：python3.5 + scrapy 2.0.0

爬取内容和思路

爬取内容：网页版微博热搜的关键词，链接，以及导语，即简要概述热搜内容的一小段话

思路：

对于热搜链接：通过热搜关键词所在标签的属性再加上前缀即可（如图1）
对于关键词：进入关键词所在链接，一般会有一个如图2所示的位置，根据标签解析出内容；如果没有，存入“无”
对于导语：也是在关键词链接里边（如图3），通过解析获得；如果没有，爬取页面中的一条微博截取
对于推荐类（如图4）：一般是广告之类，不在所爬取范围之内，可以在提取关键词链接时，通过标签最后位置是否为 “荐” 进行一个过滤
关于文件保存，先将所爬取内容根据 关键词，导语，链接 的方式写入本地 txt
关于邮箱发送，在 pipelines 文件中重写 close_spider 函数，将保存在本地的 txt 文件发送给你想要发送的邮箱

不足

对于反爬虫的措施有点少，爬取数目过多之后，就会让你登陆，关于关键词的抓取不够

About

No description, website, or topics provided.

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%