Thanks to visit codestin.com
Credit goes to github.com

Skip to content

cv-cat/DouYin_Spider

Repository files navigation

Spider_XHS logo

🎶DouYin_Spider

✨ 专业的抖音数据采集解决方案,支持笔记爬取,保存格式为excel或者media

⚠️ 任何涉及数据注入的操作都是不被允许的,本项目仅供学习交流使用,如有违反,后果自负

🌟 功能特性

  • 多维度数据采集
    • 用户主页信息
    • 笔记详细内容
    • 智能搜索结果抓取
  • 🚀 高性能架构
    • 自动重试机制
  • 🔒 安全稳定
    • 抖音最新API适配
    • 异常处理机制
    • proxy代理
  • 🎨 便捷管理
    • 结构化目录存储
    • 格式化输出(JSON/EXCEL/MEDIA)

🎨效果图

处理后的所有用户

image

某个用户所有的视频\图集

image

某个视频\图集具体的内容

image

某个直播时的具体弹幕发言和礼物数据

image

保存的excel

image

🛠️ 快速开始

⛳运行环境

  • Python 3.7+
  • Node.js 18+

🎯安装依赖

pip install -r requirements.txt
npm install

🎨配置文件

这里以小红书的cookie获取为例

注意.env文件有两个变量,一个是打开www.douyin.com这个域名获取的,另一个是打开live.douyin.com这个域名获取的,第一个用于爬虫,第二个用于直播间监听

配置文件在项目根目录.env文件中,将下图自己的登录cookie放入其中,cookie获取➡️在浏览器f12打开控制台,点击网络,点击fetch,找一个接口点开 image

复制cookie到.env文件中(注意!登录抖音后的cookie才是有效的,不登陆没有用) image

🚀运行项目

python main.py
python dy_live/server.py

🗝️注意事项

  • main.py中的代码是爬虫的入口,可以根据自己的需求进行修改
  • dy_apis/douyin_apis.py 中的代码包含了所有的api接口,可以根据自己的需求进行修改
  • dy_live/server.py 中的代码包含了直播间监听的接口,可以根据自己的需求进行修改

🍥日志

日期 说明
23/10/05 - 项目完成。
23/10/17 - 首次提交。
23/10/18 - 监听直播间弹幕和礼物。
23/10/21 - 新增搜索智能排序和限制时间。
23/10/21 - 新增可视化界面到release v1.1.0。
23/10/25 - 新增issue提出的输出直播间消息时包括用户等级。
23/10/28 - 遇到验证码请手动点击!Fix Some Bugs。
23/11/11 - 修复了很多很多大家的bug~~,关于v.dy格式的url正在处理
23/12/22 - 修复了直播间监控
25/06/07 - 开放所有之前闭源的代码,包括数据爬取和直播间监听

🧸额外说明

  1. 感谢star⭐和follow📰!不时更新
  2. 作者的联系方式在主页里,有问题可以随时联系我
  3. 可以关注下作者的其他项目,欢迎 PR 和 issue
  4. 感谢赞助!如果此项目对您有帮助,请作者喝一杯奶茶~~ (开心一整天😊😊)
  5. thank you~~~
微信赞赏码支付宝收款码

📈 Star 趋势

Star History Chart

🍔 交流群

5355a0f82398ee2052f2e659328d737b

About

抖音逆向,抖音爬虫,抖音全部api、直播间监听

Resources

Stars

Watchers

Forks

Packages

No packages published