色花堂磁力链接爬虫工具是一个基于Python + React的现代化Web应用,提供强大的磁力链接爬取功能。支持多主题、多模式、代理设置、定时任务等高级功能,让您轻松获取所需的磁力链接。
- 🎭 多主题支持 - 支持亚洲无码、亚洲有码、国产原创等7个主题
- 🔥 双模式爬取 - 普通模式 + 热门模式,满足不同需求
- 📄 批量页面爬取 - 支持指定页面范围,高效批量处理
- 🌐 代理支持 - 支持HTTP/HTTPS/SOCKS5代理
- 💾 代理持久化 - 代理设置自动保存,无需重复配置
- ⏰ 定时任务 - 支持每日、每周、间隔执行
- 📊 实时日志 - 首页实时显示操作日志
- 🎨 现代化UI - 基于React + Ant Design的美观界面
# 拉取最新镜像
docker pull wyh3210277395/sehuatang-crawler:latest
# 运行容器
docker run -d \
--name sehuatang-crawler \
-p 5000:5000 \
-v ./data:/app/data \
-v ./logs:/app/logs \
wyh3210277395/sehuatang-crawler:latest# docker-compose.yml
version: '3.8'
services:
sehuatang-crawler:
image: wyh3210277395/sehuatang-crawler:latest
container_name: sehuatang-crawler
ports:
- "5000:5000"
environment:
- FLASK_ENV=production
- PYTHONUNBUFFERED=1
volumes:
- ./data:/app/data
- ./logs:/app/logs
restart: unless-stopped
healthcheck:
test: ["CMD", "curl", "-f", "http://localhost:5000/api/health"]
interval: 30s
timeout: 10s
retries: 3
start_period: 40s# 启动服务
docker-compose up -d# 克隆项目
git clone https://github.com/wyhfx/sehuatang-crawler.git
cd sehuatang-crawler
# 安装Python依赖
pip install -r requirements.txt
# 安装前端依赖
cd frontend
npm install
npm run build
cd ..
# 运行应用
python app.py启动成功后,打开浏览器访问:
http://localhost:5000
- 访问应用首页
- 选择要爬取的主题
- 选择爬取模式(普通/热门)
- 设置页面范围(普通模式)
- 配置代理(如需要)
- 点击"开始爬取"
- 点击左侧"设置"菜单
- 在代理设置区域启用代理
- 输入代理地址(格式:
http://host:port或socks5://host:port) - 点击"保存代理设置"
- 在设置页面点击"新建定时任务"
- 配置任务名称、主题、模式、页面范围
- 选择调度类型:
- 每日执行: 每天固定时间执行
- 每周执行: 每周固定时间执行
- 间隔执行: 按指定间隔时间执行
- 设置执行时间
- 保存任务
- 实时日志: 首页实时显示操作日志
- 任务列表: 查看所有爬取任务状态
- 下载结果: 任务完成后可下载磁力链接文件
- Python 3.9+: 主要开发语言
- Flask 2.0+: Web框架
- Selenium 4.0+: 网页自动化
- Chrome/ChromeDriver: 浏览器引擎
- BeautifulSoup4: HTML解析
- React 18.0+: 前端框架
- Ant Design 5.0+: UI组件库
- dayjs: 日期处理
- Docker: 容器化部署
- 多阶段构建: 优化镜像大小
- 健康检查: 自动监控服务状态
| 功能 | v1.0 | v2.0 | v2.1.0 |
|---|---|---|---|
| 基础爬取 | ✅ | ✅ | ✅ |
| 多主题支持 | ✅ | ✅ | ✅ |
| 热门模式 | ❌ | ✅ | ✅ |
| 代理支持 | ❌ | ✅ | ✅ |
| 多页面爬取 | ❌ | ✅ | ✅ |
| 定时任务 | ❌ | ❌ | ✅ |
| 设置页面 | ❌ | ❌ | ✅ |
| 实时日志 | ❌ | ❌ | ✅ |
FLASK_ENV=production # Flask环境
PYTHONUNBUFFERED=1 # Python输出缓冲
HTTP_PROXY=http://host:port # HTTP代理
HTTPS_PROXY=http://host:port # HTTPS代理
NO_PROXY=localhost,127.0.0.1 # 不使用代理的地址./data:/app/data # 爬取结果文件
./logs:/app/logs # 应用日志文件- ✨ 新增设置页面
- ✨ 新增代理配置持久化
- ✨ 新增定时任务管理
- ✨ 新增实时日志显示
- ✨ 新增多页面导航
- 🔧 优化用户界面
- 🔧 修复下载文件名问题
- ✨ 新增代理支持
- ✨ 新增多页面爬取
- ✨ 新增热门模式
- 🔧 移除Nginx依赖
- 🔧 优化Docker构建
- 🎉 初始版本发布
- ✨ 基础爬取功能
- ✨ Web界面
- ✨ Docker支持
- 🎓 本工具仅供学习和研究使用
- 📜 请遵守当地法律法规
⚠️ 使用者需自行承担使用风险- 🚫 请勿用于商业用途
如果您在使用过程中遇到问题或有改进建议,欢迎:
- 📧 提交Issue
- 🔄 提交Pull Request
- 💬 参与讨论
本项目采用 MIT License 许可证。