Thanks to visit codestin.com
Credit goes to Github.com

Skip to content

furyolo/webcrawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Douban Movie Crawler & Sina US Stock Crawler

项目简介

本项目为异步批量爬取豆瓣电影页面(如《功夫》)和新浪美股网站的爬虫,支持代理IP池、SQLite数据库存储,基于httpx+SQLAlchemy异步ORM实现。

依赖安装

uv add httpx[http2] beautifulsoup4 sqlalchemy aiosqlite aiohttp

代理池要求

需本地或远程部署jhao104/proxy_pool或兼容API,默认API地址为http://127.0.0.1:5010/get/,可在config.py中修改。

配置说明

  • config.py:可配置代理池API、User-Agent池、并发数等参数。

数据库说明

  • 使用SQLite,数据库文件为movies.db,表结构见db.py

运行方法

豆瓣电影单页爬取

uv run main.py https://movie.douban.com/subject/1291543/

豆瓣电影批量爬取

uv run main.py url1 url2 url3 ...

关闭代理池(直连模式)

uv run main.py https://movie.douban.com/subject/1291543/ --proxy

新浪美股数据爬取

uv run main.py --sina-us-stock

新浪美股数据爬取(指定URL)

uv run main.py --sina-us-stock --sina-url "https://vip.stock.finance.sina.com.cn/usstock/ustotal.php"

命令行参数说明

主要文件说明

  • main.py:程序入口,批量调度
  • crawler.py:豆瓣电影爬虫主逻辑,异步并发
  • sina_us_stock.py:新浪美股爬虫主逻辑
  • db.py:数据库ORM模型与操作
  • proxy_pool.py:代理池API集成
  • config.py:全局配置

注意事项

  • 豆瓣有反爬机制,建议合理设置并发数与请求间隔
  • 代理池需保证高可用性,否则爬取效率受影响
  • 仅供学习与研究使用,请勿用于非法用途

About

A web crawler project

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages