Thanks to visit codestin.com
Credit goes to github.com

Skip to content

Godning/talknews

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

33 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

昨日头条(拜某老师所赐)

当前完成情况

  • 爬虫:clawer.py(爬取搜狐新闻,极简)
  • == 添加关键词列表 (3)
  • 文本摘要:summary.py(TextRank算法,我也不知道写的对不对,反正就是摘要了)
  • 文本相似度对比:similary.py(新闻查重)(这个东西已经不用了)
  • 推荐系统:基于内容的推荐(主要是冷启动问题)
  • 后端模块:采用tornado 不到30行,主要是get和post请求再加上处理一下跨域问题
  • 前端:直接jquery了,不想加动画,。。。
  • 雏形有了,后续问题还很多,先写文档。。。找个时间再改改爬虫

Demo

Demo

Bug

  • 爬虫不能识别异常url
  • 推荐系统的准确性
  • 用户信息存储问题

About

昨日头条

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published