pyspider爬取数据来源
为了方便学习,使用强大的pyspider工具自动收集一些信息,都是公众公开的信息,也为了后续自己的使用,在这里记录一下.
1.数据类
数据是python学习的重要凭借,利用数据可以调用scikit-learn, scipy, pandas, numpy等库进行数据分析和预测.
- 美债实时数据,usdebt
http://www.usdebtclock.org/ columns: --too many to list.
- tushare数据(待添加)(cctv_news)
- 国研网
2.新闻类
新闻是文本分析的基础,利用文本可以调用textrank, google机器学习算法等分析语义和缩减文本.
- 豆瓣电影
https://movie.douban.com/subject/ columns: rate title url
- 凤凰新闻系列
1. 头条 http://www.ifeng.com/ columns: date title url 2. 证券要闻 http://finance.ifeng.com/listpage/110/1/list.shtml columns: content date title url 3. 财经速报 http://finance.ifeng.com/shanklist/1-66- 需要js,否则打不开 columns: content date title url
- 哈佛商业评论
http://www.hbrchina.org/140803-1/ columns: original_date url date content title