pyspider爬取数据来源

为了方便学习,使用强大的pyspider工具自动收集一些信息,都是公众公开的信息,也为了后续自己的使用,在这里记录一下.

1.数据类

数据是python学习的重要凭借,利用数据可以调用scikit-learn, scipy, pandas, numpy等库进行数据分析和预测.

美债实时数据,usdebt

http://www.usdebtclock.org/

columns:
--too many to list.

tushare数据(待添加)（cctv_news）
国研网

2.新闻类

新闻是文本分析的基础,利用文本可以调用textrank, google机器学习算法等分析语义和缩减文本.

豆瓣电影

https://movie.douban.com/subject/

columns:
rate title url

凤凰新闻系列

1. 头条
http://www.ifeng.com/

columns:
date title url

2. 证券要闻
http://finance.ifeng.com/listpage/110/1/list.shtml

columns:
content date title url

3. 财经速报
http://finance.ifeng.com/shanklist/1-66-

需要js,否则打不开

columns:
content date title url

哈佛商业评论

http://www.hbrchina.org/140803-1/

columns:
original_date url date content title