pyspider爬取数据来源

pyspider爬取数据来源

为了方便学习,使用强大的pyspider工具自动收集一些信息,都是公众公开的信息,也为了后续自己的使用,在这里记录一下.

1.数据类

数据是python学习的重要凭借,利用数据可以调用scikit-learn, scipy, pandas, numpy等库进行数据分析和预测.

  • 美债实时数据,usdebt
http://www.usdebtclock.org/

columns:
--too many to list.
  • tushare数据(待添加)(cctv_news)
  • 国研网

2.新闻类

新闻是文本分析的基础,利用文本可以调用textrank, google机器学习算法等分析语义和缩减文本.

  • 豆瓣电影
https://movie.douban.com/subject/

columns:
rate title url
  • 凤凰新闻系列
1. 头条
http://www.ifeng.com/

columns:
date title url

2. 证券要闻
http://finance.ifeng.com/listpage/110/1/list.shtml

columns:
content date title url

3. 财经速报
http://finance.ifeng.com/shanklist/1-66-

需要js,否则打不开

columns:
content date title url
  • 哈佛商业评论
http://www.hbrchina.org/140803-1/

columns:
original_date url date content title
上一篇
下一篇