解决pyspider页面改变问题:1.对于一次性任务,即不需要周期抓取的任务,例如档案类资料。可以不需要设置@every()或者age(),即按照规则只抓取一次,且不会周期抓取。2.对于周期性任务,分为两种情况:- 对于同一个页面的数据不存在更新的情况:增加@every()和age()。- 对于同一个页面的数据存在更新的情况:对于更新页面单独使用taskid函数,增加时间变量,这样可以保证每次爬取的时候md5都不一样。需要注意的是,重写taskid函数时如果增加了时间,会与age()`不兼容,存在重复爬取同一个页面多次,及时页面的数据没有任何改变,建议在使用taskid时只抓取动态页面本身的数据。
pyspider遇到中文域名的坑