机器学习对于普通人的意义是什么?

4VFG hfefkqr0388400

机器学习对于普通人的意义是什么?机器学习只有产生价值才能广泛传播,这个过程需要需求、开发、算力等各类软件和硬件的积累,还需要学习的思想!这种思想体现在两个方面:一是学习的思想,以提高效率、增强稳定性为目标,二是算法,能够实现目标的基本原理。两者相辅相成,层层递进,学习的思想是机器学习的原动力,算法是实现机器学习的必要途径。机器学习发展的路还很长,无论我们是否已经做好准备,发展趋势无法撼动,应用正在飞速发展。

上市公司行业研究

上市公司行业研究

image

一、背景

大数据时代,不管做什么好像都要跟大数据扯上点关系才行,作为一个三线股民,炒股的逻辑就是买了之后完全不看,少则半年,多则两到三年,然后卖出收钱,跑得赢贷款利率就满足了。

但面对越来越多的股票(截止2019年11月14日共3712家),发现选股也很麻烦,而且企业经营和投资客让股市变得过于复杂,小股民想用大数据的办法建模选股。

二、基本数据获取

虽然开户买股谁都会,但要在3712个股票中选择潜力股并在合适的时间买进和卖出并非易事,抛开大环境不谈,首先要搞清楚企业的行业、地域分布,心头有个概念。

1.行业

本人对行业比较关注,有些行业不受投资客关注,意味着即便企业盈利较好,但股价基本维持常态,虽然对于上市企业自身来说无可厚非,但对于投资者来说会很压抑,因此行业的选择比较重要。

行业计数项:行业
软件服务187
元器件179
电气设备173
化工原料159
汽车配件138
专用机械136
通信设备117
化学制药103
建筑工程88
医疗保健79
机械基件73
环境保护72
互联网70
中成药69
电器仪表65
区域地产64
食品61
服饰56
半导体55
生物制药46
塑料46
影视音像46

该数据对行业划分的比较细,共110个,从多到少排序如上表,可以看出达到46家的行业有22个,公司数量2082个,占总量的56%,其它比较小众的行业在此不再分析,毕竟样本较少的情况下,利用大数据分析出的结果可信度很低。

2.地域分布

地域分布的影响较低,但也不能不考虑,同类情况下,上海和深圳的企业拥有更多优势,尤其对于软件服务、互联网行业来说。事实上,有潜力的地域企业数量本身也比较多,值得更多考虑。

地域数量
浙江452
江苏416
北京339
广东314
上海301
深圳296
山东207
福建137
四川123
安徽104
湖南104
湖北103

由上表可以看出,超出100家的地域共12个,在32个地域中占据了78%的企业,可以上市企业的地域集中度还是很高的。数量较多的是浙江、江苏、北京、广东、上海、深圳。浙江和江苏非常吸引眼球,超出4个直辖市勇夺前两名。

三、数据获取渠道

之前已经提到过,这里不再赘述了。

四、分析逻辑

1.指标设计

由于能够获取的数据有限,分析着重从财务和社会的角度进行,主要包括四个维度:

  • 偿债能力,包括6个指标,重点考察企业的负债偿还能力。
  • 盈利能力,包括5个指标,重点考察企业的创造价值的能力。
  • 营运能力,包括4个指标,重点考察企业经营能力和情况。
  • 社会环境,包括6个指标,重点考察企业的市场认可、社会积累情况以及股价。

2.算法设计

四大类共涉及21个指标, 需要注意的问题有以下几个:

  • 每个指应该剔除企业体量对数值的影响,避免不公平对比;
  • 指标所占的权重根据重要程度划分;
  • 在确定分值分布时,需要避免分值过于集中,防止无法区分效果,难以对比。

基于以上的要求,需要设计算法对企业进行评比,获取21个指标后对指标进行上下限处理、数据分散处理,最终得到总分值。

五、数据呈现

得到的数据表将21个指标的分支加总后降序排列,即可看到企业的得分序列,此时只需要取得分最高的10%即可。

为了体现企业数据的情况,考虑将样本中的一部分数据拟合成行业数据并得到分值,以便将优秀的企业和行业平均情况进行对比。

解决pyspider页面改变问题

解决pyspider页面改变问题:1.对于一次性任务,即不需要周期抓取的任务,例如档案类资料。可以不需要设置@every()或者age(),即按照规则只抓取一次,且不会周期抓取。2.对于周期性任务,分为两种情况:- 对于同一个页面的数据不存在更新的情况:增加@every()和age()。- 对于同一个页面的数据存在更新的情况:对于更新页面单独使用taskid函数,增加时间变量,这样可以保证每次爬取的时候md5都不一样。需要注意的是,重写taskid函数时如果增加了时间,会与age()`不兼容,存在重复爬取同一个页面多次,及时页面的数据没有任何改变,建议在使用taskid时只抓取动态页面本身的数据。

A股上市公司数量及行业汇总

A股上市公司数量及行业汇总:上市公司共计3605家,分布在110个细分行业中;排名前三的行业是:软件服务,电气设备,元器件,数量分别是174家,171家,171家;房地产行业包括其中的四个类别:全国地产,区域地产,园区开发,房产服务,数量分别是37家,63家,15家,8家,共计123家.

记录BERT复现Squad1.1

记录BERT复现Squad1.1:本次虽然训练时间较长[按照100w的平均功率,耗电约12°,约6.3元],但好在基本复现了预期结果,没有出错,但由于硬件配置较低,特别是内存,导致train_batch_size和max_seq_length两个参数设置的较小,这应该是影响准确度的原因所在.根据分析结果,主要结论如下。