上市公司行业研究

一、背景

大数据时代,不管做什么好像都要跟大数据扯上点关系才行,作为一个三线股民,炒股的逻辑就是买了之后完全不看,少则半年,多则两到三年,然后卖出收钱,跑得赢贷款利率就满足了。

但面对越来越多的股票(截止2019年11月14日共3712家),发现选股也很麻烦,而且企业经营和投资客让股市变得过于复杂,小股民想用大数据的办法建模选股。

二、基本数据获取

虽然开户买股谁都会,但要在3712个股票中选择潜力股并在合适的时间买进和卖出并非易事,抛开大环境不谈,首先要搞清楚企业的行业、地域分布,心头有个概念。

1.行业

本人对行业比较关注,有些行业不受投资客关注,意味着即便企业盈利较好,但股价基本维持常态,虽然对于上市企业自身来说无可厚非,但对于投资者来说会很压抑,因此行业的选择比较重要。

行业计数项:行业
软件服务187
元器件179
电气设备173
化工原料159
汽车配件138
专用机械136
通信设备117
化学制药103
建筑工程88
医疗保健79
机械基件73
环境保护72
互联网70
中成药69
电器仪表65
区域地产64
食品61
服饰56
半导体55
生物制药46
塑料46
影视音像46

该数据对行业划分的比较细,共110个,从多到少排序如上表,可以看出达到46家的行业有22个,公司数量2082个,占总量的56%,其它比较小众的行业在此不再分析,毕竟样本较少的情况下,利用大数据分析出的结果可信度很低。

2.地域分布

地域分布的影响较低,但也不能不考虑,同类情况下,上海和深圳的企业拥有更多优势,尤其对于软件服务、互联网行业来说。事实上,有潜力的地域企业数量本身也比较多,值得更多考虑。

地域数量
浙江452
江苏416
北京339
广东314
上海301
深圳296
山东207
福建137
四川123
安徽104
湖南104
湖北103

由上表可以看出,超出100家的地域共12个,在32个地域中占据了78%的企业,可以上市企业的地域集中度还是很高的。数量较多的是浙江、江苏、北京、广东、上海、深圳。浙江和江苏非常吸引眼球,超出4个直辖市勇夺前两名。

三、数据获取渠道

之前已经提到过,这里不再赘述了。

四、分析逻辑

1.指标设计

由于能够获取的数据有限,分析着重从财务和社会的角度进行,主要包括四个维度:

  • 偿债能力,包括6个指标,重点考察企业的负债偿还能力。
  • 盈利能力,包括5个指标,重点考察企业的创造价值的能力。
  • 营运能力,包括4个指标,重点考察企业经营能力和情况。
  • 社会环境,包括6个指标,重点考察企业的市场认可、社会积累情况以及股价。

2.算法设计

四大类共涉及21个指标, 需要注意的问题有以下几个:

  • 每个指应该剔除企业体量对数值的影响,避免不公平对比;
  • 指标所占的权重根据重要程度划分;
  • 在确定分值分布时,需要避免分值过于集中,防止无法区分效果,难以对比。

基于以上的要求,需要设计算法对企业进行评比,获取21个指标后对指标进行上下限处理、数据分散处理,最终得到总分值。

五、数据呈现

得到的数据表将21个指标的分支加总后降序排列,即可看到企业的得分序列,此时只需要取得分最高的10%即可。

为了体现企业数据的情况,考虑将样本中的一部分数据拟合成行业数据并得到分值,以便将优秀的企业和行业平均情况进行对比。

ddzzhen

发表评论