目录
上市公司行业研究
一、背景
大数据时代,不管做什么好像都要跟大数据扯上点关系才行,作为一个三线股民,炒股的逻辑就是买了之后完全不看,少则半年,多则两到三年,然后卖出收钱,跑得赢贷款利率就满足了。
但面对越来越多的股票(截止2019年11月14日共3712家),发现选股也很麻烦,而且企业经营和投资客让股市变得过于复杂,小股民想用大数据的办法建模选股。
二、基本数据获取
虽然开户买股谁都会,但要在3712个股票中选择潜力股并在合适的时间买进和卖出并非易事,抛开大环境不谈,首先要搞清楚企业的行业、地域分布,心头有个概念。
1.行业
本人对行业比较关注,有些行业不受投资客关注,意味着即便企业盈利较好,但股价基本维持常态,虽然对于上市企业自身来说无可厚非,但对于投资者来说会很压抑,因此行业的选择比较重要。
行业 | 计数项:行业 |
软件服务 | 187 |
元器件 | 179 |
电气设备 | 173 |
化工原料 | 159 |
汽车配件 | 138 |
专用机械 | 136 |
通信设备 | 117 |
化学制药 | 103 |
建筑工程 | 88 |
医疗保健 | 79 |
机械基件 | 73 |
环境保护 | 72 |
互联网 | 70 |
中成药 | 69 |
电器仪表 | 65 |
区域地产 | 64 |
食品 | 61 |
服饰 | 56 |
半导体 | 55 |
生物制药 | 46 |
塑料 | 46 |
影视音像 | 46 |
该数据对行业划分的比较细,共110个,从多到少排序如上表,可以看出达到46家的行业有22个,公司数量2082个,占总量的56%,其它比较小众的行业在此不再分析,毕竟样本较少的情况下,利用大数据分析出的结果可信度很低。
2.地域分布
地域分布的影响较低,但也不能不考虑,同类情况下,上海和深圳的企业拥有更多优势,尤其对于软件服务、互联网行业来说。事实上,有潜力的地域企业数量本身也比较多,值得更多考虑。
地域 | 数量 |
浙江 | 452 |
江苏 | 416 |
北京 | 339 |
广东 | 314 |
上海 | 301 |
深圳 | 296 |
山东 | 207 |
福建 | 137 |
四川 | 123 |
安徽 | 104 |
湖南 | 104 |
湖北 | 103 |
由上表可以看出,超出100家的地域共12个,在32个地域中占据了78%的企业,可以上市企业的地域集中度还是很高的。数量较多的是浙江、江苏、北京、广东、上海、深圳。浙江和江苏非常吸引眼球,超出4个直辖市勇夺前两名。
三、数据获取渠道
之前已经提到过,这里不再赘述了。
四、分析逻辑
1.指标设计
由于能够获取的数据有限,分析着重从财务和社会的角度进行,主要包括四个维度:
- 偿债能力,包括6个指标,重点考察企业的负债偿还能力。
- 盈利能力,包括5个指标,重点考察企业的创造价值的能力。
- 营运能力,包括4个指标,重点考察企业经营能力和情况。
- 社会环境,包括6个指标,重点考察企业的市场认可、社会积累情况以及股价。
2.算法设计
四大类共涉及21个指标, 需要注意的问题有以下几个:
- 每个指应该剔除企业体量对数值的影响,避免不公平对比;
- 指标所占的权重根据重要程度划分;
- 在确定分值分布时,需要避免分值过于集中,防止无法区分效果,难以对比。
基于以上的要求,需要设计算法对企业进行评比,获取21个指标后对指标进行上下限处理、数据分散处理,最终得到总分值。
五、数据呈现
得到的数据表将21个指标的分支加总后降序排列,即可看到企业的得分序列,此时只需要取得分最高的10%即可。
为了体现企业数据的情况,考虑将样本中的一部分数据拟合成行业数据并得到分值,以便将优秀的企业和行业平均情况进行对比。