数据挖掘背景下的人工智能知识图谱

数据挖掘与KDD

数据挖掘,是指从大量的数据中自动搜索隐藏于其中的有特殊关系性的数据和信息,并将其转化为计算机可处理的结构化表示.

目前数据挖掘主要功能包括:概念描述,关联分析,分类,聚类和偏差检测等,用于描述对象内涵,概括对象特征,发现数据规律,检测异常数据等.

一般来说,数据挖掘有五个步骤:确定挖掘目的,数据准备,进行数据挖掘,结果分析,知识同化.

1 确定挖掘目的:认清数据挖掘的目的是数据挖掘的重要一步.

2 数据准备.包括数据的选择,数据的预处理,数据的转换.

3 进行数据挖掘:对得到的经过转换的数据进行挖掘.

4 结果分析:解释并评估结果,通常会使用可视化技术.

5 知识的同化:将分析得到的知识集成到所要应用的地方去.

如图所示,数据挖掘有多重分类方式,可以按照挖掘的数据库类型,挖掘的知识类型,挖掘所用的技术类型进行分类.同时,数据挖掘也可以按照行业应用来进行分类,比如生物医学,交通,金融等行业都有其独特的数据挖掘方法,不能做到用同一个数据挖掘技术应用到各个行业领域.

数据挖掘是知识发现(KDD)的一个关键步骤.

KDD涉及数据库,机器学习,统计学,模式识别,数据可视化,高性能计算,知识获取,神经网络,信息检索等众多学科和技术的集成,早期比较影响的发现算法有: IBM的Rakesh Agrawal的关联算法、UIUC大学韩家炜（Jiawei Han）教授等人的FP Tree算法、澳大利亚的John Ross Quinlan教授的分类算法、密西根州立大学Erick Goodman的遗传算法等等。

数据挖掘源于商业的直接需求,从一开始就是面向应用的.目前在零售,旅游,物流,医学等领域都有所应用,可以大大提高行业效率和行业质量.

例如:零售行业,对售货,顾客购买历史记录,货物进出情况,消费与服务记录等数据的收集有助于识别顾客购买行为,发现顾客购买模式和趋势,改进服务质量,取得更高的顾客保持力和满意程度,减少零售业成本.

人工智能与数据挖掘

数据挖掘从一个新的视角将数据库技术,统计学,机器学习,信息检索技术,数据可视化和模式识别与人工智能等领域有机结合起来,组合了各领域的有点,能从数据中挖掘到运用其他传统方法不能发现的有用知识.

一般,统计特征只能反映数据的极少量信息,简单的统计分析可以帮助我们了解数据,但是如果希望对大数据进行逐个地,更深层次地探索,总结出规律和模型,则需要更加智能的基于机器学习的数据分析方法.机器学习是基于数据本身,自动构建解决问题的规则与方法,实际中包括非监督学习和监督学习:

非监督学习

建立在所有数据的标签,即所述类别都是未知的情况下使用的分类方法.对于特定一组数据,不知道这些数据应该分为哪几类,也不知道这些类别本来应该有怎样的特征,只知道每个数据的特征向量.

K-means算法的核心是找到每个类的”中心”,是所有那一类元素在向量空间上的重心.如果每个类都有这么一个中心,我们就看他离那个”中心”距离最近,就归为该类.

监督学习

已知一些数据的真实分类情况,要对新的未知的数据进行分类.这时利用已知的分类信息,可以得到一些更精确的分类方法.

1)决策树模型:根据条件进行判断的逻辑框架.根据有区分性的问题的不同回答进入下一步,最终的决策给出标签.

2)KNN算法:在仅知道每个数据在特征空间下的特征向量情况下,对数据采用无监督分类方法K-means.如果拥有了一部分数据的标签,就可以利用这些标签进行KNN.

此外,还有回归分类,神经网络,朴素贝叶斯分类等等.

大数据与数据挖掘

大数据是近年随着互联网,物联网,通信网络以及人类社交网络快速发展的结果,成为一个交叉研究学科,和数据挖掘紧密相连.

一方面大数据包含数据挖掘的各个阶段,即数据收集,预处理,特征选择,模式挖掘,表示等;另一方面大数据的基础架构又为数据挖掘提供上层数据处理的硬件设施.

从技术架构角度,大数据处理平台分为数据采集层,数据存储层,数据处理层和服务封装层.另外,一般还包括安全和隐私保护模块.

主要参考:一文看懂AI数据挖掘