摘要:在数字时代的大背景下,越来越多的企业转型成为数字大师,使用数据来指导整个企业的生产发展、管理决策。而数据挖掘技术无疑是现代企业乘风波浪的一把利器,它能抽丝剥茧地透过现象,看清商业的本质,为企业决策提供强有力的科学依据。本文针对数据挖掘的实现进行了研究,对这项技术在企业相关应用做了指导,在企业数据分析层面上有一定的借鉴意义。
Abstract: In the background of digital era, more and more enterprises become digital master, using data to guide the entire enterprise production development, management decisions. Data mining technology is a tool for modern enterprise development, it can see the nature of the business through the phenomenon, and provide a strong scientific basis for the decision-making of the enterprise. In this paper, the implementation of data mining is studied, the technology application in the enterprise is guided, which in has a certain reference significance for the enterprise data analysis.
关键词:数据挖掘;特征;铸造企业;应用
Key words: data mining;feature;casting enterprise;application
中图分类号:F721 文献标识码:A 文章编号:1006-4311(2017)35-0209-02
0 引言
现在数字技术已经不是苹果、谷歌等科技公司的专享技能,在当今数字技术时代,传统行业与数字技术结合,应用数字技术,挖掘数据价值才是大势所趋。成熟灵活地使用数字技术,改变并极大地拓宽公司的战略选择,所以企业需要不断利用自己在行业方面的数据,结合现在的数字技术,建立一个企业大师系统,为企业领导层提供战略指导数据依据。
在数据利用方面,大部分企业都遵循了“整合数据-分析数据-挖掘数据-指导决策”的思路。现在大部分企业更多的认识是在数据整合这个层面,通过数据总线、数据治理机制等是可以将企业的数据进行合理化地治理、汇总。分析数据和挖掘数据层面就需要更多的专业人士进行统一建模和分析,才能得到合理、正确的战略决策。这时候数据分析、数据挖掘显得更加重要。
Data mining,中文名称叫做数据挖掘。这两年伴随着大数据一词也红得发紫。数据挖掘人才也成为各大公司争抢的重要角色。数据挖掘一般分为两类,一种是预测性,通过分类、回归的算法将数据的预测性展示出来。另一种则是描述性的数据分析,主要方法有聚类、关联规则挖掘、时间序列分析等。有了大量的数据为基础,再根据我们的目标决策,这时候就需要选择不同的数据分析方法,就可以达到要实现的目标。在实际使用中,又要根据实际的情况使用一种或多种工具进行分析。
1 数据挖掘在企业应用的步骤
1.1 明确问题
在数据挖掘中,需要碰到不同的问题采用不同的方法,有时候如果选错了方法,就如同缘木求鱼。明确问题就显得非常重要。明确问题的方法主要是围绕以下几个问题开展的:
①首先明确问题属于哪种常见的类型,是分类还是聚合?所要解决的问题是属于哪个类型,这个涉及到解決问题的方法、后期分析数据采用的工具。如果想要做预测性的问题,一般需要采用分类。同样数据分析方面,划归到聚类方法。
②所挑选的数据集合是否够大,足够支撑我们的分析。现在数据挖掘技术都是针对大样本量的。包括现在经常使用的朴素贝叶斯算法等使用的模型都比较简单,学习效率高,在大样本量下会有很好的表现,当数据集合较小的时候误差就会变得很大,精度也会达不到要求。
③我们所使用的数据是否满足设置的问题。这是对数据源进行的验证,数据源的信息是否可以通过分析得到所需要的结果。一般会对数据的分布情况、数据维度等方面进行校验。最后得出结论。
经过以上的思考,就可以确定整个分析方案需要达到的目标和后续将使用的大致技术,将会得到企业大师系统构建的蓝图。
1.2 对得到的数据进行预处理
这里就是对得到的数据进行一个简单筛选。大致分为数据集成,删除数据冗余、数据冲突,数据采样,数据清洗、缺省值处理及噪声处理。其中数据采样取决于我们研究的问题、数学模型的处理能力和样本量的大小。这是需要额外关注的地方。在预处理阶段要根据自身使用平台的性能等问题,选取一个大小合适的采样样本,之后将数据中的异常值进行过滤,保留对我们的目标影响最大的几个因子。
这一部分在企业大师系统的架构中,可以结合数据总线等应用进行。对企业资源管理系统中的数据进行筛选,将系统数据中具有不完整、无效的数据进行清理,保留对整个结果最有用的影响因子,再进行建模。这点也是符合六西格玛管理方法的。
1.3 特征工程
这个阶段将最大限度地从原始数据中提取特征以供算法和模型使用,简而言之,就是对需要解决问题的核心因子的几个有用属性进行提取选择和构造。这里通过将在上一阶段中获取的重要影响因子转化为特征,更好表示预测模型处理的实际问题,提升对于未知数据的