数据挖掘:用大数据的刀切小数据的蛋糕

上海国家会计学院
2019-07-30 09:08 浏览量: 3133

本文根据北京元年科技股份有限公司高级副总裁李彤在“信息技术与财务的未来”高峰论坛演讲内容整理

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程,或者企业按既定目标,对大量企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的方法,即Data Mining ——从数据中获取“知识”。

数据挖掘是如何产生的?数据库技术和数据处理技术已经有60年的历史,60年代伴随着计算机的普及,数据库技术兴起,实现了流程效率标准化,但也产生了大量数据,如何运用这些数据对管理进行决策成为下一个等待解决的问题。

时间转到80年代,这时出现了专门的OLAP技术(数据分析服务),它对所有数据进行加工利用,把ERP中的关系数据和分析数据分离,目的是解决数据量比较大的情况下,在分析计算的时候不影响正常业务的发生。

但是,运用OLAP做分析时仍然主要依靠于人,比如我们发现整个集团的利润或销售收入有问题,我们可以按产品、客户一级一级找,最终发现是某一个区域的某一个市场上的某一个产品出现了问题。但想具体分析是什么因素影响了销售和利润的达成,那我们就没有办法了。

进入20世纪,商业社会飞速发展,数据量越来越大,没有办法依靠个人的经验总结,必须要依靠算法,数据挖掘的构想由此产生。

凡是对数据挖掘有一点基础概念的人都知道沃尔玛在数据挖掘中有一个经典的案例,他们通过对海量消费者购物小票购买商品的关联分析,发现有30%购买尿布的消费者会同时购买啤酒。利用这个规律可以帮助他们在陈列货架的时候,把尿布和啤酒放在相近的位置,事实证明能够非常有效地促进啤酒的销售。

这个规律实际上就是数据挖掘技术发现了知识,其实背后是有一定逻辑支持,因为很多年轻的父亲肩负着给孩子买尿布的工作,到超市的时候自然就顺手给自己买了啤酒。试想没有数据挖掘的方法,依靠个人肯定很难得出这样的结论。这就告诉我们,其实数据挖掘的核心是数据加算法。

在数据挖掘的领域中算法非常多,大概可以分成两大类,第一描述类,包括聚类分析、寻找管理、异常检测等,是对现有数据的处理;第二预测类,包括分类、回归分析、序列分析等,主要通过建立数学模型,利用历史数据搭建出来的数据模型,对一些新的数据进行判断。

不过,光有算法是不够的,数据挖掘的方法没有特定的一招可以打遍天下的方法,而一定是在理解业务的基础上吃透手里的数据。通过直觉判断设计模型,由输出的数据来验证直觉是否正确,如果不正确再增加调整分析模型。数据挖掘需要反复迭代,而且是针对每一个应用场景非常个性化的分析过程。一直到模型可以应用的时候,才会把它投入到解决实际问题的应用当中。

对于企业来讲,真正应用数据挖掘需要构建完整的从数据获取、数据清洗、治理到建立数据仓库,抽象出多维模型的流程,然后才能提供给数据挖掘的算法进行数据加工和处理,它需要企业有一整套数据架构的支撑,才能做好数据挖掘的工作。

数据挖掘的效果似乎很炫酷,实际上过程非常曲折。在数据获取、算法设计的过程中会不断遇到各种各样的挑战,才能最终取得一点点对于业务有帮助、有价值的知识和信息。总结一下制约着数据挖掘应用的因素:

1、数据质量,如果数据都是垃圾,那肯定挖不到金子。

2、算法基础,参与数据挖掘工作从业人员需要掌握统计学和数学的知识。

3、计算性能,如果数据量大,算法复杂,那么对计算性能就会有非常高的要求。

数据挖掘是大数据核心的应用,对于在企业中数据挖掘技术的落地,我们建议企业从基础开始,建立一套经营分析预测的基础网状模型体系,建立多变量、多因素、复杂的决策网络预算、经营预测,尤其是能够深入到某一个业务环节,例如销售预测、供应链预测等一些深入的模型。

在整体网状模型的基础上,再利用大数据和数据挖掘在例如价格预测、销量预测等点上的进行应用。在在这些点的应用中让数据的分析和预测更精细,更科学。之后通过这些点状应用与收入、成本、费用、利润、现金流等完整的企业分析决策模型整合,在整体上发挥更大的决策支持价值。数据挖掘是一种科学决策的思维,即便在缺乏“海量”数据支撑的企业,利用这种思维和方法,还是能够带来数据价值的创造和提升。

长按识别二维码,下载PPT全文

相关阅读

作 者| 李彤

| 胡晓栋

编辑:

(本文转载自 ,如有侵权请电话联系13810995524)

* 文章为作者独立观点,不代表MBAChina立场。采编部邮箱:news@mbachina.com,欢迎交流与合作。

收藏
订阅

备考交流

免费领取价值5000元MBA备考学习包(含近8年真题) 购买管理类联考MBA/MPAcc/MEM/MPA大纲配套新教材

扫码关注我们

  • 获取报考资讯
  • 了解院校活动
  • 学习备考干货
  • 研究上岸攻略