您的位置: 网界网 > 周报全文 > 正文

[周报全文]机器学习的定义

2014年08月13日 15:22:43 | 作者:IBM大数据专家 James Kobielus | 来源:网界网 | 查看本文手机版

摘要:随着人们对机器学习的兴趣不断增长,机器学习的定义也在不断发展,目前已经涵盖了自学习和源自新数据的模式发现(Pattern Discovery)等众多技术。

标签
大数据
机器学习

所谓数据科学家是指那些能够使用最合适的工具和方法完成自己工作的专业人士。出色的数据科学家能够将自己的整套知识和模式发现解决方案用于统计分析之中。

我们应该如何归纳这些数据科学技术呢?通常,我们用“高级分析”这一术语来统称它们。这一术语在表述上故意显得比较模糊,旨在将统计分析、数据挖掘、可预测模型、自然语言处理,以及支持向量机(Support Vector Machine,即SVM)等一切技术手段涵盖在内。

在一般人看来,这一涵盖范围中的大部分都是“数据挖掘”,其围绕的重点是隐私侵犯与监视应用。不过在我看来,这相当于把所有能在空中飞翔的鸟类都称为“秃鹫”一样。其原因在于数据挖掘仅被应用于结构化数据,并常常涉及一些特定技术,例如回归分析、决策树等,而且一般不会被用于对非结构化的内容进行分析。

机器学习”这一术语已经逐渐开始变得包罗万象。机器学习至少已经成为一种针对当前数据的便捷处理手段,科学家们用它来指代自学习和源自新数据(大部分属于非结构化数据)的模式发现等大量前沿技术。而人们对于机器学习定义的探寻似乎也延伸到了更为广泛、且界线模糊的领域内。

这是我在阅读了最近发表的一篇名为《学习与教授机器学习:一个人的旅行》的文章后的感想。这篇文章的作者为来自圣迭戈州立大学和True Bearing Analytics公司的Joseph R. Barr。作者在文章中讨论了机器学习的发展历史,以及他个人关于这一课题的培训经历。他指出:“将机器学习、数据挖掘、可预测性分析以及高级分析,或多或少地视为同义词其实并无不妥。”

我不知道将机器学习与前面提到的其他技术相提并论是否具有意义。正如前面已经提到的,机器学习主要用于非结构化数据,而数据挖掘则专门针对结构化数据集。与数据挖掘一样,机器学习关心的是在历史数据中找到多种不同的模式,而预测性分析相反则更侧重于寻找能够经得住新收集数据检验的预测性模式。然而机器学习、数据挖掘和预测分析所针对的范围均非常狭窄,高级分析则是一个更为宽泛的概念,能够涵盖全部这些技术。

在我看来,机器学习将是一只脚立足于数据科学,同时另一只脚立足于计算机科学。这是我对Barr在文章中所说的话的理解。Barr在文章中指出:“机器学习发展自多个彼此不一定存在交集的数学学科,其中最值得注意的子类包括数理统计、计算与算法、信息理论(+本站微信networkworldweixin),以及数学优化……在过去,机器学习是与人工智能紧密结合在一起的……大多数与机器学习相关的议题主要关注凸包的理论可能性、组合、凸度与优化、统计、信息,以及计算。对于这份名单,我会向其中添加三个额外维度:启发法、经验与应用。”

这些都值得我们仔细理解与体会。这一讨论让我们清楚地知道机器学习拥有一条强大的学习曲线,只有通过多年在大学课堂,以及实验室里潜心研究才有可能掌握其精髓。这实际上也是Barr这篇文章的核心所在:自己作为一名专业的数据科学家对机器学习培训的体会,以及当前为培养未来的数据科学家设置正确的机器学习课程所面临的挑战。

机器学习定义范围的变化反映了这些挑战,机器学习之下的不同学科将持续以创新方式不断交叉而又相互促进。而这将拓展每一位数据科学家的思维,以及他们用于定义机器学习的术语。(范范编译,更多内容详见: http://www.cnw.com.cn/P/5879)

[责任编辑:孙可 sun_ke@cnw.com.cn]