我们其实还不能理解机器学习

2019年2月16日 362点热度 0人点赞 0条评论

作者：Benedict Evans

爆炸式地发展了四五年后，机器学习而今已逐渐成为人们耳熟能详的概念。

机器学习的发展，不仅仅体现在相关创业公司不断涌现，以及科技公司的自身重建（许多大公司都在推进相关的项目）；更为显著的意义在于，它可能是下一波工业革命的核心。

机器学习中的一个重要组成部分是神经网络，也就是有规律的模式和数据。借助机器学习，我们可以在数据中找到非直接的、隐含的数据结构。

机器学习解决了以前“人类能办到但计算机办不到”的一类问题——或者更准确地说：“人们难以向计算机描述的问题”。

虽然，一些很酷的机器学习语音和视频应用样本已经逐步浮出水面；

但是，我们似乎还没有彻底理解机器学习。比如：它对科技公司以及传统行业意味着什么，人们该如何思考它能够带来的创新，以及它可以解决哪些重要问题？

“人工智能”一词其实不太能帮助我们理解机器学习的内涵，而且多数人一听到这个词就懵了。

一旦我们说“AI”，就好像人类进化的转折点出现了，我们也瞬间变成了猿猴，冲着我们不能理解的未来尖叫，挥舞着我们的拳头。

实际上，目前市面上关于机器学习的讨论并不能帮助我们真正理解机器学习。例如：

数据是新石油
谷歌和中国（或Facebook，或亚马逊，或BAT）拥有所有数据
AI将掠夺走人类的工作
人工智能

而更有用的讨论方向可能是：

自动化
赋能技术层
关系数据库（SQL）

为何谈到关系数据库？因为它是一个新的基础支持层，改变了计算机可以做的事情。

在关系数据库出现之前——也就是20世纪70年代末之前，如果希望数据库算出特定主题的内容，例如“购买此产品并居住在这个城市的所有客户”，通常需要一个自定义的项目。

而由于数据库的结构并不适用于任意交叉的查询，如果想问一个问题，就需要建立一个专门的数据库。

可见，数据库是一种记录保存系统。而关系数据库，则将它们转变为商业智能系统。

关系数据库在很大程度上改变了数据库的使用方式，从而创建了新的范例和上亿美元市值公司。

关系数据库为我们带来了甲骨文（NYSE：ORCL），也给了我们SAP（NYSE:SAP；全球最大的企业管理和协同化电子商务解决方案供应商）。

SAP及其同行，为我们提供了全球即时供应链，从而使得苹果（NASDAQ:AAPL）和星巴克（NASDAQ:SBUX）的诞生成为了可能。

到了20世纪90年代，几乎所有的企业软件都是关系数据库，比如PeopleSoft（甲骨文旗下一款协同合作企业软件）、Salesforce（一款客户关系管理软件）以及SuccessFactors（一款人力资源管理软件）等几十种软件都运行在关系型数据库上。

显然，事实已经证明，人们在看到Salesforce或SuccessFactors时，不会再说“因为甲骨文拥有所有的数据库，所以其他模式永远不会奏效”。

相反，关系数据库已经成为了全球企业管理领域创造更多可能的中坚力量。而这，正是如今理解机器学习的一个很好的方式。

机器学习让我们改变了使用计算机做事情的方式，而这将为企业创造出更多不同的产品。最终，多数的产品将来都将会应用到机器学习。

这里一个重要的点是，虽然关系数据库具有规模效应，却也有赢家通吃的问题。

即便两家公司共用一个数据库，却不能协同使得一个数据库变得更好，如果卡特彼勒(NYSE:CAT)购买和Safeway(北美最大的食品和药品零售商之一)相同的数据库，后者的数据库也不会变得更好。

机器学习就是这样的：关键在于数据，但数据对特定应用程序具有高度特异性。

更多的手写数据将使手写识别器变得更好，更多的燃气轮机数据将使一个系统更好地预测燃气轮机故障，但这二者并不能互相提升——数据具有不可替代性。

这就是在理解机器学习时最常见的误解：人们错误地认为机器学习是一种单一的、通用的东西，认为谷歌(NASDAQ:GOOG)或微软(NASDAQ:MSFT)各自建立了一套机器学习系统，或者IBM(NYSE:IBM)有一个名为“Watson”的机器学习机器。

而这也一直是在理解自动化上的误区：随着每一波自动化，我们想象我们正在创造的是拟人化的机器或是具有广义智能的机器。

比如：在二十世纪二十年代和三十年代，我们想象钢铁工人拿着锤子在工厂里走来走去的样子，在20世纪50年代，我们想象着人形机器人在厨房里走动做家务。然而最后，我们没有得到机器人仆人，我们创造出了洗衣机。

洗衣机是机器人，但它们并不“智能”。它们不知道什么是水或衣服。此外，即使仅仅在洗涤方面，它们也不是通用的——你不能把餐具放在洗衣机里，也不能把衣服放在洗碗机里。

洗衣机只是另一种自动化，在概念上与传送带或取放机器没有什么不同。

同样，尽管机器学习能够解决计算机之前无法解决的问题，但这其中的问题并不是一概而论的，而是每个问题都需要不同的方案、不同的数据以及不同的公司来解决。它们中的每一个都是自动化的一部分，都是一台洗衣机。

因此，理解机器学习的一个挑战是：我们不但要理解其中的数学方程，也要拥有对AI的幻想。

机器学习不会成为一种先知型的机器人，但将其仅仅视为数据统计工具也不妥。大家都说说“机器学习可以让你提出这些新问题”，但到底是什么问题却不明确。

我们可以做出很棒的语音识别和图像识别系统，但问题是，普通公司会拿这些系统做些什么呢？

正如美国一家大型媒体公司的团队不久前对我说的那样：我知道我们可以使用机器学习来编排十年间采访运动员的视频，但为什么要这样做？

那么，对于企业而言，机器学习对于它们的真正意义是什么？我认为有两套思考方法可以采用。首先是根据数据类型和问题类型的方式进行思考：

1. 机器学习可以作为一种分析或优化技术，对于已有的数据及问题提供更好的结果。例如， Instacart （美国一家在线杂货配送服务商）建立了一个系统，通过杂货店优化个人购物者的路线选取，并实现了提高50％的优化（这是由三位工程师使用Google的开源工具Keras和Tensorflow构建的）。

2. 机器学习可以让我们对已有数据提出新的问题。例如，正在寻找案件线索的律师，可能会搜索带有“愤怒”“焦虑”等情感类关键词的电子邮件，或异常的发信规律或文档集群，以及进行更多的关键字搜索，

3. 机器学习开辟了新的数据类型进行分析。从前计算机无法真正读取音频，图像或视频，但是现在，这都将变为可能。

在这一点上，我发现成像是最令人兴奋的：虽然只要我们有计算机，计算机就可以处理文本和数字，但在以前，图像（和视频）大部分是不能被处理的；现在有了机器学习，计算机将不但能够“看到”图像，并且能够理解其中含义。

这意味着图像传感器（和麦克风）将成为一种全新的输入机制，像一种功能强大且灵活的传感器，可以生成机器可读的数据流。这些都可以归结为的计算机视觉问题。

我最近遇到了一家为汽车行业供应座椅的公司，该公司已将神经网络放在廉价的DSP（数字信号处理）芯片上，配备便宜的智能手机图像传感器，以检测织物是否有皱纹。

我们更应该期待各种类似的用途，也就是机器学习在非常细微领域，例如微型小部件以及单一件事件上的应用。

而将机器学习描述为“人工智能”是没有用的，它更多的是把以前无法实现自动化的任务自动化。

这种自动化能力就是思考机器学习的第二条思路。发现纺织物是否有皱纹不需要20年的经验——它真的只需要哺乳动物的大脑。

事实上，我的一位同事建议，机器学习将能够做任何你可以训练狗做的事情——这也是一种思考AI的不错的方法：狗究竟学到了什么？训练数据中有什么？你怎么问？但这也不是全部，因为狗确实有智商和常识，不像神经网络。

五年前，如果你给计算机一堆照片，它除了按尺寸排序外，还做不了别的。一个十岁的孩子可以把它们分成几个男人和一个女人，一个十五岁的孩子把它们分成酷和不酷的，一个实习生可以指出最有意思的那张。

今天，借助机器学习，计算机将匹配十岁孩子的能力，也许是十五岁的。它可能永远不会达到实习生的水平。但是，如果你有一百万个十五岁的孩子来查看你的数据，你会怎么做？会发现什么，会看到什么图像，会检查哪些文件传输或信用卡付款？

也就是说，机器学习不需要匹配专家或数十年的经验判断。我们需要“听取所有电话并找到带有愤怒情绪的电话”。“阅读所有电子邮件，找到带有焦虑情绪的电子邮件”。“看看十万张照片，找到那些很酷（或至少很奇怪）的人。”

从某种意义上说，这就是自动化。

Excel没有给我们人工会计师，Photoshop和Indesign没有给我们人工图形设计师，而且蒸汽机确实没有给我们人造马。相反，我们是在成规模地逐一攻克每一个小问题。