AI=机器学习²，我们在去往²的路上 | 普林斯顿范剑青教授

2018年10月4日 296点热度 0人点赞 0条评论

大数据文摘授权转载自AI金融评论

在9月18日“2018世界人工智能大会”智能金融主题论坛上，中国互联网金融协会会长李东荣，加州大学伯克利分校迈克尔·欧文·乔丹（Michael I. Jordan）教授，复旦大学大数据学院院长、普林斯顿大学教授范剑青、汇付天下董事长兼CEO周晔带来了主题演讲。

其中，范剑青教授分享了《数据智能与金融创新》。他主要介绍了人工智能的兴起，以及数据智能如何增强市场效率，加速产业发展的，以及引领高科技的发展的。“人工智能的目的与价值，就是把大数据加工成智慧数据，为经济发展提供新能源，为科技创新提供新依据，为管理决策提供新信息。”

“大数据与人工智能为健康医疗、科学发现、技术创新、商业管理、政府决策等带来由信息海啸驱动的又一次工业革命，同时方方面面影响着人类的工作、生活和通讯方式。各行各业创新所产生的大量数据又增加了对海量数据处理和分析的强烈需求，促进了大数据与人工智能的发展。”

以下是演讲原文：

AI是机器学习的平方，我们在去平方的路上

每天数十万金融分析师涌向华尔街，重复繁琐的数据分析。上百万银行业者匆匆赶到工作岗位，开始他们每天常规工作。像一百多年前的农业、手工业一样，我们自然要问能否让智能机器来辅助这些工作，使得更多聪明才智可以投入高科技生产、艺术创作，提高人的生活体验。人工智能席卷全球，大数据、人工智能是伴随着数据与信息革命应运而生，发展迅速。上百万的摄像头，数亿部智能手机和几十亿网络搜索，和社交网络上的对话产生巨大海量数据，其中包括公共安全、公共卫生、消费倾向、商业活动、经济走势等等。同样数十亿的处方、海量的生物、遗传信息带来健康大数据。海量数据的收集促成了大数据时代的到来。海量数据的挖掘催生了人工智能的发展。换句话说人工智能就是从大数据到智慧数据之间的桥梁。

人工智能的起源是来自1955年，John Mccarthy创造了这个术语。理想的状况有点像科幻小说，“类人”机器，让它有认知、表达、思考感知能力，但目前还做不到。现实是希望能够用技术训练机器，将人从重复性、简单性、危险性的繁琐事物中解放出来，提高人的创造力和生活体验。换句话说人工智能的目的是要提高人的体验，不是让一些人失业的。第一代比较简单是机器表达与逻辑推理，机器证明、专家系统、逻辑系统。第二代是概率建模与统计学习的基础上知识图谱、机器学习、神经网络。

何为人工智能，翻译有点不好，机器智能其实更合适。Michael I. Jordan刚才说它应该是统计学。有些人可能不一定完全同意。在我看来，人工智能是机器学习的平方，让机器自动学习机器算法是机器学习的理想状况。它具体表现是在图像识别、语音识别、机器学习、专家系统、计算机视觉还有自然语言处理等等。如果我们按图灵测试来检验现在的很多系统，恐怕我们多半系统是机器学习，不是人工智能。换句话说我们还没达到平方，只是在往平方的路上。

那么大家可能会问什么是人工智能？Arthur Samuel的想法是让机器从数据终学习并做决策，我认为它是一个可扩张的统计算法，充分融合统计建模思想，以及计算优化方法，使得这些数据分析的思想能够在大数据的环境下得到实现。它最后的产品当然是一个可执行的程序。未来有可执行的程序我们需要有一个优化目标，有优化目标跟刚才Michael I. Jordan说的一样，需要统计建模。

大家比较熟悉的深度学习，其实是一个神经网络系统，更直白一点是数学的函数逼近，它用的是两种方法，信号源的线性组合，再做非线性的选择，重复的过程构成很复杂的函数逼近方法。

为什么它是如此成功，这又是一个权衡偏差和方差的有效方法。深度网络使得近似高维函数更加灵活，九十年代已经就有了。大数据的到来使得我们大大减少了方差，现代计算技术的革命使得大规模的优化成为可能跟现实，这样我们就能够更好更深度的学习函数逼近的方法。在图像识别、机器翻译、自然语言处理等方面都取得了很大的成功。这些问题其实从决策角度来说是比较简单的，因为个体的差异比较小，我说话有口音，我跟你的差异没有那么大。第二，信号即已知，我说的话所有的信号都在那里，这样问题比较简单。

机器学习的挑战

机器学习有很多挑战，在经济金融、生物医学、管理决策、人文科学里面有很多挑战。个体差异太大，更重要的是信息集未知，特征很难提取，需要多学科交叉。比如说闪电奔跑，它的信号集是什么我们大都不知道。我们自己也做了一些预测，比如说预测高频数据，接下来的走势是往上还是往下。我们做了自己的分析和特征提取。得到的结果是传统的逻辑回归跟深度学习，其实最后效果是差不多。换句话说，其实最后在其他应用里面，有时候如果特征提取是好的话，它的非线性并不是那么重要，更重要是特征自己的提取问题。我们在这个问题基本上可以看得出来，因为市场比较有效，能够可测性的精确度并不是特别高，这时候深度学习跟逻辑回归也差不多。

我最近看到一个消息，微软推出人工智能心脏风险测试指标，微软印度总经理表示他们新的API评分是基于四十万印度人的共享数据的基础之上，可以轻松的识别每一位患者的风险水平。具体他们怎么分析，什么结果都没有，同样的文章中只是一直在介绍深度学习的伟大。

我就把他们的结果差不多的东西放在这。这里面也有40万左右的人口，用80%的数据来训练机器算法。最后得出的结果也是这样，不过精确度并不算高，比随机猜测好一点。这个时候深度学习跟逻辑回归是差不多。这也是另外一个例子说明深度学习不能解决所有的问题，深度学习的成功应用是在语音、图像识别等方面，而且需要明白数据集是什么，特征是什么，这个问题可能更为重要。

接下来我举个比较成功的例子——预测债券风险溢价，是我们自己做的。当前我有131个宏观经济数据，此外的数据需要自行挖掘。我们用了8个汇总宏观经济系列，用已有的信息预测。有专业指导的信息学习可以改进预测的效果。我们这里用的模型叫做因子增量模型，看上去跟神经网络有相关的，其实在统计计量里面已经有过这样的模型。

如果只是用简单的算法来预测的话，大概可以预测18%，如果用因子选择，可以预测到24%左右。如果说因子选择的更好的话，可以预测到32%。如果说把统计的稳健思想都加进去的话，可以预测到38%。在这个基础之上，如果再加入神经网络，最后的结果可以达到45%左右，这个例子就说神经网络是有用的，但是一定要根专业知识相结合，怎么样能够找到更好的影响市场的因子，这样我们可以达到更好的风险预测跟控制的目的。

智能数据增强市场效率

第二块关于智能数据增强市场效率。在大数据的环境之下，金融行业面临着巨大的挑战，第一，现在的信息密度、深度和广度都有明显增加，自然而然我们就需要数据智能来提升市场效率跟决策力。现在除了金融衍生品、股票、外汇、宏观指数，还有很多非结构的新闻、文本和气候变化。如果用人工智能机器学习的办法，我们显然可以降低信息获取的成本，拓宽信息获取的渠道，提高信息传递的速度，并且提高信息的真实性。数据智能在金融里面有许多应用，从商业银行的消费金融、财务风险、客户管理、风险判别到证券市场的量化交易、智能投顾、风险防范和信用评估，还有保险业的信用管理、诈骗分析、获客分析、保险精算。政府职能里面有风险评判、智能监管、预警分析、政策评估。机器智能可以降低劳动力成本，减少信息不对称性，提高预测能力。

金融创新的一大挑战也是数据。首先，金融市场的风险触发机制更为复杂，有个体风险和系统性风险两个相叠加，数据来源方面多元化，行为更为紧密，除了市场内的交易数据之外，还有市场外的社交网络，影响范围更广，传播速度更快。第二，在信贷活动方面，信贷活动的评估给风险管理也带来加强，最大程度上获取信息，判别欺诈。信贷管理及时预判风险，交叉验证。第三，在投资决策方面，我们面临的不确定性，包括预测分析，对预测分析的需求明显提高。

金融最基本的作用把投资者的钱投放到生产的地方去，生产的地方钱又安全送回到投资者。实现这样的载体是我们的金融市场，它的效率分为信息效率、配置效率，后者是从市场形态、交易成本实现金融市场的职能。智慧数据可以提高信息效率，金融的特点数据来源多样，行为隐蔽，包括保密、脱敏、干扰、缺失、幸存者偏差等等。我们作为分析师或者作为整个市场和社会，我们无法拥有所有的数据，每个人只是拥有一小部分，数据共享变成是金融市场，提高金融效率的很重要的方面，数据拥有者对数据贡献和交流的意愿比较低，数据孤岛现象经常出现，监管也难以开展。有些金融机构和监管部门，有数据不能用，有数据不会用，有数据不敢用，这样的情况也经常发生。

智慧数据提高信息效率

怎么样构造一个机制实现数据共享呢？大数据金融创新中心提出这样一个构思，利用数据沙箱设计实现数据安全，同时在不影响隐私的情况下，充分发表充分的统计量，这样充分的统计量可以帮助我们分析数据，增强数据的信号。我们尽量设计鼓励数据共享的机制，以区块链等技术来实现共识的稳定，提高合作与激励的效率。推动监管科技提高灵活性，减少消极监管或者错杀，这是我们提高数据效率的关键部分。

我们要实现的目标就是数据共享来增加数据的流通性跟可靠性。数据挖掘方面可以提高它的使用效率，实现数据的价值。在存储方面，安全方面，我们可以保障存储隔离，保障数据的原始状态和可溯源，还有自动化配置等等。在金融里面很简单的一个问题，我们刚才说的数据源到底数据要用多大，如何筛选高效低险的企业，如何辨别不良企业，如何克服信用风险，如何防范风险道德。这些非常简单的问题需要从多元交付、海量增长的数据里面挖掘，在挖掘这些数据的同时，也能够让我们关注市场的微观行为，从而达到更有效的监管。

人工智能的目的就是提高数据挖掘的能力，而挖掘数据的相关性是多种多样的。举个例子，为了尽早预测沃尔玛的业绩，分析师会想方设法找比它更早预报业绩的相关公司，比如纸袋公司，从而用他们的数据帮助预测一个公司的业绩。但这种做法既费事又不精确。AI可以大大提高这些分析的效率和节省费用。一个星期的分析师和工程师的工作可以在一分钟内用机器学习的方法完成。AI能够增加市场效率，解决信息不对称的问题。

我们有很多网络数据和各种各样的“学习”。比如说高杠杆基金的持股网络中心能够帮助政府评估系统风险，如果市场需要，可以更精确地干预。而同样的，我们的同事研究过怎样从一个基金经理的持股情况推算出他的社交网络，辨别社交网络是否有违规的行为。在市场数据里面，网络数据里面，是非常之丰富的。

数据智能能够加速产业发展

第三部分，数据智能能够加速产业发展。第一表现在，金融科技的未来可以颠覆传统风控。主要有三方面体现。

科技红利，互联网使金融服务触达更多用户，收集海量多元的数据，而且除了这之外还有市场内外的信息。
大数据红利，传统的风控在新的经济环境下积累了60多年的数据，互联网也积累了十多年数据，这些数据可以彻底改变传统风控手段。
金融科技红利，智能创新的多尺度风险测度和风险手段不断涌现，这些手段可以得到及时的测试和反馈。我们做风控控制的目的不是预测风险的到来，而是反馈，使得消除风险，随着大数据的到来，人工智能的到来，我们能够有更多更好的方法来学习自适应、自回归的过程。

具体到业务产品，比如智能投顾，基本思想是利用机器完成客户需求分析、投资分析、资产配置选择等工作。意在替代人类完成财富管理或者投资建议方面的工作，实现投资的自动化。其中关键的技术有三点：

数据：数据有市场行为，比如说情绪指数和政策变量等；用户的行为，比如说社交、电商数据等。
方法：决策树、深度学习、回归分析等。
理论是基于投资理论寻求风险和资金组合最合适的最优级。

另一重要产品是大数据征信，利用数据采集、存储、分析，获取信用主体的多维行为信息，评估个人征信水平，降低信贷失信率。

关键技术是数据采集、数据存储、数据分析到评分模型，评分非常关键。
数据来源也是非常丰富，除了平时的生活数据之外，还有网络购物、客户评价、信息交易、社交信息等等。
应用的范围包括信贷管理、实物租赁、消费金融、保险风控。
服务的群体是小微金融和银行贷款无法覆盖的个体。小微金融是指从小资投资者的钱到小创业者。小微金融的产品基本上是低收入个体他们的金融需要是什么，从存储到投资到个人贷款等等之类的。它在经济发展中起着非常重要的作用。在发达国家大概能够帮助实现经济增长率为4%到5%，发达国家是2%左右。

值得注意的是，小微金融的发展瓶颈是合理定价，合理定价是任何金融产品可持续的基础。而基于大数据、人工智能的信用评估，能够提供更快更有效的决策。小微金融的作用显然是现在的科技创新开拓了金融服务的对象，使得我们以前对低收入或者中产收入，低收入没有多少信用的人，现在也变成能够有一些信用的基本分析。

中国大数据征信的挑战是体量比较大，贷款比较难，因为分布比较零散，业务不规模，盈利不明朗，信用比较难构建。网络社交消费大数据为征信提供了很有效的基本原料。小微金融在过去几年还是发展挺迅速的，市场引导和政府指导是一个长远发展的基础，政府布局对高科技产业发展尤其重要，这里有几个例子，张江高科技园支持了早期的展讯通信，现在变成世界第三大手机芯片供应商，也是国内最先进的领先半导体产业。上海硅产业投资公司几年前投资了数家欧洲半导体公司，现在估值翻了10多倍。中关村也有相关的例子。政府布局对人工智能、大数据、金融科技这些新兴产业，现在应该是非常重要的时候，所以需要市场引领和政府指导相结合，才能够把市场弄的更有效。

数据智能引领高科技

最后讲一下数据智能引领高科技。数据智能的发展促进了相关学科的发展，计算机、数学、信息学、统计学等等，也推动了高科技的创新从硬件软件到系统，也激励新产品的开发，拓展了新的服务对象。举个例子，对机器学习、统计学的挑战。大家现在常说的精准营销、精准医疗，处理这些问题的难点是数据多样性，我们怎么样能够让数据来源更多元，进行分析，对稀疏性、内生性、测量误差等等，因为大数据的原因产生了很多新的统计问题，处理这些问题的时候，需要更复杂更有效的算法。

对应用数学同样也有类似的挑战，从计算瓶颈上，我们经常会出现大规模的非凸的优化问题，我们经常需要在计算、统计上面提出新思想。对大数据系统也是同样有非常大的挑战。

【今日机器学习概念】

Have a Great Definition