与世界重连：当AI算法植入失聪者耳蜗

2021年3月2日 468点热度 0人点赞 0条评论

◆ 今年3月，世卫组织发布的《世界听力报告》显示，目前全球有15亿人受到听力损失影响；到2050年，预计至少7亿人需要听力康复服务。我国的相关普查曾显示，尽管约有500万听障者可凭借植入人工耳蜗获得听力提升，但目前仅有约20万中国人植入了这项设备

◆ 技术人员们开始试图让算法像神经元一样工作。然后，就像出现在天籁实验室里的进展那样——AI降噪模型识别清噪音和人声的准确率提升到了96%以上

◆ “我们需要去做的是把中间的这些鸿沟填平，给听障伙伴更多的机会，让每个人都有实现自己人生价值的地方。”

　　让听障者重新听清世界会有多难？过去二十年间，人类想到的终极解决方案是人工耳蜗——它给人的感觉，有时就像在高速行驶的地铁车厢里进行通话。现在，基于人工智能的降噪技术则试图剿灭这些阻挠听觉的恼人噪音。最新的试验中，基于AI降噪技术的人工耳蜗被植入到一位广东女孩的耳内：她第一次听到了风声，鸟鸣，以及属于母亲的独一无二的嗓音。这项人工智能技术理想中的终点，也正是赋予人工耳蜗与人耳相同的听力。它象征着科技的无限可能，也是一场向善的努力。

一、“雪中送炭”

　　晓婷喜欢跳舞。走路还跌跌撞撞时，母亲陶正红带着她，走过放着音乐的路边商店，晓婷总跟着跳起舞来。到了幼儿园，晓婷自觉地起床、吃饭、上厕所，比其他小朋友还要乖上一些。老师们断定，这一定是个非常聪明的孩子。

　　但晓婷始终不说话。刚开始，这只是陶正红圆满家庭生活里的一点污渍。然后，污渍越长越大。陶正红带晓婷来到儿童医院，被告知晓婷患有耳聋，先天性的。陶正红“一分钟难过的时间都没有”，也没有流一滴眼泪，她只想知道孩子未来该怎么办。医生说，可以植入人工耳蜗，进口，每只十几万元，不保证效果。对二十来岁的外地务工夫妇，这是一个“想都不敢想”的天文数字。

　　原来那些让晓婷起舞的音乐，在她耳中仅仅是模糊的震动。这是听障群体的独特障壁——他们饱受痛苦，但往往无法清晰表达。10年前的普查数据显示，中国共有2780万听障人群，其中约500万人可凭借植入人工耳蜗获得听力提升。但目前，仅有20万中国人植入了这项设备。况且，这条仅有的外界通路也并不顺畅——作为一项电子辅助设备，传统人工耳蜗所带来的听力，就像有人在高速疾驰的地铁车厢与你通话，轰鸣之中，信号时断时续。

　　生物的听觉系统在上亿年中进化出了复杂的机制。人耳中有15000个听觉细胞，直接与大脑相连，能从一场酒会并存的几十种声音中自觉捕捉到需要放大的那一项。这是后天的电子设备难以简单达到的效果，同时也意味着，健听人几乎无法感同身受到人工耳蜗下噪音环绕的体验。

　　为数不多的特例出现在深圳，腾讯天籁实验室，30多名技术研究员终日与噪音为伴。2020年，有3亿场会议在腾讯会议上举行，参会者置身于各种场景——高铁、超市、咖啡厅乃至自家厨房。但这并不会被终端另一侧的与会同伴们感知。一个出自天籁实验室的AI降噪算法在App里终日运转，吸收环境里的众多声音后，它将筛选出环境噪声和参会者的话语，对前者进行消除，针对性地增强后者。

　　天籁实验室被海绵包裹的消音室里，噪音回响不断。研究员们用录音笔和声卡捕捉到的各种噪声汇聚在此，交由AI算法进行机器学习。算法开始具备智能，神经网络被赋予起生物学层面的神经特性——它逐渐认清键盘声、关门声、纸巾的摩擦与杯子碰撞桌面的声音，明白它们与说话声的不同，就像人耳能做到的那样。

　　伴随着技术人员听过的海量、漫长的噪音，天籁的AI算法能力达到了国际顶尖水平。超过1亿人在腾讯会议等应用上完成了实时沟通。在几轮被噪音折磨到头晕的工作后，一个有些突兀却又水到渠成的想法开始在天籁实验室的成员心中形成：几个小时的噪音就将我们折磨到这种程度，对于感受更强烈、24小时不间断的听障者，他们将多么痛苦？

　　”AI降噪技术，对健全人锦上添花，对听障人士是雪中送炭。” 腾讯天籁实验室高级总监商世东想到，自己团队开发出的这项技术，应该也可以用于提供人工耳蜗的性能。

　　想到这里，他开始激动。在音频领域20多年，他钻研过杜比声，提高娱乐体验，后来专注通讯质量。较之过去出于商业考量的所有工作，这次尝试似乎有所不同——用技术去触达世界上最难以被连接的一批人。

▲ 腾讯天籁实验室的工作设备　　

二、无声世界

　　晓婷确诊失聪后，母亲陶正红就明确告诉她，你和其他孩子不一样。旁人喊晓婷没有回应，意识到他人面露不悦，陶正红连忙解释。晓婷会好奇：妈妈，你在说什么？陶正红告诉她，妈妈在和人家说你听不见——这是绝不能逃避的事情。部分失聪儿童被家庭刻意隐瞒，直至懂事才意识到自己的不同，随之而来的往往是更长久的心理崩溃。但同时，陶正红从不在晓婷面前用“耳聋”这个词。

　　大众惯常使用“聋哑人”来称呼听障人群，这一命名并不准确，“听不见和说不出，本来就是两种完全不同的障碍。”深圳市信息无障碍研究会秘书长杨骅说，随着技术进步，部分听障人士通过训练，可以进行口语交流。但在多数人的生活里，与听障者“对话”的场景依旧极少发生。晓婷少年时被送入语言训练机构，月学费2800元——那时，陶正红的月工资是1200元——尽管晓婷学会了讲话，但无法通过听力来纠正发音，除了陶正红，常人很难理解她的语言。

　　为理解他人的语义，晓婷需要正视对话者的面庞，阅读唇语。她由此以为，对话必须是一种面对面的活动。每次母女间的对话，晓婷都要将妈妈的脸掰正，让妈妈正视自己的嘴唇。

　　晓婷逐渐接纳了自己听不见的事实，也将自己隔绝于正常的社会生活之外。她不肯独自出门。听不清这事儿太难以解释了。常有陌生商户不耐烦：“问那么多遍，你到底买不买？”

　　相比生活上的磕绊，陶正红更在意晓婷的内心，“我怕她自己跟自己过不去，没有正常人一样生活的勇气”。她为晓婷报名了特殊人群的马拉松，晓婷一开始不能接受，陶正红说，你早晚要在生活里挑战自己。晓婷最终获得了全区第八名。

　　陶正红又下定决心，至少在听障者的小世界里，要将晓婷的舞蹈梦延续下去。在听障孩子们的舞蹈培训班里，晓婷一直是跳的最好的那个，多次受邀到北京演出。一位演员被晓婷和同学们的舞蹈震撼，给了小婷一个巨大的拥抱。他非常好奇：“她们都听不到音乐，有怎么跟上节奏？”

　　答案是大脑对时间与节奏的记忆。晓婷记下整支舞蹈的节拍和动作。当然，依然免不了忘记，晓婷是C位，没法像其他女孩一样偷瞄旁人——舞蹈老师会在表演时击鼓，震动从鼓面通过地板传递至脚尖，唤醒她的肌肉记忆，帮助她流畅地跳完舞蹈。

　　13岁时，晓婷登上了中央电视台少儿春节联欢晚会的舞台。那场晚会上，她身着碧绿长裙，笑容烂漫。

　　在听障人群中，晓婷属于语前聋，即先天异常或在婴儿时期就听觉受损。还有人被称为语后聋——曾经能听见声音，而后又失去了它。这是另一种残酷。

　　阿树的听觉便是一点点被剥夺的。她在江西高校就读英语专业时，大三的某天，校园广播里放送歌曲，邻座同学说：歌词真好。她拼命听，怎么也听不清。恐慌是第一反应，更多是对自尊的伤害，“跟残疾联想到一起，自己那一关过不了”。她不愿意去医院就诊。

　　阿树开始用各种方式遮掩自己和别人的不同。每次缴费时，她直接给出一张大额钞票，让对方找钱，避免一切可能听不清的对话。毕业后到外企工作，她会让老板讲话时提高音量。听力一点点消失，心理压力逐渐被抬升上来，“自卑感像雪球一样滚下去”。客户在展会上向她提问，她举高了手臂回答，“再见!”同事睁大了眼睛盯着她。在那个自觉无法挽回的结局前，她只想逃避。

　　直到那天早上，阿树醒来，声音从世界里彻底消失了。她看到每个人的嘴巴都在动，但声响全无。手机音量调到最大，那首自己曾经最喜欢的歌，现在只有单调到可怕的“滋啦”声。她罹患了最严重的的神经性耳聋，声音在耳内会衰减110分贝——这意味着她只有站在飞机的螺旋桨前，才能勉强听到一点声音。

　　别无他法，这个曾经的高材生辞掉工作，带着500多本存书，回到老家。离开城市时，她想，自己人生的道路就暂停在此了。

▲ 陶正红正在观察女儿晓婷练舞

三、曙光与雾

　　晓婷在语言训练机构的5年，是依靠陶正红向亲友借款度过的。承担不起人工耳蜗的植入，晓婷戴上了2万多元的助听器——这笔钱是晓婷外婆当环卫工时积攒下的。“市面上最好的助听器”一度让这个家庭燃起希望，但又旋即破灭：戴上助听器后，晓婷能听见的声音依然极为有限，鼓声是其中之一。医生告知了更残酷的现实，随着时间推移，晓婷本就不多的听觉神经细胞会因为缺乏刺激，不断走向衰亡——最终，仅有的鼓声也将与她告别。

　　曙光出现在2018年，广东省将人工耳蜗纳入医保，耳蜗厂商诺尔康配套起公益基金，晓婷得到了免费耳蜗和植入机会。200多年前，意大利科学家Volta第一次将电极贴近双耳，一阵锐响迅速在他脑中炸开——这是人类第一次尝试用人工电信号刺激听觉；直到上世纪70年代，利用电极收集声音信号，再对大脑进行相应刺激的人工耳蜗得以问世。陶正红记得，人工耳蜗植入手术前，晓晓婷被推进手术室时，脸上满是期待与高兴。

▲ 晓婷佩戴的人工耳蜗

　　相比早已习惯无声世界的晓婷，刚刚失聪的阿树将内心完全封闭。在老家，家人和她每天的对话仅限于喊她吃饭。饭桌上，她也抗拒一切交流。旁人试图与她交流，她只回一句：“对不起，我听不见。”每一次对话都会将伤口触碰、掀开。她将自己埋在书中，希望从典籍中得到慰藉。老家的小镇上，她无从得知其他听障者究竟有怎样的生活。信息凝滞了，“困在自己的世界里。”

　　某天，市领导下乡考察，偶然间惊讶地发现，一位少女居然在偏远的村庄阅读英文书籍。“世界上听不见的人很多，大家都在过着更广阔的生活。”经由他的搭桥，完全失聪一年多后，阿树也在诺尔康那里得到了植入人工耳蜗的机会。

　　戴上耳蜗那一刻，阿树首先听到了“呜呜”的混响，她努力寻找声音的来源，看到听力培训师的嘴唇在动——仅仅一年多过去，她对有声的世界已经如此陌生了。她努力回忆以前听到的声音，首先回响在脑中的是自己的名字，然后是听力师一句连贯的话：“你开心吗？”

　　“开心！我开心啊！”阿树当即回复道。内心的围墙转瞬便瓦解了，只剩下渴望，“你在跟我讲话呀，那你跟我多交流交流吧，我又听见声音了，我要多说话。”

　　深圳市信息无障碍研究会秘书长杨骅观察到，听障群体的最大诉求，“不仅是对声音的渴望，更是对交流和沟通的渴望”。

　　几天后，阿树在院子里看书，耳边传来“咚咚咚”的12声敲击，她愣住了：这是钟声？她跑到家里的老爷钟前，指针正好指向12点。

　　声音一点点回来了。风开始清晰地拂过耳边，然后是鸟鸣声，一个月后，她开始和家人交流。

　　打击是在返回城市时的高铁站突然降临的。那是一个无比嘈杂、混乱的环境。大大小小的噪音涌入微小的电极中，“在耳蜗里面混成一锅粥”。她头疼欲裂，突然明白了耳蜗佩戴者间流传的那句话——安静环境下是正常人，多人聊天时是局外人，嘈杂环境下依旧是听障者。

　　横亘在冰冷机械和细密神经间的那个最大难题依旧没有解决。正常人耳中拥有着15000个听觉细胞，听障者耳中却仅存几百个——为了让大脑获得听觉刺激，它们会拼命放大包括噪音在内的一切声音。

　　曾有听障者向商世东描述：佩戴人工耳蜗的自己，就像身处在一片浓雾，偶尔露出的一丝阳光是恩赐也是折磨，整个世界似乎浓稠而闷塞。只要噪音不被精准排除，他们就依旧被置于另一个世界。

　　阿树再一次陷入了困境。　　

四、重塑听力

　　事实上，全球领域内，人工耳蜗技术已经20年没有出现核心突破了。诺尔康等厂商一筹莫展时，2012年前后，在互联网科技行业，具有更大运算力和储存空间的GPU开始普及。它具有传统中央处理数十倍的性能，从而赋予了人工智能更大的可能。

　　训练人工智能算法的方式从传统的机器学习进化到深度神经网络——简单来说，技术人员们开始试图让算法像神经元一样工作。然后，就像出现在天籁实验室里的进展那样——AI降噪模型识别清噪音和人声的准确率提升到了96%以上。

　　2020年初，在与听障者相关组织的交流中，商世东了解到，很多先天失聪的孩子因为无法有效接触外界信息，甚至连肢体发展都出现了障碍。这给予他很大触动。不能再等了，腾讯天籁实验室所储备的AI降噪与场景识别技术，能否迅速做些什么？他联系上深圳市信息无障碍研究会，随后辗转找到了诺尔康公司。对于这个公益合作，三方几乎一拍即合。2020年9月27日，国际聋人日，几方共同宣布，将面向行业开放天籁实验室的相关技术，发起“天籁行动”，助力人工耳蜗和助听器等厂商提升使用效果。

　　但在具体执行时，腾讯的技术团队发现，提升人工耳蜗效果的需求远比在腾讯会议等软件中更难实现。王燕南是腾讯天籁实验室的高级研究员，拥有中科大博士学位，在机器学习及语音信号处理等方面拥有丰富经验。可对于“让机器设备完全像人一样”，他心里并没有十足的把握。

　　“减少噪音、增强人声”，实际上仅是人工耳蜗的核心需求之一。佩戴者们实际生活所面临的环境要比这复杂得多。作为成熟的技术专家，商世东将其尽可能归纳为四种场景：单人对话；安静场合聆听音乐；纯噪声场景，比如马路和市场；以及带有噪音的语音场景，例如聚餐和会议。这背后需要四种截然不同的方案提升耳蜗佩戴者的听声效果。

　　“不是人声越大，环境声音越小越好，比如在马路上，就要听到适当的过往车声。”商世东的思路是，整套方案必须尽可能还原人耳所能覆盖的各种场景。这要求AI算法能够先对不同的环境作出识别，再给出相匹配的反应。

　　问题接踵而来。天籁团队研制出了满足要求的算法，但这组程序太大，无法塞到人工耳蜗中央那枚微小的芯片中去。以手机处理器和蓝牙协议连接似乎是可行的——可又带来了延时的问题——就像有人在100米外用喇叭与你对话，声音足够大了，感觉依旧奇怪。重塑听力的伟大角色不得不暂时回到传统工程师的位置上，以最简朴的方式，从边边角角处降低延时与耗电。王燕南打了个比方，“就像堆积木时，落成后的高塔里有些模块其实可以抽掉，又不会让整个积木倒塌。”他们必须找到这些模块。

　　终日与人工智能算法相处的工程师会有一种感觉，与这玩意儿相处就像培养孩子，你有时要敏锐地给予它大的方向，有时又需要细致入微的照顾。3个月内，商世东和团队每1-2周就要迭代出一份新的程序版本。但人工智能的魅力也恰在于此：它刚开始时让人操心，什么也不懂，简直把人累得要死；但随着你投入越来越多可供学习的资源，它将展现出超人的潜力。

　　即将植入人工耳蜗的AI算法逐渐展现出这些潜质了。多年来，诺尔康常务副总裁银力有一个心结，听障者即使佩戴上人工耳蜗，依旧无法聆听音乐。从声学角度看，音乐的振动和人声并不相似，却与噪音更加接近。天籁实验室的算法解决了这个问题：纯音乐的场景中，它不仅将完整保留音乐旋律；在比较敏感的频段，还会对音乐旋律和音色进行增强。

　　只要能得到技术人员的提示，算法开始在越来越多的地方“变得像人”。比如短信、电话的提示音，以及地铁公交的到站铃声，它们都不是人声，但需要作为环境噪声被抹消掉么？显然不要。天籁AI很快习得了这些要求。基于神经网络算法的耳蜗开始走向接近人类原始听力的过程。

▲ 腾讯天籁实验室高级总监商世东正在工作　　

五、技术的终点

　　现在，新一代耳蜗的试戴机会摆到了晓婷的面前。母亲陶正红没有犹豫，“立马行动，不会等，机会不经常有”。去年下半年，晓婷成为了基于天籁AI技术的新款耳蜗试用者。

　　改变确实迅速发生了。佩戴上崭新耳蜗的瞬间，晓婷首先感到的是轻微的刺痛——比之前清晰许多的声音涌进了脑海。过去，晓婷只能粗略地分辨男女声，听到陶正红的声音像是“老人家说话的沙哑的声音”；刚戴上新耳蜗，她对陶正红说：妈妈，你的声音原来更尖细，和爸爸不一样。

　　走在公园里，晓婷忽然问陶正红，什么声音？陶正红一听，是鸟叫，她告诉晓婷，晓婷又说，是“两只鸟在叫吧”。陶正红抬头看，两只鸟就在那里。还有一次，陶正红骑着摩托车送晓婷上课，激烈的风声正在耳边吹过，女儿拍了拍她的后背，“妈妈，你的手机响了”。陶正红差点哭出来，她说，这几乎是这些年来最幸福的时刻。

　　晓婷的听觉世界逐渐清晰起来。陶正红忘记带钥匙，敲下门，晓婷很快跑下了楼。很多人提到，晓婷眼睛里的光彩似乎都变多了。

　　对于阿树，人工耳蜗让她终于彻底放下了交流不畅的负担。之前，即便凑到耳边，她还是没办法听清全部话语。戴上具备降噪功能的耳蜗后，在一场热闹的活动上，同事在她耳边说悄悄话，她一字一句都听得清了。

　　阿树拾回了听力，也拾回了自信。她接过诺尔康抛来的橄榄枝，成为市场专员，定期对用户进行回访。相似的失聪经历让她更容易打开用户的心扉，“能体会他们此刻的痛苦，也比正常人更能够体会他们的心情。”

　　她给那些还没完全恢复听力的用户传递经验，如果在嘈杂环境下听不清对方说话，可以试着集中注意力、抓取关键词，或者就很诚恳地告诉对方：“对不起，我听力不太好，能不能说慢一点，让我加入到你们谈话当中。”最重要的只有一点——不要恐惧。

　　这份工作让阿树感受到一种前所未有的成就感。“一般产品服务一个人，对我们来说是一辈子。”阿树说，“用自己的力量改变一个人的人生轨迹，从最初的低迷、困惑到现在的恍然大悟，对我来说非常有意义，我会觉得很幸福。”

　　“我们需要去做的是把中间的这些鸿沟填平，给听障伙伴更多的机会，让每个人都有实现自己人生价值的地方。”深圳市信息无障碍研究会秘书长杨骅说。

　　当人工耳蜗的效果不断精进的同时，也还有更大的挑战正在逼近这些实验室里的科学家们。银力依旧期待着人工耳蜗能迎来一次底层技术的彻底革命。即使是和腾讯天籁实验室合作的这款新式耳蜗，也仍有可以提升与调试的细节。

▲ 腾讯天籁实验室的研究员们正在采集室外噪音

　　人的神经系统几乎是这个星球上很难厘清的东西；语言则是人类文明最复杂的产物之一。银力这些年服务过各种状况的人工耳蜗用户，其中有人突然就听不到了——他的听觉神经异于常人，格外容易疲劳。人工耳蜗发出的强烈电刺激会诱发它们自行休眠。银力降低了电刺激的强度，声音便回来了。专业医生有时都摸不准其中的道理。

　　面对一首由人声演唱的歌曲时，人工耳蜗目前也依旧无法展现它的原貌。器乐和人声混杂在一起，超出了当下算法的处理能力。这使得钟爱KTV的阿树如今只能演唱自己失聪前习得的老歌，对于那些新歌手的作品，她只能通过朋友们的表情分辨动听程度。诺尔康的工作人员也把这个问题抛给了商世东和他的团队。几十年过去了，工程师们一直没有想出办法。现在，计算机里进行着每秒几亿次的高速运算，答案可能就藏在那里面。

　　至少现在，技术带来的崭新体验已然带给了晓婷更多的期待——从无声到能听到混沌的声音，再到从噪音中分辨鸟叫。有一天，晓婷对陶正红说，以后“是不是能听到针掉地上的声音”？

　　陶正红注意到，不少听障孩子的家长会早早放弃孩子，“认命了”，等孩子长大成人随便安排进工厂作劳力。但她从未有过类似的想法——有一回，她没有为晓婷的舞蹈比赛现场助威，晓婷生气了，觉得自己失去了外界为数不多的关爱。从此，每一场比赛，陶正红都坚持在现场——必须让女儿知道，自己从未放弃她。

　　陶正红也将这股决心传染给了晓婷。考上当地最好的特殊高中后，晓婷决心修习计算机，她想，自己完全能成为一名文职工作者。带上人工耳蜗后，她又有了更明确的目标：要考上北京一所大学的特殊教育学院——那里被誉为听障人群的清北——她为此每天在宿舍用手电学习到午夜，凌晨5点半起床再学习；课间休息的10分钟，她趴在桌上写作业，经常无暇喝水。

　　从晓婷和阿树身上，商世东和同事们看到了技术背后蕴含的更大可能。“以后，它可以为海量的老年人服务，植入老年手机、耳机……弥补他们退化的听力。”产品效果带给技术人员带来的鼓舞总是最大的，王燕南想到，曾有朋友和他转述体验，腾讯会议居然在工地场景都能隔绝噪音，“你们都考虑到这种程度了？”但其实并没有，这是AI算法的自适应性——当你让它学习得足够多，喂给它足够多的数据和场景，人工智能就有了推导能力。技术发展到今天，终于开始呈现出善解人意的一面。为了人类想达到的目标，它将不断演进和迭代。当这个目标是连接那些被听障隔绝的人群时，终有一天，它会演化出无限接近真实的声音。

延伸阅读

☞ 守护盲道，让爱不失明｜国际盲人节

☞ 让罕见被看见……｜国际罕见病日

827800与世界重连：当AI算法植入失聪者耳蜗