对话Kaldi之父、小米首席语音科学家Daniel Povey：开源环境【jìng】比金钱和【hé】荣誉更【gèng】吸引我 | AGI技术50人

admin 2024-9-21 10:43:54

【编者【zhě】按】在人工【gōng】智能的世【shì】界，有一群人正【zhèng】深耕【gēng】于推动通用人【rén】工智能【néng】（AGI）从科幻走向现实。CSDN、《新程【chéng】序【xù】员【yuán】》特别策划“AGI 技术 50 人”访谈栏目，挖掘 AI 背后的思考，激荡 AGI 的智【zhì】慧，走进那【nà】些在【zài】 AI 领域不断探索、勇于【yú】创新【xīn】的思想领袖【xiù】和技【jì】术先锋们的【de】心路历程。

本【běn】期【qī】主角Daniel Povey，著名的语【yǔ】音识别开源【yuán】工具Kaldi的【de】主【zhǔ】要开【kāi】发者和维护【hù】者【zhě】，被【bèi】称为“Kaldi之父”，凭借在【zài】语音识别【bié】和声学建模方面的杰出贡献入选IEEE Fellow。目前，这位语音识别技术大牛正【zhèng】作为小米【mǐ】集团首席语音识别科【kē】学家，带领团队开发【fā】新一代Kaldi，他认为【wéi】“开【kāi】源环境比【bǐ】金钱【qián】和荣【róng】誉更吸引我”。

作者 | 王轶群
责编 | 唐小引出品丨AI 科技大本营（ID：rgznai100）

北京初【chū】春，一个微风拂面的午后，《AGI 技术 50 人》栏目团队专【zhuān】程去小【xiǎo】米总部拜访了Daniel，与他面对面聊了聊加入小米的这四年半，以及他在中【zhōng】国的科【kē】研工【gōng】作及生【shēng】活。目前【qián】，他【tā】在团【tuán】队中【zhōng】被人们亲切【qiē】地称呼【hū】为Dan。

（《AGI 技【jì】术 50 人【rén】》编辑与Daniel在小米办公室的合照）

Daniel办公桌上的红色咖啡杯里【lǐ】，泡的是中国红茶。春天来临【lín】，他说想换成【chéng】绿茶，却不知道自己的办公室里早有一【yī】个写着“龙井”的盒子【zǐ】。被我们提醒【xǐng】后【hòu】，他【tā】才发现【xiàn】迟迟未拆【chāi】的团队礼【lǐ】物【wù】，竟然【rán】正是自己需要的春茶【chá】。西方礼仪里的及时拆礼【lǐ】物习惯，让他【tā】在跟我们聊天间就打开了盒【hé】子，并且迅速把茶叶倒进杯【bēi】子，急匆【cōng】匆【cōng】要出办【bàn】公室【shì】打热【rè】水冲泡【pào】。

“语音识别恰好是我在做的事”

这位平和谦逊的新一代Kaldi团队【duì】领【lǐng】导者【zhě】，拥有着辉煌的履历和一流的学术背景【jǐng】。他是【shì】剑【jiàn】桥大【dà】学的语【yǔ】音识别博士，曾在IBM、微软研究计算机【jī】语【yǔ】音识别【bié】，随后去美国第一所研究型大学约翰【hàn】霍普金斯大【dà】学担任语【yǔ】言和语【yǔ】音处理中【zhōng】心【xīn】的助理研究教授。他是著名的语音识【shí】别开源工具Kaldi的主要开发者和【hé】维护【hù】者，被称【chēng】为“Kaldi 之父”。

科研、开发，对于Daniel而【ér】言【yán】，是越投入越觉得乐在其中【zhōng】的事。顶着“Kaldi之父”头衔的【de】他，对很多事物【wù】都抱有【yǒu】浓厚的兴趣，而“语【yǔ】音识别恰好【hǎo】是我在做的【de】事【shì】”。

Kaldi集成了多种语音识别模型【xíng】，包括隐马尔【ěr】可夫和【hé】当时流【liú】行的【de】深度学习神经网络。Kaldi是第一个完【wán】全【quán】用【yòng】C++编【biān】写的、基【jī】于加权有限【xiàn】状态机【jī】理论的语音识别开源软件，其模【mó】块化与高度【dù】可扩展【zhǎn】性设计让Kaldi广受学术界和【hé】工业界的好评，被【bèi】公认【rèn】为业【yè】界【jiè】语【yǔ】音识别框架的基石。有关于介【jiè】绍Kaldi的【de】论【lùn】文被引用7000多次，Daniel Povey博士的论【lùn】文也被引用了【le】4万【wàn】多次；他还对语音识【shí】别做【zuò】出了许多科学贡献，包括【kuò】助力判【pàn】别训练（现在称【chēng】为序列训练）的早期【qī】发展等。

用开源语【yǔ】音识别工具造福更多【duō】的使用者【zhě】，是Daniel 开发Kaldi的初心：“创建一个语音识别研发平台，使大学【xué】研【yán】究人【rén】员和小公【gōng】司能【néng】够【gòu】获得与大公司【sī】一样好的效果。”

Kaldi自 2011 年发布以来，成千【qiān】上万的【de】人下载Kaldi，几乎所有的语音团【tuán】队都在【zài】使用Kaldi引擎【qíng】来开发智能解决方案，包括【kuò】MIT、哈佛、清【qīng】华【huá】、微软【ruǎn】、谷歌、Facebook等等。

回【huí】忆起【qǐ】Kaldi开发【fā】之初，Daniel说道：“开发Kaldi是【shì】在‘深度学习’一词出现之【zhī】前【qián】，最开始Kaldi 使用的【de】是非神经方法。后来，我们为适应深度学习添【tiān】加【jiā】了【le】一些工具。”

随【suí】后，Daniel看到了技术飞速发展下Kaldi的局限性。“添【tiān】加了深度学习工具后，我发现Kaldi很难以跟上【shàng】深度神经【jīng】网络【luò】库【kù】cuDNN 等现代【dài】工具和模型架构的最新发展的方【fāng】式来维护这些添加【jiā】的工具。即便有些人仍然使【shǐ】用Kaldi的部分内【nèi】容，但这些模型目前【qián】无法与最【zuì】新的【de】深度【dù】模【mó】型【xíng】竞争。”

说到为【wéi】什么【me】还要着力研发新一代【dài】Kaldi，Daniel表示随【suí】着【zhe】深度【dù】学习技术【shù】的发展以及硬件算【suàn】力的提升，智【zhì】能语音领域也进【jìn】入到一个新的发展阶【jiē】段，Kaldi 也需要不断更【gèng】新【xīn】以适【shì】应新的应用场景和技术趋势【shì】。

模型从深度神经网络【luò】DNN，到【dào】用于【yú】语言的【de】循环神经【jīng】网络RNN，再到Transformer架构【gòu】，发展【zhǎn】迭代得非【fēi】常迅速。“我逐渐认识到，让当前的产品【pǐn】像【xiàng】初【chū】代【dài】Kaldi那时一样受欢迎是不【bú】现实的。因为现在有这【zhè】么多的产品去选择。”Daniel表示。

2017年发布【bù】的Transformer架构，极大地【dì】改【gǎi】变【biàn】了人工智能各细分领域所使用的方法，并【bìng】发【fā】展成为今天几【jǐ】乎所有人工智能任务【wù】的基本模型。Daniel认为：“在一致的训练方法中，机器【qì】学习也变得越来越【yuè】相【xiàng】似。过【guò】去，研【yán】究计算机【jī】视觉【jiào】的人使用的是与语【yǔ】音识别研究完全不同【tóng】的【de】方法，而现在几【jǐ】乎每个人都在使【shǐ】用Transformer。如今，Transformer架构的强【qiáng】大通用技术能力，使得解决【jué】一【yī】项特定【dìng】的目标的技【jì】术边界【jiè】变得不再清晰。”

其实，早在【zài】2019年，Daniel就【jiù】注意到Transformer架构【gòu】的【de】潜力，并判断构建通【tōng】用基础模型的时【shí】机【jī】已经到来。2019年10月Daniel Povey加入小米【mǐ】成立了新一代【dài】Kaldi团队【duì】（NEXT-GEN KALDI），宣布将【jiāng】打【dǎ】造新一【yī】代【dài】Kaldi。相较于之前，新一代【dài】Kaldi将兼具【jù】Kaldi效率与PyTorch灵活性。

“新【xīn】一【yī】代 Kaldi 的最【zuì】初目标是开【kāi】发一些【xiē】与现代【dài】深度学习【xí】框架兼【jiān】容的【de】语【yǔ】音识别工具，尤其是与PyTorch框架兼容。”Daniel解释道，“随着项目的开发，其最重要的部分【fèn】已经成为基于 Python 的结构，即一个【gè】名【míng】为 Icefall 的项【xiàng】目。”

Daniel 表【biǎo】示，他和他的【de】新【xīn】一代Kaldi团队“可能会开始更【gèng】多地关注 TTS”。这是【shì】Text To Speech的缩写，即【jí】“从文本【běn】到语音”，是人机对话的一【yī】部分【fèn】，让机器能够说【shuō】话。他解释道：“因为现在的开发阶段【duàn】似乎【hū】很难对【duì】自动语音识别（ASR）产【chǎn】生影响，除非通【tōng】过【guò】构建巨大的【de】模型。”

2021年他以小米集团首席语音【yīn】科【kē】学【xué】家的身份再次亮相，推出了新一代Kaldi。2022年12月，他凭【píng】借在语音识别和声学【xué】建模方面【miàn】的杰出贡献【xiàn】入选IEEE Fellow。

带领新一代Kaldi团队翻越山丘

坚持开【kāi】源，是新一【yī】代 Kaldi与前一代一脉【mò】相【xiàng】承的底色【sè】。这是 Daniel 坚【jiān】持 Kaldi 开【kāi】源的期【qī】望，也是小米积【jī】极拥抱【bào】开源的【de】初心。“开源对每【měi】个人都有帮助，无法想象现代机器的发展离开开【kāi】源的样子【zǐ】。”Daniel 表示【shì】。

这条开源之路，依然任重道远。

不同于以【yǐ】往，Daniel不再孤【gū】军【jun1】奋【fèn】战【zhàn】。“在小米【mǐ】，我有一个团队【duì】”Daniel表示【shì】，这是他在小米【mǐ】工作与IBM、微软的最大不同之【zhī】处。Daniel带领着团队不【bú】断翻越山丘。

如果【guǒ】把一个AI应用比喻【yù】为一座冰山，那用户【hù】所能感知到的应用【yòng】界面【miàn】就是暴露在【zài】“海平面”之上【shàng】的冰【bīng】峰，强【qiáng】有【yǒu】力【lì】地托起这些应用的核心和庞大的技术基底【dǐ】，则是被深埋【mái】在“海平面”之下【xià】。而Daniel正是个【gè】庞【páng】大技【jì】术基【jī】地的核心构建者。

“我【wǒ】们现在正【zhèng】试【shì】图将重点放在设备【bèi】部署上。因为一些公【gōng】开【kāi】可【kě】用的模型存在【zài】问题，它们太【tài】大【dà】了，以至于你无法真正将其部署【shǔ】在小型设备上【shàng】。”对于【yú】当前市场中【zhōng】的语【yǔ】音识别产品，比如OpenAI Whisper，Daniel认为【wéi】同样如此，将【jiāng】其部署在如手机这样的设【shè】备上并非一件容易的事。这也是新【xīn】一【yī】代Kaldi团队模【mó】型开发的长处所在。他说：“我们的模型确实比【bǐ】常用【yòng】的模型，例如Transformer，具【jù】有【yǒu】一定的优势。”

Daniel表示：“我【wǒ】们已经提出了一些小的【de】方法，带【dài】来一些细微【wēi】的改进。在机【jī】器【qì】学习中，我【wǒ】们有一个新的【de】非线性激活函称作【zuò】‘Swoosh’，以及一个新的标准化【huà】模块称作‘BiasNorm’。我们还没有【yǒu】花很多精力【lì】推广这些新方法，只是把它们作为我们之【zhī】前Zipformer模【mó】型论文整体的一【yī】部分来发表。我一【yī】直在努力【lì】去实现【xiàn】一【yī】些【xiē】大的【de】突破。”

Daniel在小米研【yán】发的新一【yī】代 Kaldi是一【yī】个开源的【de】智能语音技术工具集，包含核心算法库k2、通用【yòng】语音数据处理工具包Lhotse、解决方案集合【hé】Icefall以【yǐ】及服务端【duān】引擎Sherpa四个子项目，开发者可以【yǐ】基【jī】于【yú】这些【xiē】工【gōng】具【jù】集轻松定制自己的【de】智能语音应【yīng】用【yòng】。在Daniel的带领下，团队搭建【jiàn】出了新一代【dài】Kaldi通用【yòng】技【jì】术【shù】基底，包括：

全新声学编码器：Zipformer

Zipformer是一个应用Attention机制的通用声【shēng】学编码器，不仅可以【yǐ】用在【zài】语音领域，其在文本和图【tú】像【xiàng】任【rèn】务【wù】上也同【tóng】样【yàng】适用【yòng】。Zipformer具有效果更【gèng】好、计算【suàn】更快、更省内存【cún】等优点，这使得Zipformer模型非常适合于低资源设备【bèi】端部署【shǔ】。

首创神经网络优化器：ScaledAdam

全【quán】新升级的神【shén】经网络优化【huà】器——ScaledAdam是新一代 Kaldi 团队在业【yè】界最知名的优【yōu】化器Adam的【de】基【jī】础上，引入了可学习的【de】缩放因子，实现了【le】网络【luò】训练时间大幅缩短。而且ScaledAdam与Adam一样，是一个【gè】通【tōng】用的【de】网络训练【liàn】优化【huà】器。

业界最快Transducer 损【sǔn】失函【hán】数：Pruned RNN-T

新一代Kaldi团队还研发了业【yè】界最快【kuài】的Transducer损【sǔn】失函数——Pruned RNN-T。实【shí】验数据显示，相比PyTorch中实【shí】现的RNN-T损失函数，Pruned RNN-T 损失函数在【zài】仅【jǐn】使用1/5显存的基【jī】础上，取【qǔ】得了约【yuē】10倍的速度【dù】提升。

有限状态转换器：可微分 FST

可微分【fèn】FST（Finite State Transducer）是【shì】一个【gè】有限状态【tài】转换器，可以构建复杂的语【yǔ】言处理模型【xíng】。新一【yī】代 Kaldi 团队创造性地实现了运行于【yú】GPU的可【kě】微分有限状态机，使开发者只需要在外【wài】部构【gòu】建好图的拓扑结构，将其他的一切【qiē】计算和训练的【de】部分交【jiāo】给k2引擎, 从而降低建模的工作量，提高【gāo】灵活性。此外【wài】，新一代Kaldi团队还实【shí】现了基于GPU的状态【tài】机【jī】解【jiě】码方法，实现了【le】语【yǔ】音识别解码【mǎ】的全链路GPU加【jiā】速【sù】。

Daniel强调：“其中【zhōng】，Zipformer与其【qí】他技术相比，为新一代Kaldi提供【gòng】了【le】最大的改进。”他表示：“我们还在研究一种新型的辅【fǔ】助损失函数，看【kàn】起来它可【kě】能【néng】会【huì】带来很大的改善，但我们【men】还没有【yǒu】发布它。”

此外【wài】，新一代 Kaldi团队还有其【qí】他【tā】技术【shù】成果，如近乎零成本的知识【shí】蒸馏技术【shù】，让小【xiǎo】模型也能学习到大模型的本领；基于时延【yán】惩罚的【de】低时延端到【dào】端模型的训练方【fāng】法；PromptASR语音识别系统；高效【xiào】数据集【jí】构建方案textsearch; 全平【píng】台语【yǔ】音【yīn】任务【wù】服务引擎Sherpa，等等【děng】。

那么，新一代Kaldi与上一代相【xiàng】比，其优势在【zài】哪？“实【shí】际上，新一【yī】代Kaldi可能会【huì】与基于【yú】PyTorch的其他【tā】解决方案进行更直接的【de】竞【jìng】争，例如ESPNet或SpeechBrain或预训练的大模型。我怀疑【yí】目前【qián】使用Kaldi（或其中一部分【fèn】）的人大【dà】多是出于其遗留原因而这样【yàng】做的【de】。”Daniel表示。

千里之【zhī】行，积【jī】于跬步。对于Daniel来说【shuō】，日常【cháng】项目的微小进度在【zài】于将语音识别的精【jīng】确度提高10%，“这【zhè】10%很难【nán】被用【yòng】户察觉”。而【ér】小【xiǎo】米集团早已看见了该团队的努力【lì】与【yǔ】付出。2023年，Daniel的新一代Kaldi团队以【yǐ】其创【chuàng】新技术成果在小米集团的年度技术大【dà】奖评选【xuǎn】中获得二等奖。

“我们已经提出了许多【duō】有趣的技术问题，也是我们发【fā】布的Zipformer模型【xíng】的一部分。我们【men】的模型开始【shǐ】被【bèi】小米的产【chǎn】品团队使用。他们现在开始部署我们【men】的模型，包括中文和【hé】其【qí】他语言的语音【yīn】识【shí】别【bié】模型【xíng】，主要优势是提高精度【dù】以及减【jiǎn】少计算量。”Daniel 表示，对自己的语音识别模型在【zài】小【xiǎo】米【mǐ】产【chǎn】品及小米生态中被部署【shǔ】应用感到【dào】十分开心【xīn】。“在与产品团队的良好配合下【xià】，我们能够实【shí】现【xiàn】模型的高效部署【shǔ】，目前训练【liàn】使用模【mó】型的速度更快，识别也更加精【jīng】确。”

作【zuò】为一个基础【chǔ】引擎，新一代【dài】 Kaldi可在【zài】语音交互层面有力【lì】赋【fù】能小米【mǐ】“人车家全生态”新战【zhàn】略。以座舱【cāng】为【wéi】例，使用新【xīn】一代Kaldi引擎后，座【zuò】舱的语音识别的【de】性能进一【yī】步【bù】提升，服务器【qì】成本也降低一【yī】半。不【bú】仅能【néng】服务于语【yǔ】音任务，新一代Kaldi还【hái】可广泛地适用于各种【zhǒng】AI任务。目前，团队首创【chuàng】的ScaledAdam优化器已经用在了小米自研大模【mó】型中。

同【tóng】时，新【xīn】一代Kaldi的出现正在【zài】对【duì】各行各业带来助力【lì】。在智能家居【jū】领域中【zhōng】，通【tōng】过使用新一代Kaldi技【jì】术，人们可以通过语【yǔ】音指令控制家电设备、查询天气、播放音乐【lè】等；在教育行业中，可以对学生【shēng】进行口【kǒu】语【yǔ】测试和纠正，提【tí】高学【xué】生的口语表达和听【tīng】力理解能力；在医疗行业中，可【kě】以实现自动【dòng】化的【de】病【bìng】历【lì】记【jì】录和诊断【duàn】，提【tí】高医疗行业【yè】的效率。

Daniel在中国

“一直以来，全【quán】球人工智【zhì】能有关【guān】的项目都有【yǒu】一【yī】定比例【lì】的中国研究人员，但最近十年左【zuǒ】右的新情况【kuàng】是，越来越多有趣【qù】的新研究来自在【zài】中国工作的【de】中国人。” 四年半的时间里，Daniel对中国的兴趣日渐浓【nóng】厚。

在小米，Daniel还是一如既【jì】往地【dì】延续着工作狂的风【fēng】格【gé】，即便【biàn】目【mù】前处在一个【gè】低压放松【sōng】的工作【zuò】环【huán】境中。一心一意扑在【zài】研发和新一代Kaldi团队领导工作上【shàng】的他【tā】，并没有多少时间健身，甚至没有很多时间与朋友出游【yóu】。靠近电脑【nǎo】桌【zhuō】的地方摆了一架【jià】电【diàn】子琴，他【tā】把仅有的【de】娱乐活动搬到了办公室。

在团【tuán】队中，Daniel是一【yī】位谦【qiān】逊【xùn】、亲切且善于思【sī】考的领导者。“我在【zài】这样一间宽敞的办公室，我的【de】团队成员【yuán】却坐【zuò】在外【wài】面并排的工位上，我总是因此而【ér】感到歉疚【jiù】。”对团队成员关【guān】怀备【bèi】至【zhì】的【de】他，总是【shì】把研发的【de】责任揽到自己身上。“我拥有【yǒu】一【yī】个【gè】强大【dà】的团队，这里【lǐ】的人【rén】都非【fēi】常好。”全身心投入研发的Daniel，认【rèn】为阅读研究论文“往【wǎng】往会分散注意力”，有时没能及时跟进技术动态，导致【zhì】他“重【chóng】新发【fā】明了别人已经发明的东【dōng】西”，还是团队的伙伴分享给他【tā】相关的论文以供参考。

（Daniel身穿“NEXT-GEN KALDI”文化衫站在【zài】陈【chén】列柜前【qián】）

Daniel曾经【jīng】编程速度很快，人们一度【dù】很难跟上他的步伐【fá】，而如今他并【bìng】不会花很多时【shí】间【jiān】在【zài】代码上。在新【xīn】一【yī】代【dài】Kaldi团队中【zhōng】，有一位实力强劲【jìn】的程序员小哥【gē】叫匡方军，Daniel称【chēng】其编程速【sù】度“非常快”。据【jù】了解，匡方军是新一代Kaldi团队的初【chū】始成员之一，也是其子项目Sherpa的【de】主【zhǔ】要维护者。团队的【de】小伙伴说【shuō】他编【biān】程【chéng】功底深厚，对项目付出了很【hěn】多。同时他也是和Daniel风【fēng】格特别像的一名程序员，在团队中颇有人【rén】气。

（Daniel的【de】书架上摆放着自己【jǐ】与团【tuán】队【duì】的合照、可爱的中西摆件【jiàn】和一【yī】本《高效能人士的七【qī】个习惯》）

有【yǒu】时，工【gōng】作计划会不可避免地存【cún】在调【diào】整，导致整【zhěng】体进度放缓【huǎn】，Daniel对此【cǐ】表示“这完全是【shì】我的责任”，并及时复【fù】盘【pán】，继续带【dài】领团队【duì】不断【duàn】攻克难关。在【zài】项目的【de】推进中，他对【duì】产品和【hé】市场有了更深入的认知，并且逐步明确了努力的方向。

对于【yú】压力，他说【shuō】尽管人【rén】们【men】可【kě】能会在高【gāo】压的环【huán】境下产出【chū】很多，但低压的【de】环境令人愉悦【yuè】，让他和他的团队可以去开始思考并追【zhuī】求有趣的【de】事【shì】。“我觉得我会倾向于沉迷不同【tóng】的事【shì】情【qíng】，通常情况下是不同【tóng】的工作项目。”Daniel表示，“我【wǒ】对别人对【duì】我的【de】看法不是那么敏【mǐn】感【gǎn】。所【suǒ】以【yǐ】不要在乎别人怎么想，只要知道自己在做什么【me】就行了。”

对科技敏感，对人际并不敏感的Daniel，通常会给自【zì】己在【zài】小米的助理Liliana带来不小【xiǎo】的【de】工作挑【tiāo】战。在团队成员的眼中【zhōng】，她已【yǐ】经升级为Daniel在中国的【de】全面助【zhù】理，协助【zhù】处理工【gōng】作与日常大小事务。在办【bàn】公室墙上的白【bái】板，除了满屏的工作想法，Daniel打趣地写下了【le】“Dan惹恼Liliana的第【dì】X天【tiān】”的字【zì】样。

（Daniel办公室的白板上写满了有趣的想法与演算）

在小米的四年半时间里，中国饮【yǐn】食和中国文化已【yǐ】经融入了他的生活。对【duì】于Daniel来说，中西差异并不【bú】对他构【gòu】成文【wén】化冲击，他在国外做大学教授期【qī】间已【yǐ】接触过诸多【duō】中国【guó】学【xué】生。对 Daniel 来说【shuō】，中国人【rén】和【hé】中国文化早已十【shí】分亲切。

Daniel 喜欢【huān】的【de】中国美食，并【bìng】非大众喜爱的火锅，而是与【yǔ】西方牛排有共同之【zhī】处的【de】烤肉、羊排、排【pái】骨等整块烹制的肉【ròu】类。每【měi】天中午，他在小米成立的【de】新【xīn】一代Kaidi团队同事们，就会拉着他一起去小【xiǎo】米的食堂吃中餐。他的【de】体态比四年前的清瘦模样【yàng】显【xiǎn】然圆润【rùn】了【le】一些，肠胃【wèi】早已【yǐ】适【shì】应中餐【cān】。

（Daniel 办公室里摆放着中国传统工艺品）

办【bàn】公【gōng】桌一侧的陈列柜【guì】里【lǐ】，摆【bǎi】放着许多有关语音识别【bié】、声【shēng】音建【jiàn】模、团队进步【bù】的奖杯。他【tā】表示，自【zì】己并不在意获【huò】得了多少奖项【xiàng】，而是在意这里开放【fàng】、包容、尊重的工作氛围，以及小米对开源项目的【de】提倡与重视，这正是他在小【xiǎo】米【mǐ】的伯乐崔宝【bǎo】秋所倡导的。

多年来，Daniel一直在寻【xún】找一个适【shì】合自己搞科研的环境。在这里，他找到了。2019年他加【jiā】入【rù】小米时，向【xiàng】崔宝【bǎo】秋提【tí】到【dào】的“我并不需要很高【gāo】的薪水【shuǐ】”一度被媒体广泛传【chuán】播。如今【jīn】，他依旧持【chí】有【yǒu】一样的态【tài】度。在他【tā】看来，金钱并非排在【zài】第一位。

“比【bǐ】如家人的【de】陪伴【bàn】就比金钱重要的多【duō】。现【xiàn】在的年轻人对薪资【zī】看得太重了。我认为年轻【qīng】人不必那么追求高薪，反而【ér】应该在【zài】合适的【de】时【shí】候组【zǔ】建家庭，抚养下一代【dài】。”

2023年暑期，他将自己的小女儿接来【lái】中国上学。在中【zhōng】国，他也【yě】有【yǒu】了亲情的陪伴。女儿也【yě】在逐渐适应中国的教育氛围【wéi】。自己的【de】女儿曾在美国吐槽学校对学【xué】业【yè】并【bìng】不【bú】是那么认真，而来到中国周围的人对于学习【xí】的态度有点过于严肃，以至【zhì】于【yú】没多【duō】少人【rén】会提倡打破规则。“像我一样，她也有很【hěn】强的【de】个性。”应试教育往往通向中国父母所期盼的名牌大学。而Daniel认【rèn】为【wéi】女儿不【bú】必跟随【suí】自己去【qù】上【shàng】剑桥，选择【zé】一所适合她【tā】的即可。

“那些【xiē】有【yǒu】极高薪【xīn】水和地位的人，并不一定过得【dé】开【kāi】心【xīn】。”Daniel表示。他的核【hé】心乐趣，无疑是声【shēng】音建【jiàn】模和语音【yīn】识别技术研发。

放眼AGI未来，提倡技术与人的正和游戏

就像Transformer的创造者提出寻求更【gèng】高效节能【néng】的架【jià】构【gòu】一【yī】样【yàng】，Daniel也以发展的眼光看待自己【jǐ】缔造的一代【dài】传奇。

对于Kaldi的广泛使【shǐ】用，Daniel表示：“人们一直在更【gèng】换【huàn】工具，所以我的【de】感【gǎn】觉是，人们可能【néng】不会使【shǐ】用很多我们的代【dài】码。虽然有时人们【men】仍然在他们的解码【mǎ】器逻辑中，保留一些Kaldi代码，即便他们【men】的主要模型【xíng】是用【yòng】PyTorch或其他别的构【gòu】建的。我认为现代的趋势是简化这种代【dài】码并【bìng】使用【yòng】通用的机器学习方法。或【huò】许，使用者的计划【huá】是最终不必【bì】使用【yòng】Kaldi，因为他们正【zhèng】在使用一【yī】些【xiē】非常通用的【de】机器学习方法【fǎ】，这些【xiē】方法不仅【jǐn】针对【duì】语音识别。只是目前，Kaldi仍然在被使用。”

“我着眼于【yú】未【wèi】来。”Daniel 表示，他们正在尝试提出一【yī】些新的有趣的事物，甚至是应用机器学习的新范【fàn】畴。“如【rú】今，语音识别似乎已趋【qū】向【xiàng】成为一种商品或【huò】已解决的问题，所【suǒ】以我希望【wàng】能找到机器学习【xí】的一些新应用，这在某些方面【miàn】可【kě】能【néng】更【gèng】令人兴【xìng】奋。”

在广【guǎng】义的人工智能发展范畴上，Daniel认为语音识【shí】别在大【dà】多【duō】数应用中仅占很小的一部分。他【tā】并不担【dān】心技术【shù】会【huì】取【qǔ】代人类的大【dà】部分【fèn】工作，至少不会取代那些需要职业资格【gé】证【zhèng】的工作，毕竟很多工【gōng】种都【dōu】在到职业许【xǔ】可认证和法律保护的范【fàn】围内。

“人工智能【néng】在娱乐或语言生【shēng】成等方面有【yǒu】很多应用，在这些领域人工智能在【zài】帮我们做‘零和游戏’。”他【tā】列【liè】举了一个律【lǜ】师的例子：如果【guǒ】律师有机会【huì】接触人工智能，他们将【jiāng】变得更有效率【lǜ】。这样的情况下，他们只是在与另【lìng】一【yī】个律师团【tuán】队对抗，而实际的【de】总【zǒng】生【shēng】产力不会改【gǎi】变，因【yīn】为他们和他的【de】对手都擅长在【zài】同一领【lǐng】域展开竞技。“我【wǒ】们只是在更努力地互相争【zhēng】斗【dòu】。这个道理同样适用于战【zhàn】争。”Daniel认为，在零和游戏的【de】设定上，人工【gōng】智能会一【yī】定程度上加速人【rén】类能力的“内卷【juàn】”。

Daniel认【rèn】为【wéi】“人工智能应用【yòng】在工业、农业或者矿业将更【gèng】有趣，因为在【zài】这【zhè】里并不是【shì】一场【chǎng】‘零和游戏’”。他更提倡的【de】是，人与技术的正和游戏。在【zài】博【bó】弈【yì】论上，正和游戏意味着二者相加的和并非【fēi】归零，而是双赢【yíng】互惠的结果，参【cān】与者的利【lì】益【yì】是相互一致【zhì】的，一【yī】方的【de】利益增加【jiā】不会导致另【lìng】一方的利益减少。

在即将到【dào】来的2024全球机器学习技术大会【huì】（ML-Summit 2024），Daniel准备带来【lái】有关“The Current Moment in AI”的主题演讲。他想借助这个机会，帮【bāng】助人们后退【tuì】一步纵览LLM的【de】目前的发【fā】展，从一个更大的视角来【lái】看到最【zuì】近风靡的【de】大模型【xíng】只是人工智能发展中许多改进的【de】一【yī】个。同【tóng】时，Daniel还【hái】想【xiǎng】从技术的角【jiǎo】度，结合自己的语音【yīn】研究实践，谈一谈人工【gōng】智能会【huì】对人类命运产【chǎn】生的影响。

Daniel认为计算、内存和存储【chǔ】的成【chéng】本会随着时【shí】间的【de】推移【yí】而【ér】下降，但下降【jiàng】的速度【dù】不【bú】会那么快，效率【lǜ】仍然是【shì】任何产【chǎn】品【pǐn】的一个问【wèn】题。“这意味着【zhe】我们【men】可能不想部署太【tài】大或太通用的模型。当然，我【wǒ】们【men】仍然可以使用更大的模型作为【wéi】训练过程【chéng】的一部分，例如在【zài】师生学习中。到目前【qián】为止，人们【men】还没【méi】有能【néng】够从LLM那里获得【dé】ASR准【zhǔn】确性方面的太大改进。但这可能【néng】会改变【biàn】。”Daniel表示，“就我个人而【ér】言，我不喜欢花太多时间处理非常大的模型，因为它限制【zhì】了你【nǐ】在实验方面的选择。”

作为人工【gōng】智能语音识别的先驱，谈及对于广大开发【fā】者的寄语时，Daniel认为应该将目光放【fàng】长远【yuǎn】，不要拘泥一格。“我倾向【xiàng】于建【jiàn】议人【rén】们学【xué】习一些通用【yòng】的机器【qì】学习技能，例如【rú】去确保知【zhī】道如何使用PyTorch一类的工具。机器【qì】学习方向正朝着在【zài】不【bú】同的任务中使【shǐ】用【yòng】相同的方法而发展【zhǎn】。我想知道在未来拥【yōng】有过于狭【xiá】窄【zhǎi】的专业【yè】知识将是【shì】否是【shì】一件有益的事【shì】，只拥有语音相关【guān】的知识或许将过于狭隘【ài】。不过【guò】，对于大多数人来说，掌握通用知识【shí】已不【bú】是难事，因为人们已【yǐ】经在使用可用于其他领域的【de】方法【fǎ】了【le】。”

最近，OpenAI推出的文【wén】生视频大【dà】模型Sora自【zì】推出后热度持续增长【zhǎng】，带动了行业中多【duō】个复现Sora项目的产生【shēng】与迭代。对于Sora是否意【yì】味着AGI会加快到来的问题，Daniel 表【biǎo】示肯定。“Sora解【jiě】决了一个非常具体的【de】视频【pín】生【shēng】成【chéng】问题。我认为这与【yǔ】通用【yòng】智能完【wán】全不同。我并不是真的担心，我认【rèn】为这将是一【yī】条非【fēi】常缓慢的道路。如果上网搜索，你可能会【huì】发现【xiàn】，很多搜【sōu】索【suǒ】结果都是【shì】人工智能产生的垃圾，你必须非【fēi】常有【yǒu】知【zhī】识才能区分真正的垃【lā】圾。未来有很多语言模【mó】型的质量可能变得更【gèng】糟，除非他们【men】找到一种方【fāng】法来过滤掉那【nà】些坏数据【jù】。”

放眼未【wèi】来，Daniel没有【yǒu】对人工智能的发展持悲【bēi】观态度。“人工【gōng】智能失控【kòng】并不可【kě】怕【pà】，可怕【pà】的是【shì】人工智能受【shòu】制【zhì】于不同目【mù】的的人。”比如将【jiāng】人工智能用于战【zhàn】争，在他看来【lái】反倒可以减少【shǎo】人类士兵的牺牲【shēng】，但若被怀揣【chuāi】目的的人的过度使用，确实会造成不良后果。他认【rèn】为技术的【de】发展取决于其缔造者和使【shǐ】用者。

人【rén】工智能语音【yīn】识【shí】别技术，在 Daniel 这样一【yī】群可爱又【yòu】可敬的科【kē】研人员的【de】带领下，相信也会取得令人满意的【de】成果【guǒ】。

采访后记

4 月 25 ~ 26 日，由 CSDN 和高端 IT 咨询和教育平【píng】台 Boolan 联合【hé】主办的「2024 全球机【jī】器学【xué】习【xí】技【jì】术【shù】大会」在上海再度启幕第一站，汇聚来【lái】自【zì】全【quán】球近 50 位在机器学习技术研发及行【háng】业【yè】应【yīng】用【yòng】领域【yù】的领军人物【wù】和知名专家，携手搭【dā】建【jiàn】一个专属【shǔ】于全球机器学习【xí】与人工智能精英的高【gāo】层次交流与分享舞台。

标签： #魔兽争霸3冰封王座转换器124e