泓泰

对话Kaldi之父、小米首席语音科学家Daniel Povey:开源环境【jìng】比金钱和【hé】荣誉更【gèng】吸引我 | AGI技术50人

admin

【编者【zhě】按】在人工【gōng】智能的世【shì】界,有一群人正【zhèng】深耕【gēng】于推动通用人【rén】工智能【néng】(AGI)从科幻走向现实。CSDN、《新程【chéng】序【xù】员【yuán】》特别策划“AGI 技术 50 人”访谈栏目,挖掘 AI 背后的思考,激荡 AGI 的智【zhì】慧,走进那【nà】些在【zài】 AI 领域不断探索、勇于【yú】创新【xīn】的思想领袖【xiù】和技【jì】术先锋们的【de】心路历程。

本【běn】期【qī】主角Daniel Povey,著名的语【yǔ】音识别开源【yuán】工具Kaldi的【de】主【zhǔ】要开【kāi】发者和维护【hù】者【zhě】,被【bèi】称为“Kaldi之父”,凭借在【zài】语音识别【bié】和声学建模方面的杰出贡献入选IEEE Fellow。目前,这位语音识别技术大牛正【zhèng】作为小米【mǐ】集团首席语音识别科【kē】学家,带领团队开发【fā】新一代Kaldi,他认为【wéi】“开【kāi】源环境比【bǐ】金钱【qián】和荣【róng】誉更吸引我”。

作者 | 王轶群
责编 | 唐小引出品丨AI 科技大本营(ID:rgznai100)

北京初【chū】春,一个微风拂面的午后,《AGI 技术 50 人》栏目团队专【zhuān】程去小【xiǎo】米总部拜访了Daniel,与他面对面聊了聊加入小米的这四年半,以及他在中【zhōng】国的科【kē】研工【gōng】作及生【shēng】活。目前【qián】,他【tā】在团【tuán】队中【zhōng】被人们亲切【qiē】地称呼【hū】为Dan。

(《AGI 技【jì】术 50 人【rén】》编辑与Daniel在小米办公室的合照)

Daniel办公桌上的红色咖啡杯里【lǐ】,泡的是中国红茶。春天来临【lín】,他说想换成【chéng】绿茶,却不知道自己的办公室里早有一【yī】个写着“龙井”的盒子【zǐ】。被我们提醒【xǐng】后【hòu】,他【tā】才发现【xiàn】迟迟未拆【chāi】的团队礼【lǐ】物【wù】,竟然【rán】正是自己需要的春茶【chá】。西方礼仪里的及时拆礼【lǐ】物习惯,让他【tā】在跟我们聊天间就打开了盒【hé】子,并且迅速把茶叶倒进杯【bēi】子,急匆【cōng】匆【cōng】要出办【bàn】公室【shì】打热【rè】水冲泡【pào】。

“语音识别恰好是我在做的事”

这位平和谦逊的新一代Kaldi团队【duì】领【lǐng】导者【zhě】,拥有着辉煌的履历和一流的学术背景【jǐng】。他是【shì】剑【jiàn】桥大【dà】学的语【yǔ】音识别博士,曾在IBM、微软研究计算机【jī】语【yǔ】音识别【bié】,随后去美国第一所研究型大学约翰【hàn】霍普金斯大【dà】学担任语【yǔ】言和语【yǔ】音处理中【zhōng】心【xīn】的助理研究教授。他是著名的语音识【shí】别开源工具Kaldi的主要开发者和【hé】维护【hù】者,被称【chēng】为“Kaldi 之父”。

科研、开发,对于Daniel而【ér】言【yán】,是越投入越觉得乐在其中【zhōng】的事。顶着“Kaldi之父”头衔的【de】他,对很多事物【wù】都抱有【yǒu】浓厚的兴趣,而“语【yǔ】音识别恰好【hǎo】是我在做的【de】事【shì】”。

Kaldi集成了多种语音识别模型【xíng】,包括隐马尔【ěr】可夫和【hé】当时流【liú】行的【de】深度学习神经网络。Kaldi是第一个完【wán】全【quán】用【yòng】C++编【biān】写的、基【jī】于加权有限【xiàn】状态机【jī】理论的语音识别开源软件,其模【mó】块化与高度【dù】可扩展【zhǎn】性设计让Kaldi广受学术界和【hé】工业界的好评,被【bèi】公认【rèn】为业【yè】界【jiè】语【yǔ】音识别框架的基石。有关于介【jiè】绍Kaldi的【de】论【lùn】文被引用7000多次,Daniel Povey博士的论【lùn】文也被引用了【le】4万【wàn】多次;他还对语音识【shí】别做【zuò】出了许多科学贡献,包括【kuò】助力判【pàn】别训练(现在称【chēng】为序列训练)的早期【qī】发展等。

用开源语【yǔ】音识别工具造福更多【duō】的使用者【zhě】,是Daniel 开发Kaldi的初心:“创建一个语音识别研发平台,使大学【xué】研【yán】究人【rén】员和小公【gōng】司能【néng】够【gòu】获得与大公司【sī】一样好的效果。”

Kaldi自 2011 年发布以来,成千【qiān】上万的【de】人下载Kaldi,几乎所有的语音团【tuán】队都在【zài】使用Kaldi引擎【qíng】来开发智能解决方案,包括【kuò】MIT、哈佛、清【qīng】华【huá】、微软【ruǎn】、谷歌、Facebook等等。

回【huí】忆起【qǐ】Kaldi开发【fā】之初,Daniel说道:“开发Kaldi是【shì】在‘深度学习’一词出现之【zhī】前【qián】,最开始Kaldi 使用的【de】是非神经方法。后来,我们为适应深度学习添【tiān】加【jiā】了【le】一些工具。”

随【suí】后,Daniel看到了技术飞速发展下Kaldi的局限性。“添【tiān】加了深度学习工具后,我发现Kaldi很难以跟上【shàng】深度神经【jīng】网络【luò】库【kù】cuDNN 等现代【dài】工具和模型架构的最新发展的方【fāng】式来维护这些添加【jiā】的工具。即便有些人仍然使【shǐ】用Kaldi的部分内【nèi】容,但这些模型目前【qián】无法与最【zuì】新的【de】深度【dù】模【mó】型【xíng】竞争。”

说到为【wéi】什么【me】还要着力研发新一代【dài】Kaldi,Daniel表示随【suí】着【zhe】深度【dù】学习技术【shù】的发展以及硬件算【suàn】力的提升,智【zhì】能语音领域也进【jìn】入到一个新的发展阶【jiē】段,Kaldi 也需要不断更【gèng】新【xīn】以适【shì】应新的应用场景和技术趋势【shì】。

模型从深度神经网络【luò】DNN,到【dào】用于【yú】语言的【de】循环神经【jīng】网络RNN,再到Transformer架构【gòu】,发展【zhǎn】迭代得非【fēi】常迅速。“我逐渐认识到,让当前的产品【pǐn】像【xiàng】初【chū】代【dài】Kaldi那时一样受欢迎是不【bú】现实的。因为现在有这【zhè】么多的产品去选择。”Daniel表示。

2017年发布【bù】的Transformer架构,极大地【dì】改【gǎi】变【biàn】了人工智能各细分领域所使用的方法,并【bìng】发【fā】展成为今天几【jǐ】乎所有人工智能任务【wù】的基本模型。Daniel认为:“在一致的训练方法中,机器【qì】学习也变得越来越【yuè】相【xiàng】似。过【guò】去,研【yán】究计算机【jī】视觉【jiào】的人使用的是与语【yǔ】音识别研究完全不同【tóng】的【de】方法,而现在几【jǐ】乎每个人都在使【shǐ】用Transformer。如今,Transformer架构的强【qiáng】大通用技术能力,使得解决【jué】一【yī】项特定【dìng】的目标的技【jì】术边界【jiè】变得不再清晰。”

其实,早在【zài】2019年,Daniel就【jiù】注意到Transformer架构【gòu】的【de】潜力,并判断构建通【tōng】用基础模型的时【shí】机【jī】已经到来。2019年10月Daniel Povey加入小米【mǐ】成立了新一代【dài】Kaldi团队【duì】(NEXT-GEN KALDI),宣布将【jiāng】打【dǎ】造新一【yī】代【dài】Kaldi。相较于之前,新一代【dài】Kaldi将兼具【jù】Kaldi效率与PyTorch灵活性。

“新【xīn】一【yī】代 Kaldi 的最【zuì】初目标是开【kāi】发一些【xiē】与现代【dài】深度学习【xí】框架兼【jiān】容的【de】语【yǔ】音识别工具,尤其是与PyTorch框架兼容。”Daniel解释道,“随着项目的开发,其最重要的部分【fèn】已经成为基于 Python 的结构,即一个【gè】名【míng】为 Icefall 的项【xiàng】目。”

Daniel 表【biǎo】示,他和他的【de】新【xīn】一代Kaldi团队“可能会开始更【gèng】多地关注 TTS”。这是【shì】Text To Speech的缩写,即【jí】“从文本【běn】到语音”,是人机对话的一【yī】部分【fèn】,让机器能够说【shuō】话。他解释道:“因为现在的开发阶段【duàn】似乎【hū】很难对【duì】自动语音识别(ASR) 产【chǎn】生影响,除非通【tōng】过【guò】构建巨大的【de】模型。”

2021年他以小米集团首席语音【yīn】科【kē】学【xué】家的身份再次亮相,推出了新一代Kaldi。2022年12月,他凭【píng】借在语音识别和声学【xué】建模方面【miàn】的杰出贡献【xiàn】入选IEEE Fellow。

带领新一代Kaldi团队翻越山丘

坚持开【kāi】源,是新一【yī】代 Kaldi与前一代一脉【mò】相【xiàng】承的底色【sè】。这是 Daniel 坚【jiān】持 Kaldi 开【kāi】源的期【qī】望,也是小米积【jī】极拥抱【bào】开源的【de】初心。“开源对每【měi】个人都有帮助,无法想象现代机器的发展离开开【kāi】源的样子【zǐ】。”Daniel 表示【shì】。

这条开源之路,依然任重道远。

不同于以【yǐ】往,Daniel不再孤【gū】军【jun1】奋【fèn】战【zhàn】。“在小米【mǐ】,我有一个团队【duì】”Daniel表示【shì】,这是他在小米【mǐ】工作与IBM、微软的最大不同之【zhī】处。Daniel带领着团队不【bú】断翻越山丘。

如果【guǒ】把一个AI应用比喻【yù】为一座冰山,那用户【hù】所能感知到的应用【yòng】界面【miàn】就是暴露在【zài】“海平面”之上【shàng】的冰【bīng】峰,强【qiáng】有【yǒu】力【lì】地托起这些应用的核心和庞大的技术基底【dǐ】,则是被深埋【mái】在“海平面”之下【xià】。而Daniel正是个【gè】庞【páng】大技【jì】术基【jī】地的核心构建者。

“我【wǒ】们现在正【zhèng】试【shì】图将重点放在设备【bèi】部署上。因为一些公【gōng】开【kāi】可【kě】用的模型存在【zài】问题,它们太【tài】大【dà】了,以至于你无法真正将其部署【shǔ】在小型设备上【shàng】。”对于【yú】当前市场中【zhōng】的语【yǔ】音识别产品,比如OpenAI Whisper,Daniel认为【wéi】同样如此,将【jiāng】其部署在如手机这样的设【shè】备上并非一件容易的事。这也是新【xīn】一【yī】代Kaldi团队模【mó】型开发的长处所在。他说:“我们的模型确实比【bǐ】常用【yòng】的模型,例如Transformer,具【jù】有【yǒu】一定的优势。”

Daniel表示:“我【wǒ】们已经提出了一些小的【de】方法,带【dài】来一些细微【wēi】的改进。在机【jī】器【qì】学习中,我【wǒ】们有一个新的【de】非线性激活函称作【zuò】‘Swoosh’,以及一个新的标准化【huà】模块称作‘BiasNorm’。我们还没有【yǒu】花很多精力【lì】推广这些新方法,只是把它们作为我们之【zhī】前Zipformer模【mó】型论文整体的一【yī】部分来发表。我一【yī】直在努力【lì】去实现【xiàn】一【yī】些【xiē】大的【de】突破。”

Daniel在小米研【yán】发的新一【yī】代 Kaldi是一【yī】个开源的【de】智能语音技术工具集,包含核心算法库k2、通用【yòng】语音数据处理工具包Lhotse、解决方案集合【hé】Icefall以【yǐ】及服务端【duān】引擎Sherpa四个子项目,开发者可以【yǐ】基【jī】于【yú】这些【xiē】工【gōng】具【jù】集轻松定制自己的【de】智能语音应【yīng】用【yòng】。在Daniel的带领下,团队搭建【jiàn】出了新一代【dài】Kaldi通用【yòng】技【jì】术【shù】基底,包括:

全新声学编码器:Zipformer

Zipformer是一个应用Attention机制的通用声【shēng】学编码器,不仅可以【yǐ】用在【zài】语音领域,其在文本和图【tú】像【xiàng】任【rèn】务【wù】上也同【tóng】样【yàng】适用【yòng】。Zipformer具有效果更【gèng】好、计算【suàn】更快、更省内存【cún】等优点,这使得Zipformer模型非常适合于低资源设备【bèi】端部署【shǔ】。

首创神经网络优化器:ScaledAdam

全【quán】新升级的神【shén】经网络优化【huà】器——ScaledAdam是新一代 Kaldi 团队在业【yè】界最知名的优【yōu】化器Adam的【de】基【jī】础上,引入了可学习的【de】缩放因子,实现了【le】网络【luò】训练时间大幅缩短。而且ScaledAdam与Adam一样,是一个【gè】通【tōng】用的【de】网络训练【liàn】优化【huà】器。

业界最快Transducer 损【sǔn】失函【hán】数:Pruned RNN-T

新一代Kaldi团队还研发了业【yè】界最快【kuài】的Transducer损【sǔn】失函数——Pruned RNN-T。实【shí】验数据显示,相比PyTorch中实【shí】现的RNN-T损失函数,Pruned RNN-T 损失函数在【zài】仅【jǐn】使用1/5显存的基【jī】础上,取【qǔ】得了约【yuē】10倍的速度【dù】提升。

有限状态转换器:可微分 FST

可微分【fèn】FST(Finite State Transducer)是【shì】一个【gè】有限状态【tài】转换器,可以构建复杂的语【yǔ】言处理模型【xíng】。新一【yī】代 Kaldi 团队创造性地实现了运行于【yú】GPU的可【kě】微分有限状态机,使开发者只需要在外【wài】部构【gòu】建好图的拓扑结构,将其他的一切【qiē】计算和训练的【de】部分交【jiāo】给k2引擎, 从而降低建模的工作量,提高【gāo】灵活性。此外【wài】,新一代Kaldi团队还实【shí】现了基于GPU的状态【tài】机【jī】解【jiě】码方法,实现了【le】语【yǔ】音识别解码【mǎ】的全链路GPU加【jiā】速【sù】。

Daniel强调:“其中【zhōng】,Zipformer与其【qí】他技术相比,为新一代Kaldi提供【gòng】了【le】最大的改进。”他表示:“我们还在研究一种新型的辅【fǔ】助损失函数,看【kàn】起来它可【kě】能【néng】会【huì】带来很大的改善,但我们【men】还没有【yǒu】发布它。”

此外【wài】,新一代 Kaldi团队还有其【qí】他【tā】技术【shù】成果,如近乎零成本的知识【shí】蒸馏技术【shù】,让小【xiǎo】模型也能学习到大模型的本领;基于时延【yán】惩罚的【de】低时延端到【dào】端模型的训练方【fāng】法;PromptASR语音识别系统;高效【xiào】数据集【jí】构建方案textsearch; 全平【píng】台语【yǔ】音【yīn】任务【wù】服务引擎Sherpa,等等【děng】。

那么,新一代Kaldi与上一代相【xiàng】比,其优势在【zài】哪?“实【shí】际上,新一【yī】代Kaldi可能会【huì】与基于【yú】PyTorch的其他【tā】解决方案进行更直接的【de】竞【jìng】争,例如ESPNet或SpeechBrain或预训练的大模型。我怀疑【yí】目前【qián】使用Kaldi(或其中一部分【fèn】)的人大【dà】多是出于其遗留原因而这样【yàng】做的【de】。”Daniel表示。

千里之【zhī】行,积【jī】于跬步。对于Daniel来说【shuō】,日常【cháng】项目的微小进度在【zài】于将语音识别的精【jīng】确度提高10%,“这【zhè】10%很难【nán】被用【yòng】户察觉”。而【ér】小【xiǎo】米集团早已看见了该团队的努力【lì】与【yǔ】付出。2023年,Daniel的新一代Kaldi团队以【yǐ】其创【chuàng】新技术成果在小米集团的年度技术大【dà】奖评选【xuǎn】中获得二等奖。

“我们已经提出了许多【duō】有趣的技术问题,也是我们发【fā】布的Zipformer模型【xíng】的一部分。我们【men】的模型开始【shǐ】被【bèi】小米的产【chǎn】品团队使用。他们现在开始部署我们【men】的模型,包括中文和【hé】其【qí】他语言的语音【yīn】识【shí】别【bié】模型【xíng】,主要优势是提高精度【dù】以及减【jiǎn】少计算量。”Daniel 表示,对自己的语音识别模型在【zài】小【xiǎo】米【mǐ】产【chǎn】品及小米生态中被部署【shǔ】应用感到【dào】十分开心【xīn】。“在与产品团队的良好配合下【xià】,我们能够实【shí】现【xiàn】模型的高效部署【shǔ】,目前训练【liàn】使用模【mó】型的速度更快,识别也更加精【jīng】确。”

作【zuò】为一个基础【chǔ】引擎,新一代【dài】 Kaldi可在【zài】语音交互层面有力【lì】赋【fù】能小米【mǐ】“人车家全生态”新战【zhàn】略。以座舱【cāng】为【wéi】例,使用新【xīn】一代Kaldi引擎后,座【zuò】舱的语音识别的【de】性能进一【yī】步【bù】提升,服务器【qì】成本也降低一【yī】半。不【bú】仅能【néng】服务于语【yǔ】音任务,新一代Kaldi还【hái】可广泛地适用于各种【zhǒng】AI任务。目前,团队首创【chuàng】的ScaledAdam优化器已经用在了小米自研大模【mó】型中。

同【tóng】时,新【xīn】一代Kaldi的出现正在【zài】对【duì】各行各业带来助力【lì】。在智能家居【jū】领域中【zhōng】,通【tōng】过使用新一代Kaldi技【jì】术,人们可以通过语【yǔ】音指令控制家电设备、查询天气、播放音乐【lè】等;在教育行业中,可以对学生【shēng】进行口【kǒu】语【yǔ】测试和纠正,提【tí】高学【xué】生的口语表达和听【tīng】力理解能力;在医疗行业中,可【kě】以实现自动【dòng】化的【de】病【bìng】历【lì】记【jì】录和诊断【duàn】,提【tí】高医疗行业【yè】的效率。

Daniel在中国

“一直以来,全【quán】球人工智【zhì】能有关【guān】的项目都有【yǒu】一【yī】定比例【lì】的中国研究人员,但最近十年左【zuǒ】右的新情况【kuàng】是,越来越多有趣【qù】的新研究来自在【zài】中国工作的【de】中国人。” 四年半的时间里,Daniel对中国的兴趣日渐浓【nóng】厚。

在小米,Daniel还是一如既【jì】往地【dì】延续着工作狂的风【fēng】格【gé】,即便【biàn】目【mù】前处在一个【gè】低压放松【sōng】的工作【zuò】环【huán】境中。一心一意扑在【zài】研发和新一代Kaldi团队领导工作上【shàng】的他【tā】,并没有多少时间健身,甚至没有很多时间与朋友出游【yóu】。靠近电脑【nǎo】桌【zhuō】的地方摆了一架【jià】电【diàn】子琴,他【tā】把仅有的【de】娱乐活动搬到了办公室。

在团【tuán】队中,Daniel是一【yī】位谦【qiān】逊【xùn】、亲切且善于思【sī】考的领导者。“我在【zài】这样一间宽敞的办公室,我的【de】团队成员【yuán】却坐【zuò】在外【wài】面并排的工位上,我总是因此而【ér】感到歉疚【jiù】。”对团队成员关【guān】怀备【bèi】至【zhì】的【de】他,总是【shì】把研发的【de】责任揽到自己身上。“我拥有【yǒu】一【yī】个【gè】强大【dà】的团队,这里【lǐ】的人【rén】都非【fēi】常好。”全身心投入研发的Daniel,认【rèn】为阅读研究论文“往【wǎng】往会分散注意力”,有时没能及时跟进技术动态,导致【zhì】他“重【chóng】新发【fā】明了别人已经发明的东【dōng】西”,还是团队的伙伴分享给他【tā】相关的论文以供参考。

(Daniel身穿“NEXT-GEN KALDI”文化衫站在【zài】陈【chén】列柜前【qián】)

Daniel曾经【jīng】编程速度很快,人们一度【dù】很难跟上他的步伐【fá】,而如今他并【bìng】不会花很多时【shí】间【jiān】在【zài】代码上。在新【xīn】一【yī】代【dài】Kaldi团队中【zhōng】,有一位实力强劲【jìn】的程序员小哥【gē】叫匡方军,Daniel称【chēng】其编程速【sù】度“非常快”。据【jù】了解,匡方军是新一代Kaldi团队的初【chū】始成员之一,也是其子项目Sherpa的【de】主【zhǔ】要维护者。团队的【de】小伙伴说【shuō】他编【biān】程【chéng】功底深厚,对项目付出了很【hěn】多。同时他也是和Daniel风【fēng】格特别像的一名程序员,在团队中颇有人【rén】气。

(Daniel的【de】书架上摆放着自己【jǐ】与团【tuán】队【duì】的合照、可爱的中西摆件【jiàn】和一【yī】本《高效能人士的七【qī】个习惯》)

有【yǒu】时,工【gōng】作计划会不可避免地存【cún】在调【diào】整,导致整【zhěng】体进度放缓【huǎn】,Daniel对此【cǐ】表示“这完全是【shì】我的责任”,并及时复【fù】盘【pán】,继续带【dài】领团队【duì】不断【duàn】攻克难关。在【zài】项目的【de】推进中,他对【duì】产品和【hé】市场有了更深入的认知,并且逐步明确了努力的方向。

对于【yú】压力,他说【shuō】尽管人【rén】们【men】可【kě】能会在高【gāo】压的环【huán】境下产出【chū】很多,但低压的【de】环境令人愉悦【yuè】,让他和他的团队可以去开始思考并追【zhuī】求有趣的【de】事【shì】。“我觉得我会倾向于沉迷不同【tóng】的事【shì】情【qíng】,通常情况下是不同【tóng】的工作项目。”Daniel表示,“我【wǒ】对别人对【duì】我的【de】看法不是那么敏【mǐn】感【gǎn】。所【suǒ】以【yǐ】不要在乎别人怎么想,只要知道自己在做什么【me】就行了。”

对科技敏感,对人际并不敏感的Daniel,通常会给自【zì】己在【zài】小米的助理Liliana带来不小【xiǎo】的【de】工作挑【tiāo】战。在团队成员的眼中【zhōng】,她已【yǐ】经升级为Daniel在中国的【de】全面助【zhù】理,协助【zhù】处理工【gōng】作与日常大小事务。在办【bàn】公室墙上的白【bái】板,除了满屏的工作想法,Daniel打趣地写下了【le】“Dan惹恼Liliana的第【dì】X天【tiān】”的字【zì】样。

(Daniel办公室的白板上写满了有趣的想法与演算)

在小米的四年半时间里,中国饮【yǐn】食和中国文化已【yǐ】经融入了他的生活。对【duì】于Daniel来说,中西差异并不【bú】对他构【gòu】成文【wén】化冲击,他在国外做大学教授期【qī】间已【yǐ】接触过诸多【duō】中国【guó】学【xué】生。对 Daniel 来说【shuō】,中国人【rén】和【hé】中国文化早已十【shí】分亲切。

Daniel 喜欢【huān】的【de】中国美食,并【bìng】非大众喜爱的火锅,而是与【yǔ】西方牛排有共同之【zhī】处的【de】烤肉、羊排、排【pái】骨等整块烹制的肉【ròu】类。每【měi】天中午,他在小米成立的【de】新【xīn】一代Kaidi团队同事们,就会拉着他一起去小【xiǎo】米的食堂吃中餐。他的【de】体态比四年前的清瘦模样【yàng】显【xiǎn】然圆润【rùn】了【le】一些,肠胃【wèi】早已【yǐ】适【shì】应中餐【cān】。

(Daniel 办公室里摆放着中国传统工艺品)

办【bàn】公【gōng】桌一侧的陈列柜【guì】里【lǐ】,摆【bǎi】放着许多有关语音识别【bié】、声【shēng】音建【jiàn】模、团队进步【bù】的奖杯。他【tā】表示,自【zì】己并不在意获【huò】得了多少奖项【xiàng】,而是在意这里开放【fàng】、包容、尊重的工作氛围,以及小米对开源项目的【de】提倡与重视,这正是他在小【xiǎo】米【mǐ】的伯乐崔宝【bǎo】秋所倡导的。

多年来,Daniel一直在寻【xún】找一个适【shì】合自己搞科研的环境。在这里,他找到了。2019年他加【jiā】入【rù】小米时,向【xiàng】崔宝【bǎo】秋提【tí】到【dào】的“我并不需要很高【gāo】的薪水【shuǐ】”一度被媒体广泛传【chuán】播。如今【jīn】,他依旧持【chí】有【yǒu】一样的态【tài】度。在他【tā】看来,金钱并非排在【zài】第一位。

“比【bǐ】如家人的【de】陪伴【bàn】就比金钱重要的多【duō】。现【xiàn】在的年轻人对薪资【zī】看得太重了。我认为年轻【qīng】人不必那么追求高薪,反而【ér】应该在【zài】合适的【de】时【shí】候组【zǔ】建家庭,抚养下一代【dài】。”

2023年暑期,他将自己的小女儿接来【lái】中国上学。在中【zhōng】国,他也【yě】有【yǒu】了亲情的陪伴。女儿也【yě】在逐渐适应中国的教育氛围【wéi】。自己的【de】女儿曾在美国吐槽学校对学【xué】业【yè】并【bìng】不【bú】是那么认真,而来中国周围的人对于学习【xí】的态度有点过于严肃,以至【zhì】于【yú】没多【duō】少人【rén】会提倡打破规则。“像我一样,她也有很【hěn】强的【de】个性。”应试教育往往通向中国父母所期盼的名牌大学。而Daniel认【rèn】为【wéi】女儿不【bú】必跟随【suí】自己去【qù】上【shàng】剑桥,选择【zé】一所适合她【tā】的即可。

“那些【xiē】有【yǒu】极高薪【xīn】水和地位的人,并不一定过得【dé】开【kāi】心【xīn】。”Daniel表示。他的核【hé】心乐趣,无疑是声【shēng】音建【jiàn】模和语音【yīn】识别技术研发。

放眼AGI未来,提倡技术与人的正和游戏

就像Transformer的创造者提出寻求更【gèng】高效节能【néng】的架【jià】构【gòu】一【yī】样【yàng】,Daniel也以发展的眼光看待自己【jǐ】缔造的一代【dài】传奇。

对于Kaldi的广泛使【shǐ】用,Daniel表示:“人们一直在更【gèng】换【huàn】工具,所以我的【de】感【gǎn】觉是,人们可能【néng】不会使【shǐ】用很多我们的代【dài】码。虽然有时人们【men】仍然在他们的解码【mǎ】器逻辑中,保留一些Kaldi代码,即便他们【men】的主要模型【xíng】是用【yòng】PyTorch或其他别的构【gòu】建的。我认为现代的趋势是简化这种代【dài】码并【bìng】使用【yòng】通用的机器学习方法。或【huò】许,使用者的计划【huá】是最终不必【bì】使用【yòng】Kaldi,因为他们正【zhèng】在使用一【yī】些【xiē】非常通用的【de】机器学习方法【fǎ】,这些【xiē】方法不仅【jǐn】针对【duì】语音识别。只是目前,Kaldi仍然在被使用。”

“我着眼于【yú】未【wèi】来。”Daniel 表示,他们正在尝试提出一【yī】些新的有趣的事物,甚至是应用机器学习的新范【fàn】畴。“如【rú】今,语音识别似乎已趋【qū】向【xiàng】成为一种商品或【huò】已解决的问题,所【suǒ】以我希望【wàng】能找到机器学习【xí】的一些新应用,这在某些方面【miàn】可【kě】能【néng】更【gèng】令人兴【xìng】奋。”

在广【guǎng】义的人工智能发展范畴上,Daniel认为语音识【shí】别在大【dà】多【duō】数应用中仅占很小的一部分。他【tā】并不担【dān】心技术【shù】会【huì】取【qǔ】代人类的大【dà】部分【fèn】工作,至少不会取代那些需要职业资格【gé】证【zhèng】的工作,毕竟很多工【gōng】种都【dōu】在到职业许【xǔ】可认证和法律保护的范【fàn】围内。

“人工智能【néng】在娱乐或语言生【shēng】成等方面有【yǒu】很多应用,在这些领域人工智能在【zài】帮我们做‘零和游戏’。”他【tā】列【liè】举了一个律【lǜ】师的例子:如果【guǒ】律师有机会【huì】接触人工智能,他们将【jiāng】变得更有效率【lǜ】。这样的情况下,他们只是在与另【lìng】一【yī】个律师团【tuán】队对抗,而实际的【de】总【zǒng】生【shēng】产力不会改【gǎi】变,因【yīn】为他们和他的【de】对手都擅长在【zài】同一领【lǐng】域展开竞技。“我【wǒ】们只是在更努力地互相争【zhēng】斗【dòu】。这个道理同样适用于战【zhàn】争。”Daniel认为,在零和游戏的【de】设定上,人工【gōng】智能会一【yī】定程度上加速人【rén】类能力的“内卷【juàn】”。

Daniel认【rèn】为【wéi】“人工智能应用【yòng】在工业、农业或者矿业将更【gèng】有趣,因为在【zài】这【zhè】里并不是【shì】一场【chǎng】‘零和游戏’”。他更提倡的【de】是,人与技术的正和游戏。在【zài】博【bó】弈【yì】论上,正和游戏意味着二者相加的和并非【fēi】归零,而是双赢【yíng】互惠的结果,参【cān】与者的利【lì】益【yì】是相互一致【zhì】的,一【yī】方的【de】利益增加【jiā】不会导致另【lìng】一方的利益减少。

在即将到【dào】来的2024全球机器学习技术大会【huì】(ML-Summit 2024),Daniel准备带来【lái】有关“The Current Moment in AI”的主题演讲。他想借助这个机会,帮【bāng】助人们后退【tuì】一步纵览LLM的【de】目前的发【fā】展,从一个更大的视角来【lái】看到最【zuì】近风靡的【de】大模型【xíng】只是人工智能发展中许多改进的【de】一【yī】个。同【tóng】时,Daniel还【hái】想【xiǎng】从技术的角【jiǎo】度,结合自己的语音【yīn】研究实践,谈一谈人工【gōng】智能会【huì】对人类命运产【chǎn】生的影响。

Daniel认为计算、内存和存储【chǔ】的成【chéng】本会随着时【shí】间的【de】推移【yí】而【ér】下降,但下降【jiàng】的速度【dù】不【bú】会那么快,效率【lǜ】仍然是【shì】任何产【chǎn】品【pǐn】的一个问【wèn】题。“这意味着【zhe】我们【men】可能不想部署太【tài】大或太通用的模型。当然,我【wǒ】们【men】仍然可以使用更大的模型作为【wéi】训练过程【chéng】的一部分,例如在【zài】师生学习中。到目前【qián】为止,人们【men】还没【méi】有能【néng】够从LLM那里获得【dé】ASR准【zhǔn】确性方面的太大改进。但这可能【néng】会改变【biàn】。”Daniel表示,“就我个人而【ér】言,我不喜欢花太多时间处理非常大的模型,因为它限制【zhì】了你【nǐ】在实验方面的选择。”

作为人工【gōng】智能语音识别的先驱,谈及对于广大开发【fā】者的寄语时,Daniel认为应该将目光放【fàng】长远【yuǎn】,不要拘泥一格。“我倾向【xiàng】于建【jiàn】议人【rén】们学【xué】习一些通用【yòng】的机器【qì】学习技能,例如【rú】去确保知【zhī】道如何使用PyTorch一类的工具。机器【qì】学习方向正朝着在【zài】不【bú】同的任务中使【shǐ】用【yòng】相同的方法而发展【zhǎn】。我想知道在未来拥【yōng】有过于狭【xiá】窄【zhǎi】的专业【yè】知识将是【shì】否是【shì】一件有益的事【shì】,只拥有语音相关【guān】的知识或许将过于狭隘【ài】。不过【guò】,对于大多数人来说,掌握通用知识【shí】已不【bú】是难事,因为人们已【yǐ】经在使用可用于其他领域的【de】方法【fǎ】了【le】。”

最近,OpenAI推出的文【wén】生视频大【dà】模型Sora自【zì】推出后热度持续增长【zhǎng】,带动了行业中多【duō】个复现Sora项目的产生【shēng】与迭代。对于Sora是否意【yì】味着AGI会加快到来的问题,Daniel 表【biǎo】示肯定。“Sora解【jiě】决了一个非常具体的【de】视频【pín】生【shēng】成【chéng】问题。我认为这与【yǔ】通用【yòng】智能完【wán】全不同。我并不是真的担心,我认【rèn】为这将是一【yī】条非【fēi】常缓慢的道路。如果上网搜索,你可能会【huì】发现【xiàn】,很多搜【sōu】索【suǒ】结果都是【shì】人工智能产生的垃圾,你必须非【fēi】常有【yǒu】知【zhī】识才能区分真正的垃【lā】圾。未来很多语言模【mó】型的质量可能变得更【gèng】糟,除非他们【men】找到一种方【fāng】法来过滤掉那【nà】些坏数据【jù】。”

放眼未【wèi】来,Daniel没有【yǒu】对人工智能的发展持悲【bēi】观态度。“人工【gōng】智能失控【kòng】并不可【kě】怕【pà】,可怕【pà】的是【shì】人工智能受【shòu】制【zhì】于不同目【mù】的的人。”比如将【jiāng】人工智能用于战【zhàn】争,在他看来【lái】反倒可以减少【shǎo】人类士兵的牺牲【shēng】,但若被怀揣【chuāi】目的的人的过度使用,确实会造成不良后果。他认【rèn】为技术的【de】发展取决于其缔造者和使【shǐ】用者。

人【rén】工智能语音【yīn】识【shí】别技术,在 Daniel 这样一【yī】群可爱又【yòu】可敬的科【kē】研人员的【de】带领下,相信也会取得令人满意的【de】成果【guǒ】。

采访后记

4 月 25 ~ 26 日,由 CSDN 和高端 IT 咨询和教育平【píng】台 Boolan 联合【hé】主办的「2024 全球机【jī】器学【xué】习【xí】技【jì】术【shù】大会」在上海再度启幕第一站,汇聚来【lái】自【zì】全【quán】球近 50 位在机器学习技术研发及行【háng】业【yè】应【yīng】用【yòng】领域【yù】的领军人物【wù】和知名专家,携手搭【dā】建【jiàn】一个专属【shǔ】于全球机器学习【xí】与人工智能精英的高【gāo】层次交流与分享舞台。

标签: #魔兽争霸3冰封王座转换器124e