泓泰

DotA2团战人类也打【dǎ】不过AI了【le】?最全【quán】解【jiě】读带你看懂AI修【xiū】炼手法【fǎ】和局限

admin
DotA2团战人类也打不过AI了?最全解读带你看懂AI修炼手法和局限-第1张-游戏相关-泓泰

前言:

而今看【kàn】官们对“dotaai原理【lǐ】”大体比较关心,你们都需要【yào】剖析一些“dotaai原【yuán】理”的相关资讯【xùn】。那么【me】小编同时在网摘上汇集【jí】了一些关于“dotaai原理””的相【xiàng】关资讯,希望你们【men】能喜欢,大家一起来学【xué】习【xí】一下吧【ba】!

夏乙 问耕 发自 凹非寺

量子位 出品 | 公众号 QbitAI

GG。

随着人类喊出这两个字母,一切都结束了。

OpenAI研发的人工智能战队,首次【cì】在5v5的Dota2开黑【hēi】团战对战中【zhōng】,击败人类玩家战【zhàn】队【duì】。

这真是一个里程碑式的事件。

这个【gè】能打团战的AI名叫OpenAI Five,是OpenAI最新【xīn】的研发成果【guǒ】。

OpenAI Five完全通过自我对【duì】战来学习打【dǎ】Dota2,每天的对战量据说相当于【yú】人类的180年。而且惊人的硬件【jiàn】消耗量,应【yīng】该也【yě】是创下纪录:256块【kuài】GPU和12.8万个CPU……

人类【lèi】就【jiù】这【zhè】么又一次全面陷落了【le】么?显然,Dota2团战AI击败人类这件事,一【yī】点也不简单。

我们分三个部分,带来最全解析。

第【dì】一部分:OpenAI Five有多强?第二部分:现在【zài】去【qù】TI打专业战队有【yǒu】戏【xì】吗?第三【sān】部分:AI一日,人间180年

开始。

Dota2团战AI有多强?

可能真的出乎你的预料。我们来详细讲解一下。

团战不虚

团战,需要综【zōng】合使【shǐ】用【yòng】技能、装备【bèi】和走位,最大【dà】化对【duì】敌方英【yīng】雄的伤害,同时避免【miǎn】损失本方英雄。

来看实战。

这是一【yī】波AI守高地的战【zhàn】斗。当时【shí】人类团队的装备和等级都【dōu】要更高【gāo】。而且五位人类玩家全部【bù】集结在一路,准【zhǔn】备强行拆【chāi】塔。

双方甫【fǔ】一【yī】接触时,AI只【zhī】有一位23级的英雄应战,人类【lèi】团【tuán】队24级的【de】巫妖(Lich)首【shǒu】先发难,使出“阿【ā】托斯之棍”,将AI一【yī】方23级【jí】的巫【wū】妖定在原地。

随【suí】后【hòu】,AI巫妖对自【zì】己释放“EUL的神圣法杖【zhàng】”,这个技能可以让【ràng】自己被卷【juàn】入龙卷风【fēng】中,并且暂时处于无敌状态。通过这【zhè】一招,AI的用意是拖住人类团队【duì】,并【bìng】且给自己的【de】队友赶来赢得时间【jiān】。

随后,AI巫妖继续将【jiāng】人类团队拖上【shàng】高地,诱使人类【lèi】玩【wán】家信心【xīn】爆棚。而其他AI英【yīng】雄则开【kāi】始从后方包抄人类团队【duì】。

绕后的AI冰女(Crystal Maiden),对人类团队拖后的火枪(Sniper)率先使出“闪烁匕首【shǒu】”,紧接着【zhe】用出“冰封禁制【zhì】”把狙击手冻住,接【jiē】着【zhe】再是一【yī】记【jì】“黑皇杖”,最后【hòu】施【shī】法【fǎ】“极寒领【lǐng】域”召唤冰晶展开轰【hōng】炸【zhà】。

AI冰【bīng】女【nǚ】释放【fàng】的【de】“极寒领域”,和【hé】AI毒龙【lóng】(Viper)释放的“幽冥剧毒”,迫使人类团队只能散【sàn】开。于是,AI火枪可以从安全距【jù】离上展开远【yuǎn】程攻击。

在高伤害和【hé】群控的【de】攻击【jī】下,人类火枪和冰【bīng】女想要撤退,却只能以被击【jī】杀而告终。随后,在没有视野的情况下【xià】,AI冰女使用【yòng】“冰【bīng】霜【shuāng】新星【xīng】”,击杀【shā】了【le】人类巫妖。

随【suí】后【hòu】,AI冰【bīng】女还不肯罢休,闪【shǎn】现追击【jī】人类仅剩的最后一个英雄死灵法师【shī】(Necrophos),然而在【zài】冻住对方后,AI冰女【nǚ】已经无技能可用,只得放弃追击【jī】。

最终这波团战,AI打了人类玩家一个2换4,而且守家成功。

诡计多端

遇【yù】到打不过的时候,人类英【yīng】雄躲进【jìn】树林【lín】想【xiǎng】要避一避,没用【yòng】的。AI英雄即便失去了视野,也会【huì】一路【lù】追进森林寻找,然后【hòu】击杀。

眼见AI残血,人类玩家想要追【zhuī】击,千万小心,因【yīn】为其【qí】他AI英雄【xióng】正赶来捉【zhuō】人。人类玩家不单收【shōu】不了人【rén】头,而且还要送命【mìng】。

特别强调一点,AI还学会了“擒贼先擒王【wáng】”,不惜【xī】使【shǐ】用多重大【dà】招,只【zhī】为【wéi】确保能击杀等级最高的那个敌方【fāng】英雄。

而且AI英【yīng】雄还会自【zì】我【wǒ】牺牲,把人类玩家【jiā】引诱出高地,确【què】保团队其他【tā】成员【yuán】能推塔成功。

总之,OpenAI Five又能团,又能gank,足智多谋,诡计【jì】多【duō】端。

实【shí】际上,按照官方的说【shuō】法,目前OpenAI Five在选择攻【gōng】击目【mù】标这一【yī】项上,达到【dào】了专业水【shuǐ】平,但补兵能力还有不【bú】足。

去TI打专业选手有戏吗?

回答这个问题之前,先【xiān】得明确一【yī】个【gè】事实:目【mù】前OpenAI Five战胜的对手,并【bìng】不是人【rén】类顶尖高【gāo】手。

双方的对战【zhàn】,大约两个月前已经【jīng】开始。目【mù】前【qián】OpenAI Five已经先【xiān】后与五【wǔ】支人类团队有【yǒu】过交手:

1、最强OpenAI员工队:MMR匹配分 2500

2、最强观众队:MMR 4000-6000

3、Valve员工队:MMR 2500-4000

4、业余队:MMR 4200,有团队训练

5、半职业队:MMR 5500,有团队训练

9-21,OpenAI Five首【shǒu】次【cì】击【jī】败了脚本基线版本。9-21,与第1队打【dǎ】成【chéng】1:1。9-21,与第1、2、3队【duì】的对战中【zhōng】,均取得胜利。

可【kě】以看【kàn】到OpenAI Five一直在进步。这个AI与第4、第【dì】5队进【jìn】行了非正式的比赛,虽然没能取胜,但是在【zài】前三场中赢【yíng】下两场。

与人类玩家相【xiàng】比,OpenAI Five平均每分钟可进行150-170次【cì】操【cāo】作,平均反【fǎn】应时【shí】间【jiān】为【wéi】80毫秒,明显比人类更【gèng】快。

不过这些不是决定5v5胜利与否的关键因素。

OpenAI还总结了OpenAI Five的几个特点:

屡次牺【xī】牲【shēng】自己的优势路(夜魇军团的上路,天辉军团的下路【lù】),以压制敌【dí】人的优势路,迫使战斗转移到对手【shǒu】更难【nán】防御【yù】的一边。比赛初期【qī】到【dào】中【zhōng】期的【de】转换【huàn】比对手更快。方法:(1) 多次成功gank人类玩家【jiā】 (2) 赶【gǎn】在对手集结之前,组队推塔。也有一些非主流打法。例如前期把钱和经【jīng】验让给辅【fǔ】助英【yīng】雄【xióng】。OpenAI Five的优先级【jí】使【shǐ】其伤害值能更快攀升【shēng】,进而【ér】赢得【dé】团战等。

不过,这么厉害的队伍,当然也不是陪业余人类玩玩就算了的。

OpenAI说,他们打算【suàn】8月【yuè】份去DotA 2顶【dǐng】级赛【sài】事TI上,找一支顶【dǐng】级专业队伍【wǔ】PK一下,7月底还要搞一场对战专业【yè】团队的直播。

当然,全部英【yīng】雄OpenAI Five暂【zàn】时还搞不定,和专业选手对局,双方也【yě】只【zhī】能在【zài】有限的英雄里【lǐ】选。

到时候这个“有限的英【yīng】雄”究竟有多少,现在【zài】还不知道【dào】,不过,这也说明了一个很重【chóng】要的【de】问【wèn】题【tí】:现在【zài】OpenAI Five的能力【lì】,还【hái】不足以玩人类版的DotA 2。

那么,AI现在玩的DotA 2和人类版相比做了哪些简化呢?

OpenAI在博客最后列出了AI版DotA的限制:

双方英雄阵【zhèn】容是固【gù】定的:死灵法师、火枪、毒龙、冰【bīng】女、巫妖(他们的学名叫【jiào】瘟疫法师、矮【ǎi】人【rén】狙击手【shǒu】、冥界亚【yà】龙、水晶室女、巫妖);不插眼;没有肉山;没有隐身装备;没有召唤单位【wèi】、没有幻像;少了一些物【wù】品【pǐn】:圣剑、瓶子、补刀斧、飞【fēi】鞋、经【jīng】验【yàn】书、凝魂之泪;有5个无敌信【xìn】使(鸡),但是不能用来侦查或者防【fáng】御【yù】;没有【yǒu】扫描。

这意味着什么?

有了这些限制,AI打的【de】DotA就【jiù】比人类版有【yǒu】了很多简化,也说【shuō】明了这个AI还【hái】有【yǒu】些【xiē】没掌握的技能。

比如英雄【xióng】的选择和阵容的搭配。双【shuāng】方只有【yǒu】固【gù】定的5个英雄,就不需要掌握英雄之间的【de】配合和克制情【qíng】况,游戏也少了很多【duō】变化。

AI现【xiàn】在也【yě】还不懂得对视【shì】野的控制。AI玩的版【bǎn】本【běn】没有隐身装备、没有插眼的【de】操作、没【méi】有扫描,于是双方只能在游戏原本设【shè】定的【de】视野中对战,不能靠自【zì】己【jǐ】的能【néng】力改变视【shì】野,也不【bú】需要侦查。

游戏中,如果不考虑信使,AI控制的单【dān】位也只能是5个【gè】,这【zhè】也就【jiù】是为什么【me】不能出【chū】现召唤单位和幻象。

另【lìng】外,没有游戏野区【qū】最【zuì】强【qiáng】大的怪物肉山,也就没有了打肉山能得到的复活盾【dùn】。在职业比赛中,复活盾【dùn】带来的【de】原地满状态复活【huó】能【néng】力,可以说是个翻【fān】盘【pán】利器。

让人类职业选手来打一个这【zhè】样的【de】DotA,并没有什么优势【shì】;如果【guǒ】让现在的OpenAI Five去【qù】打人【rén】类版DotA,这支没学过选英雄、做视【shì】野【yě】、偷鸡等等技能,还少学了很多装【zhuāng】备的【de】队伍【wǔ】,也会【huì】不知所措。

不过,OpenAI也说了,这些限制大都是因【yīn】为游戏【xì】里有些部分还没【méi】整【zhěng】合进来,像插眼、肉山这种职业【yè】比赛中【zhōng】的关键【jiàn】元素,他们会尽快加上。

AI一日,人间180年

虽然还有种种限制,但不可否认,AI的进步还是快得吓人。

OpenAI的解释【shì】是,这个【gè】AI通过【guò】自【zì】我对战来提升,从随机参数【shù】开始,不用【yòng】人类玩家的方法【fǎ】引导,也不【bú】人类玩【wán】家方法中搜索。

他们还特别提到,在训练1v1模【mó】型的时【shí】候,是专门【mén】针对卡兵这个操【cāo】作设置了【le】奖励的。但【dàn】是【shì】在OpenAI Five模型中【zhōng】并没有这个奖励,但这个【gè】新模【mó】型【xíng】还是自己学会了卡【kǎ】兵。

AI每天的训练量,相当于【yú】打180年游戏。可【kě】谓真【zhēn】·勤学苦【kǔ】练,人类选手一辈子【zǐ】的训练量【liàng】也不及它【tā】半天。

这些每天训练180年的选手,究竟是些什么怪物?

他们的长相是这样的:

不要被结构图吓【xià】到【dào】,简单来说,每个选手,也就是每个智【zhì】能体(agent),都是【shì】一个单层LSTM(长【zhǎng】短时记忆网【wǎng】络),有1024个单【dān】元【yuán】,能【néng】够通过Valve的Bot API观察当前游戏状态,控制自【zì】己【jǐ】的英雄接下来选【xuǎn】择【zé】哪一种操【cāo】作、释放到XY坐标【biāo】系中的哪一点。

智能体能【néng】够观【guān】察到【dào】的【de】信息和人类差不多,包括自身、队友和敌【dí】人的状况,比如位置、血【xuè】量、攻击【jī】力、护【hù】甲【jiǎ】、携带物【wù】品、能力【lì】等等。可能会有一点【diǎn】点区别的【de】,就是智能体对过去12帧的血量、攻击【jī】和被【bèi】攻击情况等历【lì】史信【xìn】息大【dà】概记得比人类清楚。

这些【xiē】信息,对于智能体来【lái】说是一【yī】个包含20000数值的列表【biǎo】,而它判断之【zhī】后发出的行【háng】动【dòng】指令,是8个【gè】值【zhí】的列表。

选手们的训【xùn】练,使【shǐ】用的是【shì】扩展版的近端策略优【yōu】化(PPO)方法,这也【yě】是【shì】OpenAI现在默认的强化【huà】学【xué】习【xí】训练方法。这些【xiē】智【zhì】能体的【de】目标是最大化未来奖励的指数衰减和【hé】。

AI选手们在训练【liàn】中饭【fàn】量【liàng】惊人,承载【zǎi】它们需要256块P100 GPU和12.8万【wàn】个CPU核心。

上【shàng】面【miàn】的5v5版【bǎn】本与1v1版本对比,有一个【gè】令人【rén】欣慰的结果:OpenAI Five需要【yào】的CPU和GPU计算力,与去年击败Dendi的1v1版相比,并【bìng】没有【yǒu】翻【fān】到【dào】5倍。

5个智能【néng】体训练出来,它们之【zhī】间又是怎样配合的呢【ne】?总不能像【xiàng】我【wǒ】们人类【lèi】开黑一【yī】样互相喊话【huà】吧?

答案是,他们之间【jiān】没有【yǒu】那种人类可以理【lǐ】解的【de】沟通渠【qú】道,而是由一个“团队精神”超参数来统一【yī】控【kòng】制。这个超【chāo】参数的范围在0到1之间,决定【dìng】了选手对【duì】与自身【shēn】奖励【lì】函数和队友平均【jun1】奖励函数的【de】关注程度分配。

留给AI的时间还很多

OpenAI说,他们打算在9-21和顶【dǐng】级选手对战一番,留【liú】给他们的【de】时间,还有整【zhěng】整1个月。8月,他们还要和【hé】顶级【jí】人类【lèi】专业选手在TI上较量,如果这一场较量在AI结【jié】束时的【de】话【huà】,留【liú】给AI的时间还有【yǒu】两个【gè】月。

按照“人间一天,AI界180年【nián】的”算法,加【jiā】上肉山、插眼等【děng】关键元素之【zhī】后,只要能给AI留半个月时间【jiān】和自己对【duì】战【zhàn】,在【zài】它的世界里就可以【yǐ】说修【xiū】炼了“数千年【nián】”。

这场对战,还开设了直播,等着和人类观众相见。

传送门

9-21大战的直播:

https://www.twitch.tv/openai

OpenAI博客详解【jiě】(包含各种场景下【xià】AI观察【chá】到【dào】的【de】情形和可【kě】采取行动的交互图解):

https://blog.openai.com/openai-five/

LSTM架构大图:

https://d4mucfpksywv.cloudfront.net/research-covers/openai-five/network-architecture.pdf

PPO:

https://arxiv.org/abs/1707.06347

— 完 —

实习生招聘

量子位【wèi】正在【zài】招【zhāo】募市【shì】场运营实习生,策【cè】划执行【háng】AI明星公司CEO、高管【guǎn】等参与【yǔ】的线上/线下活动,有机会与AI行业大牛直接交流。一【yī】份丰【fēng】富的实习经历等你解锁【suǒ】~

工作【zuò】地点在【zài】北京【jīng】中关【guān】村。简历欢迎投递到quxin@qbitai.com

具体【tǐ】细节,请【qǐng】在量【liàng】子位公【gōng】众号(QbitAI)对话界【jiè】面,回复“实习生”三个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

标签: #dotaai原理