泓泰

AI在DOTA 2顶级赛事上一败涂地,这究竟意味着什么?

admin
AI在DOTA 2顶级赛事上一败涂地,这究竟意味着什么?-第1张-游戏相关-泓泰

前言:

而今朋友们对“dotaai原理”大概比较着重,看官们都想要剖【pōu】析一【yī】些“dotaai原【yuán】理”的【de】相关文章。那么小编也在网络【luò】上汇集了【le】一【yī】些【xiē】对【duì】于【yú】“dotaai原理””的相关文章,希望【wàng】大家能喜欢,朋友们一起【qǐ】来学【xué】习一下吧!

随着昨日 OpenAI Five 被一支中国队伍打【dǎ】败以及【jí】前天【tiān】的另【lìng】一场失败, AI 提前【qián】结束【shù】了其【qí】在本届【jiè】DOTA 2 国际顶尖赛事 TI 8 的旅程。

回顾【gù】这两场比赛,虽然 AI 在比【bǐ】赛【sài】的前【qián】 9-21 分钟【zhōng】内保持了很【hěn】好【hǎo】的获胜机会,但 OpenAI Five 最终仍没有把握住机【jī】会:第一场比赛 AI 对阵【zhèn】世界【jiè】排名前 18 的【de】队伍的 paiN Gaming,比赛持续了大【dà】约 51 分钟(一【yī】般比赛持续【xù】 40 分钟);在【zài】第二场【chǎng】比赛中,AI 对【duì】阵由中【zhōng】国【guó】退【tuì】役顶尖玩家【jiā】组成的队伍,其中三人【rén】曾在一支明星队【duì】伍中比赛过【guò】,在经【jīng】历了一些精彩额来回战斗后,人类 45 分钟后获胜。

OpenAI Five 在比赛中确【què】实展【zhǎn】现了自【zì】己一定的【de】实力,根据 OpenAI 赛后发【fā】布的博客文章,导致失败的主要【yào】原因是对战的【de】游戏玩家明显实【shí】力比 AI 高出不少量级 ,如【rú】今年5月以来【lái】玩【wán】家排名的图表所示:

图|各个队伍的实力分布(来源:OpenAI )

除此之外,缺乏战略规划也导致了 AI 的失败。

“我们并不感到震惊,”OpenAI 成员 Filip Wolski 赛【sài】后【hòu】对媒体表示。“我【wǒ】们以极高【gāo】的不确定【dìng】性参加了比赛【sài】。我【wǒ】们【men】不知道【dào】某些因素,比如在比赛那天我们【men】会对战谁”。

在周三遭遇首次失败之后,开【kāi】发人员也重【chóng】新调整了【le】 AI 的奖励【lì】系统,试图【tú】最【zuì】大【dà】限度地获得胜利的【de】机会。Wolski 向表示:“当机器人赢得比赛时,最大【dà】的回报是给予奖励……这个【gè】项目让【ràng】我们经【jīng】历了很多不眠之【zhī】夜,我【wǒ】们会休【xiū】息一下【xià】,并【bìng】考虑是否【fǒu】为 AI 上传新的超参数。我【wǒ】们将【jiāng】继续研【yán】究Dota 2,以便【biàn】更好地使用【yòng】越来越少的【de】限制来玩游戏。”

总体来说,在保留一定【dìng】限【xiàn】制的前提下,OpenAI 的系统仍然无法全面理解 DOTA复杂的游【yóu】戏【xì】系【xì】统【tǒng】和规则【zé】,比如对侦查守卫【wèi】和诡计之雾【wù】的错误使用,站在 Roshan 洞穴发呆,将 Roshan 复【fù】活盾【dùn】交【jiāo】给辅助等等。这【zhè】些【xiē】行为和操作无疑浪费了【le】游戏中【zhōng】宝贵的【de】资源和稍纵即逝的战机。

退一步讲,即使 AI 系统对这些【xiē】物品和机制【zhì】有【yǒu】人类无法理解的【de】“独特看法【fǎ】”,但【dàn】是结合【hé】局势来看,这些做【zuò】法似乎【hū】不【bú】符合 OpenAI 团队【duì】所说的“为全局最优设计【jì】的【de】算法【fǎ】”,反倒像是 AI 系统【tǒng】在通过【guò】不断试错,来找到物品的正【zhèng】确使用方法【fǎ】和机制背后蕴藏的原【yuán】理。这或许是【shì】因【yīn】为新的 AI 算【suàn】法还存在 Bug 和训练时间不【bú】足。

图:OpenAI 在泉水处疯狂插眼

纵观八【bā】月中旬和【hé】 TI8 的几场【chǎng】比赛,OpenAI 的系统似乎并没【méi】有展现【xiàn】出太多的【de】进步。虽然比赛规【guī】则有所调整【zhěng】,但是【shì】面对更【gèng】加默契【qì】和高水平的职【zhí】业队伍时,AI 系统精【jīng】密计算的技能释放和反应极快的微操可以【yǐ】惊【jīng】艳观众,打【dǎ】赢遭遇战,但是无法带来胜【shèng】利。

归【guī】根结【jié】底,这是因【yīn】为规则修改后【hòu】的【de】游戏更加真实【shí】,同时顶【dǐng】级职业【yè】选手对 Dota 的【de】理解【jiě】更加【jiā】成熟,比【bǐ】如抱团、刷野和带线的时机【jī】;对战术的执行更为【wéi】彻【chè】底,比如黑皇杖等关键装备【bèi】出炉后的【de】开【kāi】雾【wù】抓人;针【zhēn】对不同局势【shì】的出装也更加灵活,比如关键英雄补出永恒之盘,防止被秒。

这些战略上的部署是目【mù】前 AI 系【xì】统所缺失的【de】,它还无法针【zhēn】对【duì】局势制【zhì】定【dìng】和【hé】变化战术。本质上讲,如【rú】果【guǒ】人类选手的【de】所有操【cāo】作都【dōu】可以被 AI视为一种输入【rù】值,那么 OpenAI 的强大算法就会处理这些【xiē】输【shū】入值,并产生相应的输出值【zhí】,即 AI 英雄的【de】操作【zuò】。显而【ér】易见,AI 通常【cháng】可以完美地执行这些反馈操作,比如利用跳刀和风【fēng】杖【zhàng】躲斧王跳吼。

图丨【shù】OpenAI 开【kāi】发团队亮相 TI 8 (来【lái】源:TI 8)

然而 AI 系统【tǒng】缺【quē】少在无信息情况下的主动的预测性行动,比如在【zài】特定位置被抓后进行反眼【yǎn】,在关键时间点组【zǔ】织开【kāi】雾进攻,或者围绕 Roshan 盾【dùn】进【jìn】行推进和反打【dǎ】。这种【zhǒng】特征在逆风局势下尤【yóu】为【wéi】明【míng】显,因为 OpenAI 作【zuò】为被动的一方需【xū】要寻求突破口【kǒu】来【lái】打【dǎ】开局【jú】面,有效【xiào】的战术转变是一种【zhǒng】必须掌【zhǎng】握的技能。

图|OpenAI 重大事件时间轴 (来源:DT君)

值得【dé】注意的是,OpenAI Five 整【zhěng】个从【cóng】零开始最终达到世界级职业玩家水平的道路中,并没【méi】有使用任何人【rén】类【lèi】提【tí】供的额外数据进行训【xùn】练。但在【zài】这次比赛结束后,如果【guǒ】开发团队希望 AI 能够更快地进步,他们真【zhēn】的需要考虑让 AI 学习人【rén】类的经【jīng】验【yàn】了。

标签: #dotaai原理