【翻译】谷歌2019年10月论文《多Agent强化学习在星际争霸中达成宗师级》中添加的限制 采访/翻译

whtbst 2020-6-22 09:36 10432

    昨天的启元AI闹的沸沸扬扬,许多水友把它和AlphaStar进行了对比,我仔细查阅了一下资料,对谷歌在限制上所做的思考翻译一二,希望能给大家带来一定的参考。由于本人能力有限,可能会出现理解有误的情况,还请各位猛男们指出。

    原文链接:https://doi.org/10.1038/s41586-019-1724-z

1. 摘要

    人类在游玩《星际争霸》时,会受到了身体上的限制,这限制了他们的反应时间和行动速度。游戏在设计之初就考虑到了这些限制,而消除这些限制就会改变游戏的本质。因此,我们选择对AlphaStar施加限制:由于网络延迟计算时间,AlphaStar会受到延迟的影响;而且它的APM也是有限的,峰值统计数据大大低于人类。AlphaStar在这个界面和这些限制条件下的游戏得到了专业玩家的认可(见后文中的 "职业玩家声明")。

    Humans play StarCraft under physical constraints that limit their reaction time and the rate of their actions. The game was designed with those limitations in mind, and removing those constraints changes the nature of the game. We therefore chose to impose constraints upon AlphaStar: it suffers from delays due to network latency and computation time; and its actions per minute (APM) are limited, with peak statistics substantially lower than those of humans. AlphaStar’s play with this interface and these constraints was approved by a professional player (see ‘Professional player statement’ in Methods).

6271592786016_.pic_hd.jpg

2. 限制

    2.1 摄像机视图

    人类通过屏幕玩《星际争霸》,只显示地图的一部分以及一个高度概括小地图(为了避免信息过载)。AlphaStar通过类似相机的界面与游戏进行交互,这自然会对注意力进行经济性上的约束,因此AlphaStar会选择完全看到哪个区域并与之进行交互。AlphaStar可以移动相机来改变所看到的区域

    相机外的对手单位会有一定的信息隐藏,AlphaStar只能在相机范围内进行某些行动(例如,建造建筑)。AlphaStar可以比人类在相机外更准确地锁定目标位置,尽管在相机内准确度较低,因为目标位置(在256×256网格上选择)对于AlphaStar来说在相机内外的处理方式是一样的。AlphaStar还可以在任何地方选择单位,而人类使用编组可以相对不太灵活地做到这一点。在实践中,AlphaStar并没有利用这些额外的能力(见下面的专业玩家声明)。根据下图Fig.3h数据显示,使用相机视图(也就是人类视角)会降低性能。(下图数据中还包括了多个可能会影响公平性的比较)

    Camera view. Humans play StarCraft through a screen that displays only part of the map along with a high-level view of the entire map (to avoid information overload, for example). The agent interacts with the game through a similar camera-like interface, which naturally imposes an economy of attention, so that the agent chooses which area it fully sees and interacts with. The agent can move the camera as an action.

    Opponent units outside the camera have certain information hidden, and the agent can only target within the camera for certain actions (for example, building structures). AlphaStar can target locations more accurately than humans outside the camera, although less accurately within it because target locations (selected on a 256 × 256 grid) are treated the same inside and outside the camera. Agents can also select sets of units anywhere, which humans can do less flexibly using control groups. In practice, the agent does not seem to exploit these extra capabilities (see the Professional Player Statement, below), because of the human prior. Ablation data in Fig. 3h shows that using this camera view reduces performance.

6371592786607_.pic_hd.jpg

    2.2 APM的限制

    人类APM在物理上是有限的。AlphaStar有一个监控层来强制执行APM限制。这引入了行动上的经济约束,要求对行动进行优先级排序。AlphaStar被限制在每个5秒间隔中最多执行22个非重复的动作。行动和游戏测量出的APM之间的转换是具有复杂度的,而且AlphaStar的行动很难与人类行动进行比较(由于计算机可以精确地执行不同步骤的行动)。实践中EPM和APM的细节可见下两图(蓝色代表AlphaStar红色代表人类玩家)。

    APM limits. Humans are physically limited in the number of actions per minute (APM) they can execute. Our agent has a monitoring layer that enforces APM limitations. This introduces an action economy that requires actions to be prioritized. Agents are limited to executing at most 22 non-duplicate actions per 5-s window. Converting between actions and the APM measured by the game is non-trivial, and agent actions are hard to compare with human actions (computers can precisely execute different actions from step to step). See Fig. 2c and Extended Data Fig. 1 for APM details.

6301592786214_.pic.jpg

6381592788434_.pic_hd.jpg

    2.3 延迟

    人类对新信息的反应速度是有限的,针对这个问题,AlphaStar有两个延迟来源。首先,在实时评估中(不是训练),由于延迟、观察处理和推理,AlphaStar在观察到一帧画面和执行一个动作之间有大约110毫秒的延迟。其次,由于AlphaStar提前决定下一步观察的时间(平均370毫秒,但可能是多秒),他们可能会对意外情况做出迟钝的反应。这些延迟的分布下图所示。

    Delays. Humans are limited in how quickly they react to new information; AlphaStar has two sources of delays. First, in real-time evaluation (not training), AlphaStar has a delay of about 110 ms between when a frame is observed and when an action is executed, owing to latency, observation processing, and inference. Second, because agents decide ahead of time when to observe next (on average 370 ms, but possibly multiple seconds), they may react late to unexpected situations. The distribution of these delays is shown in Extended Data Fig. 2.

Screen Shot 2020-06-22 at 09.16.44.png

    

3. 职业玩家声明

    下面引用《星际争霸II》职业玩家TLO(他是团队的一员,也是本文的作者之一)的话来描述我们的界面和限制。

    "现在为AlphaStar设置的限制意味着它的感觉与1月份最初的表演赛有很大不同。虽然AlphaStar拥有出色而精确的控制能力,但它并不觉得自己是超人,当然也没有达到人类理论上无法达到的水平。它在某些方面比人类更好,然后在其他方面也更差,但当然AlphaStar和人类玩家之间会有不可避免的差异。

    我曾有幸为AlphaStar团队提供咨询,帮助确保DeepMind的系统不会对人类玩家有任何不公平的优势。总的来说,它感觉非常公平,就像在玩一个 "真正的 "星际争霸游戏,并不会因为拥有不切实际的能力而完全破坏平衡。现在的它相机视图视角有限,当我多线进攻时,它不一定能同时捕捉到所有的东西,所以这方面也感觉非常公平,更像人类。"

    The following quote describes our interface and limitations from StarCraft II professional player Dario ‘TLO’ Wünsch (who is part of the team and an author of this paper).

    “The limitations that have been put in place for AlphaStar now mean that it feels very different from the initial show match in January. While AlphaStar has excellent and precise control it doesn’t feel superhuman certainly not on a level that a human couldn’t theoretically achieve. It is better in some aspects than humans and then also worse in others, but of course there are going to be unavoidable differences between AlphaStar and human players.

    I’ve had the pleasure of providing consultation to the AlphaStar team to help ensure that DeepMind’s system does not have any unfair advantages over human players. Overall, it feels very fair, like it is playing a ‘real’ game of StarCraft and doesn’t completely throw the balance off by having unrealistic capabilities. Now that it has limited camera view, when I multi-task it doesn’t always catch everything at the same time, so that aspect also feels very fair and more human-like.”


4. 附录(不翻译)

      4.1 AlphaStar的实时输入数据

    

6341592786344_.pic_hd.jpg

    4.2 AlphaStar的实时决策空间

6331592786334_.pic_hd.jpg


最后于 2020-6-22 13:45 被tager编辑 ,原因:
热门回复
  • 48 举报
    as的团队从一开始就把自己每个版本的改进,和未来需要的改进说的很明白,这个确实是做科研的态度
    2020-6-22 10:17 回复
  • HPL_jk 二五仔
    17 举报

    黄哥微博:“公不公平重要吗?”
    阿老师:“帮助确保DeepMind的系统【不会】对人类玩家有任何【不公平】的优势”

    2020-6-22 12:03 收起回复
    除恶务尽节奏大师: 毕竟教父是星际专家,deepmind和tlo懂个锤子星际
    2020-6-22 12:05回复
    你女朋友在奶我哎: 以后继《TIMBA》《ZIMBA》《PIMBA》后再来一个《启元IMBA》。 什么?你说公平不重要?那就别《遭报应》了呗
    2020-6-22 12:06回复
    黄旭东外道超车姆巴佩: 立场不同把。黄哥现在说话都是站在资本的角度,公不公平他说不重要就不重要吧。这文章是学术论文,肯定要严谨。
    2020-6-22 12:10回复
    LouisBourbon: 回复 黄旭东外道超车姆巴佩: 黄哥这立场就很神奇,没收到什么好处却硬冲上去扛枪子,别是教徒他们真投了钱了
    2020-6-22 12:20回复
    还有3条回复,查看
  • 10 举报
    这帖子就别放出来了,否则怎么让选手通过《拟人》从而《学到什么》,《心服口服》呢
    2020-6-22 12:02 回复
最新回复 (45)
全部楼主
  • yunera 混元体猛男
    1 举报 2
    2020-6-22 09:37 回复
  • 东瓜叉烧包 精英猛男
    0 举报 3
    2020-6-22 09:46 回复
  • 苍天弃子 猛男
    0 举报 4
    2020-6-22 09:52 回复
  • gluvly 猛男
    0 举报 5
    2020-6-22 09:57 回复
  • 博丽灵梦哦 混元体猛男
    3 举报 6
    让我想到了写论文的痛苦
    2020-6-22 10:00 收起回复
    whtbst: 23333 不涉及到理论部分其实还好 而且游戏论文还蛮有意思的 哈哈哈
    2020-6-22 10:11回复
    团子: 回复 whtbst: 算力和钱是怎么搭上关系的??
    2020-6-22 12:22回复
    whtbst: 回复 团子: 以谷歌的AlphaStar来说,前期导入录像进行基本的训练,然后在让训练出来的不同版本AI互相训练,获胜的会被认为是更优越的,然后衍生出各类变种继续对抗,就是这样不停地对抗无数场的比赛。对算力的要求就是在这里出来的,硬件的承载量越大,能跑的比赛就更多,对于模型需要的参数就优化的越好,也就能最大化的发挥出模型的水平。要能达到这个级别的硬件,其实是很耗电耗钱的,虽然这也和算法的优化有关。如果简单理解的话,你可以认为是挖矿机器越多,挖出来的比特币就越多。
    2020-6-22 12:28回复
    团子: 回复 whtbst: 这让我想到了zvt 诸神的黄昏开局 裸10矿
    2020-6-22 12:32回复
  • 48 举报 7
    as的团队从一开始就把自己每个版本的改进,和未来需要的改进说的很明白,这个确实是做科研的态度
    2020-6-22 10:17 回复
  • myply 猛男
    0 举报 8
    顶楼主
    2020-6-22 10:51 回复
  • 0 举报 9
    确实,就算说再多那个ai是个头脑简单四肢发达的东西也不如一个论文来的有说服力
    2020-6-22 11:24 回复
  • 青卿子衿 实习版主
    0 举报 10
    这论文还挺好的,我都能看懂一部分
    2020-6-22 11:26 收起回复
    夜一Red: 孙哥也能看懂
    2020-6-22 11:55回复
    青卿子衿: 回复 夜一Red: 孙哥不是识别障碍吗,只能看图了
    2020-6-22 11:55回复
  • 小明在星际 混元体猛男
    0 举报 11
    这个有点专业哇 兄弟  
    2020-6-22 11:51 回复
  • 小明在星际 混元体猛男
    0 举报 12
    除恶务尽节奏大师 as的团队从一开始就把自己每个版本的改进,和未来需要的改进说的很明白,这个确实是做科研的态度
    你说的没有错
    2020-6-22 11:52 回复
  • shadowsaker 猛男
    2 举报 13
    "AlphaStar并没有利用这些额外的能力"
    the agent does not seem to exploit these extra capabilities
    ai似乎并没有滥用这些额外的能力。

    其实能力还是有的,只不过可能因为设置并没有过多的去用。
    2020-6-22 11:56 收起回复
    whtbst: 嗯嗯,感觉这样翻译会更合理一些
    2020-6-22 12:04回复
    whtbst: 但是我权限不够改不了😂
    2020-6-22 12:04回复
  • LouisBourbon 猛男
    5 举报 14
    启元就是揣着明白装糊涂把观众当傻子骗而已,他们在deepmind屁股后面跟风还能不知道人家是怎么限制ai的?
    2020-6-22 12:01 回复
  • 10 举报 15
    这帖子就别放出来了,否则怎么让选手通过《拟人》从而《学到什么》,《心服口服》呢
    2020-6-22 12:02 回复
  • HPL_jk 二五仔
    17 举报 16

    黄哥微博:“公不公平重要吗?”
    阿老师:“帮助确保DeepMind的系统【不会】对人类玩家有任何【不公平】的优势”

    2020-6-22 12:03 收起回复
    除恶务尽节奏大师: 毕竟教父是星际专家,deepmind和tlo懂个锤子星际
    2020-6-22 12:05回复
    你女朋友在奶我哎: 以后继《TIMBA》《ZIMBA》《PIMBA》后再来一个《启元IMBA》。 什么?你说公平不重要?那就别《遭报应》了呗
    2020-6-22 12:06回复
    黄旭东外道超车姆巴佩: 立场不同把。黄哥现在说话都是站在资本的角度,公不公平他说不重要就不重要吧。这文章是学术论文,肯定要严谨。
    2020-6-22 12:10回复
    LouisBourbon: 回复 黄旭东外道超车姆巴佩: 黄哥这立场就很神奇,没收到什么好处却硬冲上去扛枪子,别是教徒他们真投了钱了
    2020-6-22 12:20回复
    还有3条回复,查看
  • Seagull 猛男
    4 举报 17
    其实阿尔法星在最开始用神族打mana(好像是这个ID)的时候也是没有限制APM(反正跳追猎就完事了)
    启元在一定程度上与最开始的A星相似
    况且公司没有那么多钱来跟谷歌的算力抗衡
    这对我来说是可以理解的
    我就是单纯的讨厌营销方面的嘴脸
    2020-6-22 12:06 收起回复
    Seagull: 其实这个嘴脸我也能理解为什么,但是我心里就是很不舒服
    2020-6-22 12:10回复
    shadowsaker: tlo后来当了顾问就开始做很多限制了,限制到最后的结果就是欧服只能打到6300多了,就菜了不少,但是其实更有意思。
    2020-6-22 12:13回复
  • Ahzek 二五仔
    1 举报 18
    什么叫做研究?看看这个。
    计算机打游戏在不限制情况下随便爆人类,有先天优势。
    但这些优势都不是决策和模糊判断这类人类长处。
    现在发展ai是为了增加这类能力,而不是打爆人类。这随便一个写脚本的都行。
    所以谷歌要自我限制,为的就是不靠其他能力。
    这公司就一蹭谷歌热度的,谷歌打星际它也来。上天梯他敢?但谷歌去下棋他敢?
    2020-6-22 12:11 收起回复
    团子: 中科院 研发的AI什么时候出啊 期待能暴打启元AI
    2020-6-22 12:24回复
    NightView: 关键还是暴雪做不来AI,所以给自己的电脑脚本接口加了很多的“便利”。而这样的“便利”一旦被AI利用起来,就成了完完全全的作弊!这已经不仅仅是一个反应速度、EPM数值高低的问题了,屏幕外选择屏幕外操作全地图获取详细单位信息让对抗的本质已经变质,完全不在公平的基础之上了。
    2020-6-22 12:24回复
  • NightView 猛男
    6 举报 19

    而消除这些限制就会改变游戏的本质

    2020-6-22 12:18 回复
  • 字数补丁 精英猛男
    2 举报 20
    tlo可能是唯一一个有nature封面文章的星际玩家妈个鸡
    2020-6-22 12:28 收起回复
    冷酒精: 光凭这一点就可以甩开多少正教授一条街了🐶
    2020-6-22 12:30回复
  • 1 举报 21
    这才是做研究啊,赞一个。严谨性和目的性明确。不过这么想想其实启元的目的性也挺明确,就是被主持人给坑了
    2020-6-22 12:29 回复
  • KaiziTV 猛男
    0 举报 22
    《心服口服》
    2020-6-22 12:30 回复
  • 林倩心 猛男
    0 举报 23
    其实没必要和谷歌比,练过星际的ai少说几十家上百家,只有谷歌一家做了拟人化,他们做ai也不是为了打星际,没必要在这方面投钱的
    2020-6-22 12:35 收起回复
    LouisBourbon: 然而启元自己三句不离碰瓷阿老师,打完了还在那里宣传自己做的更好呢
    2020-6-22 12:37回复
    林倩心: 回复 LouisBourbon: 就是那个主持人吹过了才喷的,这ai也就一般水平
    2020-6-22 12:40回复
    五十弦: 回复 林倩心: 确实,和阿老师相比也就一般水平,却吹的二万八万的。阿老师好歹把限制和后面要做的都说出来了,这个就尬吹......
    2020-6-22 14:38回复
    Ahzek: 不模仿阿老师打什么星际,几乎一毛一样的套路,不就是碰瓷
    2020-6-22 15:15回复
  • PlasticLove 猛男
    0 举报 24
    搞工程的就不碰瓷搞科研的了,做山寨的也没什么丢脸的,山寨的能力也不是所有人都有的。

    2020-6-22 12:39 收起回复
    filinigel: 专业团队还真就都有山寨的能力,剩下的就是钱和时间的问题了
    2020-6-23 09:31回复
  • ramsey 二五仔
    0 举报 25
    过于专业,无法呼吸
    2020-6-22 13:07 回复
  • 3 举报 26
    建议黄旭东好好看看这篇,这才是正儿八经做科研的态度。都中年人了能不能不要对不懂装懂的东西大放厥词
    2020-6-22 13:13 回复
  • AthenaYao 二五仔
    0 举报 27
    tlo都发nature了,我等科研狗只能看看
    2020-6-22 13:14 收起回复
    云天青大大: 男默女泪
    2020-6-22 22:55回复
  • nozdor 猛男
    0 举报 28
    这才是真的科研 而不是踩着星际的头给自己圈钱
    2020-6-22 13:30 收起回复
    云天青大大: 你可以说主办方支持人虚假宣传,但是你可有想过对于星际来说,这样的活动也是在给星际出圈呢?昨天的人机大战,不仅仅是斗鱼的3484,bilibili和很多科技相关的论坛还有网站都有直播。在那些地方看直播的,好多或许是技术宅,或许没听说过星际争霸,只是对科技,对ai,对网络,对计算机感兴趣,去看的昨天的人机大战。他们中有不少人,或许会看了直播之后对星际这款游戏产生兴趣,去试着下载下来玩一玩,然后喜欢上星际争霸。像是昨天的那种活动,(对老仙来说)不费钱不费时不费力,空手套新粉,增加星际玩家人数,多好的事儿。结果你们在这一同狂喷,把那些观众成为星际新玩家的可能性完全抹杀了。你说这对于星际本身来说,赚了还是赔了啊
    2020-6-22 22:59回复
    filinigel: 回复 云天青大大: deadgame其实靠这也拉不来什么粉丝。反而用这种作秀贬低了选手,明皇职业生涯末期无所谓,用的还是t,time就不一样了,再加上time本来心态就不是特别好。中国星际还是要靠选手才能活下去
    2020-6-23 09:34回复
    云天青大大: 回复 filinigel: 如果因为这点小事就影响了职业生涯,那你还打个p的职业啊。你这话说的和肖战的粉丝一毛一样,“我们的欧巴肖战因为ao3的小说下坠写他是妓女都哭了自闭了呢”
    2020-6-23 09:44回复
    filinigel: 回复 云天青大大: 我不是人迷,更受不了肖战,别扣帽子。这不是之后time就输给silky了么。李培楠心态不好这件事不是大家都知道的么,之前差点退役不就是心态炸了。
    2020-6-23 14:11回复
    还有2条回复,查看
  • 0 举报 29
    兄弟这论文我去年11.29就下了,实际发行是不是更早?
    这文章后面的部分都看的很朦胧,一直在盘里吃灰。
    2020-6-22 13:34 收起回复
    whtbst: woc 10月写成12月了...那加上预印本应该差不多是19年下半年的样子。这文章主要还是介绍一下改良后的方法论和基础的公式吧,可能训练的部分他之前的文章写过了哈哈哈。
    2020-6-22 13:38回复
  • ネコマンサー 精英猛男
    0 举报 30
    阿老师自己都不介意限制在人类能力范围内,不知道怎么还有人给汽车跑这么快你学到了吗洗地
    2020-6-22 13:35 收起回复
    function: time应该和主持人打一场,打完之后再问主持人学到了什么
    2020-6-22 13:56回复
    Dendrobium: 《你没钱》《你闭嘴》《我做过贡献》
    2020-6-22 15:25回复
    LouisBourbon: 回复 function: 张开元跟time有点交情的,要不然time早翻脸了
    2020-6-23 07:45回复
返回