【翻译】谷歌2019年1月博客中关于AlphaStar如何施加限制的介绍 采访/翻译

whtbst 2020-6-22 22:49 4238

    有不少水友可能认为相较于2019年10月的最终版AlphaStar,2019年1月份对阵MaNa时的初版AlphaStar与启元更近似,但其实是MaNa在当天的表演赛中取得了胜利之前播放的几场比赛在2018年12月就已进行),而这一场胜利对战的是利用了相机视角(人类视角)的AlphaStar的原型,并且仅训练了7天。

    在表演赛的当天,DeepMind,也就是AlphaStar的公司便新发了一篇博客,其中的一部分详尽的记录了AlphaStar是如何玩和观察这个游戏的(How AlphaStar plays and observes the game)

    因为这与10月份的论文形成补充的关系,同时也是有关于表演赛的内容再次强调2019年1月的只比了一场,而且MaNa赢了,之前输的几场是2018年私下邀请MaNa进行比赛的录像),因此在这里附上翻译,如有错误也请各位猛男们指出。

    原文链接:https://deepmind.com/blog/article/alphastar-mastering-real-time-strategy-game-starcraft-ii


    以下是正文内容:

    

    TLO和MaNa等星际争霸职业选手平均能达到数百的APM。这远远低于现有的大多数bot(脚本bot),现有的bot独立控制每个单位,并始终保持数千甚至上万的APM。

    在对阵TLO和MaNa的比赛中,AlphaStar的平均APM约为280,明显低于职业选手,尽管它的操作可能更精准。这种较低的APM在一定程度上是因为AlphaStar使用录像(rep)开始训练,从而模仿人类玩游戏的方式。此外,AlphaStar的反应从观察到行动之间的延迟平均为350ms。

    Professional StarCraft players such as TLO and MaNa are able to issue hundreds of actions per minute (APM) on average. This is far fewer than the majority of existing bots, which control each unit independently and consistently maintain thousands or even tens of thousands of APMs.

    In its games against TLO and MaNa, AlphaStar had an average APM of around 280, significantly lower than the professional players, although its actions may be more precise. This lower APM is, in part, because AlphaStar starts its training using replays and thus mimics the way humans play the game. Additionally, AlphaStar reacts with a delay between observation and action of 350ms on average.

    

image.png

    上图是AlphaStar的APM在与MaNa和TLO的比赛中的分布情况以及观测和行动之间的总延迟时间。

    澄清 :TLO的APM比AlphaStar和MaNa都要高,这是因为他个人对于快速射击热键和编组键位绑定的使用。另外要注意的是,AlphaStar的有效APM爆发有时比两个玩家都高。  

    THE DISTRIBUTION OF ALPHASTAR’S APMS IN ITS MATCHES AGAINST MANA AND TLO AND THE TOTAL DELAY BETWEEN OBSERVATIONS AND ACTIONS. CLARIFICATION (29/01/19): TLO’S APM APPEARS HIGHER THAN BOTH ALPHASTAR AND MANA BECAUSE OF HIS USE OF RAPID-FIRE HOT-KEYS AND USE OF THE “REMOVE AND ADD TO CONTROL GROUP” KEY BINDINGS. ALSO NOTE THAT ALPHASTAR'S EFFECTIVE APM BURSTS ARE SOMETIMES HIGHER THAN BOTH PLAYERS.

   

    在(2018年12月私下)对阵TLO和MaNa的比赛中,AlphaStar直接通过原始界面(小地图)与游戏引擎进行交互,这意味着它可以直接观察地图上自己和对手可见单位的属性,而无需移动摄像头——这实际上是以更宏大的视角进行游戏。相比之下,人类玩家必须明确地管理注意力来决定大屏幕的焦点在哪里。然而,对AlphaStar游戏的分析表明,它管理了一个隐性的注意力焦点。平均而言,AlphaStar每分钟 "切换内容 "约30次,类似于MaNa或TLO。(相当于每分钟切屏30次)

    此外,在那两次比赛之后,我们便开发了第二个版本的AlphaStar。和人类玩家一样,这个版本的AlphaStar能够选择何时何地移动摄像头,它的感知仅限于相机视角上的信息,动作位置也仅限于它的可观察区域

    During the matches against TLO and MaNa, AlphaStar interacted with the StarCraft game engine directly via its raw interface, meaning that it could observe the attributes of its own and its opponent’s visible units on the map directly, without having to move the camera - effectively playing with a zoomed out view of the game. In contrast, human players must explicitly manage an "economy of attention" to decide where to focus the camera. However, anaysis of AlphaStar’s games suggests that it manages an implicit focus of attention. On average, agents “switched context” about 30 times per minute, similar to MaNa or TLO.

    Additionally, and subsequent to the matches, we developed a second version of AlphaStar. Like human players, this version of AlphaStar chooses when and where to move the camera, its perception is restricted to on-screen information, and action locations are restricted to its viewable region.

    

image.png

    上图是AlphaStar使用原始界面(小地图)和相机视角(人类视角)进行训练的表现,这显示了新训练的相机视角已经迅速赶上并几乎等同于使用原始界面版本的表现。

    PERFORMANCE OF ALPHASTAR USING THE RAW INTERFACE AND THE CAMERA INTERFACE, SHOWING THE NEWLY TRAINED CAMERA AGENT RAPIDLY CATCHING UP WITH AND ALMOST EQUALLING THE PERFORMANCE OF THE AGENT USING THE RAW INTERFACE.

   

    我们针对AlphaStar联赛(AlphaStar在训练时内建了一个天梯,自行比赛和学习)训练了两个新的版本,一个使用原始界面,一个必须学习控制相机视角。每个版本最初都是通过从人类玩家的数据来训练的。使用相机视角的AlphaStar版本在训练后,几乎和原始界面一样强大,在内部排行榜上超过7000MMR。

    在展览比赛中(2019年1月24日),MaNa击败了使用相机视角的AlphaStar原型版本,该版本仅仅训练了7天。我们希望在不久的将来评估一个完全训练好的相机视角AlphaStar。

    这些结果表明,AlphaStar对MaNa和TLO的成功实际上是依靠卓越的宏观和微观战略决策,而不是卓越的点击率、更快的反应时间或原始界面。

    We trained two new agents, one using the raw interface and one that must learn to control the camera, against the AlphaStar league. Each agent was initially trained by supervised learning from human data followed by the reinforcement learning procedure outlined above. The version of AlphaStar using the camera interface was almost as strong as the raw interface, exceeding 7000 MMR on our internal leaderboard. In an exhibition match, MaNa defeated a prototype version of AlphaStar using the camera interface, that was trained for just 7 days. We hope to evaluate a fully trained instance of the camera interface in the near future. 

    These results suggest that AlphaStar’s success against MaNa and TLO was in fact due to superior macro and micro-strategic decision-making, rather than superior click-rate, faster reaction times, or the raw interface.

最后于 2020-6-23 13:08 被tager编辑 ,原因:
最新回复 (17)
全部楼主
  • 尼德霍格 猛男
    0 举报 2
    顶一下
    2020-6-22 23:03 回复
  • 大小老婆我来了 混元体猛男
    0 举报 3
    好了,懂了
    2020-6-22 23:07 回复
  • lanqing 猛男
    0 举报 4
    干货没人看?
    2020-6-22 23:11 回复
  • 武天老师 猛男
    0 举报 5
    已赞
    2020-6-22 23:12 回复
  • EVANIMARIA 精英猛男
    0 举报 6
    2020-6-23 00:35 回复
  • Kogarasu 猛男
    0 举报 7
    coooooooooooooool
    2020-6-23 03:36 回复
  • LICH 猛男
    0 举报 8
    专业
    2020-6-23 07:52 回复
  • lskstcbyhy 猛男
    0 举报 9
    那些开帖的“大佬们”不来评论一下?
    2020-6-23 07:57 回复
  • LouisBourbon 猛男
    0 举报 10
    早说了启元比初版阿老师都不如,apm更高,正面操作更烂,兵种组合也奇葩,多线空投那盘还有部队在家里逛街,都拉出去投四线time大概死的更快
    2020-6-23 07:58 收起回复
    anglealq: 阿老师最开始亮相的时候一样出过追猎各种f2被来回遛的尴尬情况
    2020-6-23 08:01回复
    LouisBourbon: 回复 anglealq: 被mana棱镜溜傻是非全图操作版本,启元全程全图操作,差得远了
    2020-6-23 08:03回复
    海宁孙一峰二世: 阿老师在2018年12月不也是全图操作嘛,启元和原始阿老师不是差不多嘛
    2020-6-23 08:58回复
    lskstcbyhy: 回复 海宁孙一峰二世: 但正式直播亮相是1月份这次啊。
    2020-6-23 09:11回复
    还有4条回复,查看
  • 都瓦克因 精英猛男
    0 举报 11

    2020-6-23 07:59 回复
  • 秋小栀大魔王 混元体猛男
    0 举报 12
    别说这个,人家会用1%来解释,所以...懂了吧
    2020-6-23 08:52 回复
  • MeLI55A 猛男
    0 举报 13
    太tm真实了,干货贴没人看。
    2020-6-23 11:37 回复
  • kang9484 猛男
    0 举报 14
    初代亮相阿老师都这么厉害了
    2020-6-23 11:58 回复
  • fclxt2357 精英猛男
    0 举报 15
    说明google是真的牛逼。。。
    2020-6-23 12:31 回复
  • 0 举报 16
    呃。看看比赛吧。文字说明,说明不了场面。平均APM277,三线闪追包白球不朽部队。。。

    而且这个图汇总的APM数据反映不了实际情况。为什么呢?

    TLO、Mana对AS初代机的比赛我先后看了5遍。REP下面偶尔闪过的APM可以看出来,除了开局,中盘以后AS的APM几乎不低于300,正面操作600+,正面+刷兵我见过900+和一次1000多的。

    其实,AS初代机的比赛也被喷的很厉害的。至少REddit当时挺多人喷APM超人。
    2020-6-23 12:40 收起回复
    whtbst: 三线闪追是指18年那两场私下与TLO和MaNa的测试,在19年1月的表演赛中并没有出现多线很猛的情况,反而被MaNa的多线各种牵制,这我在第一段就有提到过是因为相机视角被限制的原因。图下面的翻译已经有写到爆发时确实会比玩家高,这个图也是一个挺明显的右边尾部比较肥的分布。其实论坛上针对的大多是原型机时候的录像,并且没有区分表演赛和原型机私下测试的区别,这也和deepmind在同一个节目中播放有关系。
    2020-6-23 13:27回复
  • finaleXE 二五仔
    0 举报 17
    感谢翻译.
    2020-6-23 12:42 回复
  • kliedar 精英猛男
    0 举报 18
    也不是很干…但聊胜于无
    2020-6-23 12:45 回复
返回