帝国理工二五仔分享一下alphastar的实现思路 花边杂谈

Cure 2020-6-22 02:45 19970

最新回复 (91)
全部楼主
  • EdwardElric 混元体猛男
    0 举报 31
    2020-6-22 08:32 回复
  • 0 举报 32
    妈个鸡,专业的一比,这个论坛以后改成小木虫吧
    2020-6-22 08:35 回复
  • 妖之桃桃 猛男
    0 举报 33
    看不懂,但是感觉好厉害。。。赞~
    2020-6-22 08:47 回复
  • zmc748159263 猛男
    1 举报 34
    点赞,感觉二五仔们的评价标准还是比较苛刻
    想想去年三月的AlphaStar还在用闪烁追猎赢Mana,十一月的AlphaStar PvP也是完美运营开矿赢的Serral
    不要对AI有过高的期望,因为现在AI的发展就是这样,理性看待
    2020-6-22 08:57 回复
  • 哲学流派 二五仔
    5 举报 35
    大概看了一眼,喷的最厉害的水友并没有在lz的帖子底下出现
    2020-6-22 09:03 回复
  • firezack 猛男
    0 举报 36
    有道理
    2020-6-22 09:20 回复
  • 相声人族 精英猛男
    0 举报 37
    无敌
    2020-6-22 09:23 回复
  • 1 举报 38
    可以可以,给校友点个赞
    2020-6-22 09:25 回复
  • 0 举报 39
    这种帖子一般孙哥是不会看的
    2020-6-22 09:26 回复
  • LINDL 猛男
    0 举报 40
    喷子们更本不在意你ai研发多困难,未来前景多广泛,他们就是不爽ai设定比人类强然后赢了,至于其背后的意义无所谓反正我又不关心这个典型的驴唇不对马嘴说不通。他们不会去正视人类科技的发展都是从原始落后甚至搞笑一步步到现在,要是没有前人发明的那些一看就很纯的飞机哪来现在这些成熟的技术?要是没有最早的装满一整间房子的土鳖计算机哪来现在我们用的这些电脑?他们只看结果只要以后ai真的做起来了还不是说真香?谁还记得自己喷过?
    2020-6-22 09:27 回复
  • CurrenT 猛男
    1 举报 41
    其实我一直想有个Ai能来虐我多好
    2020-6-22 09:31 回复
  • charlesthor 精英猛男
    0 举报 42
    支持一下楼主

    带节奏喷作弊的都滚啊……有啥可喷的 吐了
    2020-6-22 09:39 回复
  • 简单4560 混元体猛男
    0 举报 43
    专业二五仔啊!
    2020-6-22 09:41 回复
  • zvkc24 猛男
    0 举报 44
    看不懂,wdnmd,我野人只要一拳能打死人就够了
    2020-6-22 09:44 回复
  • 攀升boy 猛男
    0 举报 45
    2020-6-22 09:48 回复
  • thruster 拟态猛男
    0 举报 46
    给老哥顶一下,至少了解了大概的思路,顺便问下,处理这么长的序列的话LSTM是不是得搞的很深才行啊hhhhh
    2020-6-22 09:52 回复
  • 辣椒麻酱 二五仔
    0 举报 47
    太专业了!
    2020-6-22 09:54 回复
  • Tessen 二五仔
    1 举报 48
    浓重的书生气,这种场面小公司还不会吹自己就死挺了,你个学生一人吃饱全家喝足,当然可以站着说话不腰疼,换你去创业搞不好比他们吹得还凶
    2020-6-22 09:55 收起回复
    sadam: 你在说什么jb东西
    2020-6-22 10:01回复
  • 0 举报 49
    牛逼,专业
    2020-6-22 10:02 回复
  • Cure 猛男
    0 举报 50
    thruster 给老哥顶一下,至少了解了大概的思路,顺便问下,处理这么长的序列的话LSTM是不是得搞的很深才行啊hhhhh

    这取决于这个动作网络在设计的时候如何看待输入的“帧”, 比如之前ATARI的时候是4帧画面作为一组输入,那么假设同样用4帧作为一组,那么这里就是s_t-3, s_t-2, s_t-1, s_t。每个序列长度仅为4,其中 h_t-2 = LSTM(s_t-2, h_t-3), 以此类推。 


    (补充一下,理论上这里其实不需要LSTM承担过多的处理,从上面几个网络输出的特征已经可以很好的表达当前的状态s, 这里LSTM主要是从各个连续状态中处理其中的联系,比如单位的速度, 是单个状态表达不了的。 但是鉴于星际的复杂性,当前局势和此前每分每秒的决定息息相关,所以这里还是用了较长的时间步长, 可能高达几百帧. 以此来弥补动作网络在RL的long term reward中的困难的训练)

    最后于 2020-6-22 18:03 被Cure编辑 ,原因:
    2020-6-22 10:03 收起回复
    thruster: 哦哦明白了,多谢回复!因为之前自己做过一点视频分类分割的工作,当时就遇到过一个单帧特征ok,但是时序上关联的不好的问题,后来就暴力加深lstm发现就好了orz(自己功力太浅,没法理论分析,只能靠试hhhhh)
    2020-6-22 11:25回复
    Cure: 回复 thruster: 我的例子说的不太恰当,因为这里的LSTM还要兼顾让动作网络记忆之前的状态,这样time steps会很长很长
    2020-6-22 18:04回复
  • 0 举报 51
    真。精英二五仔
    2020-6-22 10:10 回复
  • 0 举报 52
    叙述确实没什么问题,但是我认为这个ai其实没有变现出任何决策上的优势,比如第四把那个偏了很远的基地。这个ai更像是没有很高的决策能力,是用远超常人的操作能力和弱智的策略打赢的,也就违背了设计ai的初衷。考虑到打小明和time的时候主办方还更换了ai,我觉得更像是意图掩盖决策的好坏来吸引投资,因为投资人懂ai但是不懂星际,不明白哪些操作是不拟人的
    2020-6-22 10:30 回复
  • Cure 猛男
    0 举报 53

    总之,希望大家看完会对AlphaStar有一个更形象的认识,这样对于启元的研究也可以进行比较。启元是不是纯粹的复现只有启元知道,其中应该也有他们自己独特的trick和创新。作为国内第一个拿出和Deepmind同档次的agent并且可以上直播还是值得肯定的. 能和TIME打,说明它至少有了及格的决策能力,能赢4:0其中 非决策优势还是占了不小的部分

    2020-6-22 10:33 回复
  • kang9484 猛男
    0 举报 54
    学到了
    2020-6-22 10:38 回复
  • Shadowwan 二五仔
    0 举报 55
    什么TMD TMD叫专业
    2020-6-22 10:41 回复
  • 云天青大大 拟态猛男
    1 举报 56
    电脑在二战时期发明出来那会儿,耗电量巨大,占了一个仓库,运算能力不足我们现在智能手机的百万分之一,如果当时的zf投资者认为它的算力和耗电量占地面积不成正比,电脑就不会有七十多年后的今天啦。

    现在离着alphago打败柯洁才四年,对于一个新兴产业来说,这就是婴儿期,短短四年怎么可能进步到培养出一个长着sos大脑的机器出来呢
    2020-6-22 10:44 回复
  • star 精英猛男
    0 举报 57
    2020-6-22 10:49 回复
  • 小木曾雪菜 精英猛男
    0 举报 58
    兄弟你这个才是真的专业讲技术细节而不是整翻译。
    2020-6-22 10:53 回复
  • SPLENDID_O7 猛男
    0 举报 59
    支持楼主 够专业
    2020-6-22 10:56 回复
  • 0 举报 60
    这才是人均硕博的25仔队伍吗
    2020-6-22 11:14 回复
返回