大型科普/教学/交流贴,alphastar剖析 综合

云天青大大 云sp 2020-8-2 07:17 19766

最新回复 (110)
全部楼主
  • Cure 精英猛男
    1 举报 31
    回想看,
    Deepmind使用的 upgoing policy update 中reward是用最后的输赢(1,0,-1对应胜,平,负)以及人为定义的pseudo-rewards (measure similarity between build order executed by the policy with human build order etc)组成的,并且和AlphaGo一样使用了gamma = 1来propagate reward. 这个真的很巧妙,相当于MC和TD的hybrid,对于每步t都比较MC vs TD, 若r_{t+1}更好(a_{t+1}更好)则用MC, 否则用TD estimation. 这样鼓励在稀疏奖励下偏向更优的动作.

    然后一手"开图训练" 把对手的states, estimated reward都拿过来做state,反正跑的时候只用policy就好了, 感觉就是借鉴了机器人视觉控制领域里额外输入机器传感器信息(true scalar data).

    再一手 简化版IMPALA clipped importance sampling,说实话 若是用 PPO的 双边界 clip 是不是会更好
    ...
    ...
    Deepmind = 10000个Trick + 1000000个TPU zzzzzzz
    2020-8-2 09:27 收起回复
    云天青大大: 哈哈(ಡωಡ)hiahiahia,我想起来了,你是那个帝国理工的二五仔,启元表演赛那天也写了alphastar的帖子
    2020-8-2 21:51回复
    Cure: 回复 云天青大大: 233 当时写主要想让25仔们更好的了解alphastar和启元,当时节奏有点夸张. 其实写起来挺不容易,把握一个让大部分人可以看懂/选择性看懂的平衡
    2020-8-2 22:36回复
    云天青大大: 回复 Cure: 我朋友就是启元的工程师,当时我也写了一系列的帖子,但是普遍和科普关系不大
    2020-8-2 22:57回复
    Cure: 回复 云天青大大: 云教授带带啊233 看你们还做NAS tql
    2020-8-2 23:42回复
    还有3条回复,查看
  • 星辰黯灭 精英猛男
    0 举报 32
    云教授么么
    2020-8-2 09:38 回复
  • 0 举报 33
    tqltql,果然是大佬
    2020-8-2 09:42 收起回复
    云天青大大: 别乱讲,我是🐔
    2020-8-2 09:42回复
  • 土tato 精英猛男
    0 举报 34
    哇,这个贴对小说帮大忙了
    2020-8-2 09:56 收起回复
    云天青大大: 这。。。
    2020-8-2 10:07回复
  • 本心子 二五仔
    0 举报 35
    干死云教授!
    2020-8-2 09:58 收起回复
    云天青大大: 问题是你干死我了之后不朽好像依然不能对空
    2020-8-2 10:06回复
  • BERT 精英猛男
    0 举报 36
    赞,先导杯以后有没有nlp的比赛
    2020-8-2 09:58 收起回复
    云天青大大: 那你得问中科院
    2020-8-2 10:06回复
    BERT: 好吧,那我以后多关注关注
    2020-8-2 10:08回复
  • 0 举报 37
    问:如果让大哥理解这篇帖子得花多少时间?
    答:趋于正无穷。
    2020-8-2 10:07 收起回复
    云天青大大: 我看你是想被沉湖
    2020-8-2 10:37回复
  • LuckyBirds 猛男
    0 举报 38
    既然大家都看不懂,那就没人知道我丈育了
    2020-8-2 10:08 回复
  • 相声人族 禁止用户
    0 举报 39
    2020-8-2 10:08 回复
  • 栗悟饭和龟波功 精英猛男
    0 举报 40
    先点赞收藏了再看
    弱弱的问一句想参加这个需要什么基础能力吗?
    我们教研室大老板说十年之前就在搞人工智能了,不知道为什么现在做回本行机械了,我记得他说我们机械搞这个不专业,要数学和心理学专业的来搞比较合适
    2020-8-2 10:12 收起回复
    angerhermit: 一定级别的高数应该是基本功,否则连看都看不懂;人文社科这边大把搞“XX与人工智能”交叉学科的,但十个里面九个半恐怕就是在瞎鸡儿扯淡,压根连公式都看不懂也能侃侃而谈十几万字的那种。
    2020-8-2 11:37回复
  • 萧笑妖 精英猛男
    0 举报 41

    好硬核,云教授太强了
    2020-8-2 10:19 回复
  • 欧布桑AIFU 精英猛男
    0 举报 42
    🐶教授又在秀了,不过看了那么多教授的科普,也长了一下见识,我不亏
    2020-8-2 10:21 回复
  • 阿斯顿马丁12138 拟态猛男
    0 举报 43
    太硬了,教授来了以后论坛变的氪气了起来。
    2020-8-2 10:24 收起回复
    阿斯顿马丁12138: 科气
    2020-8-2 10:25回复
    云天青大大: 这不是美少女马丁吗
    2020-8-2 10:37回复
  • Astolfo 二五仔
    0 举报 44
    阿巴阿巴
    2020-8-2 10:27 回复
  • 莲花草啊 混元体猛男
    0 举报 45
    草 就看懂一点点
    2020-8-2 10:36 收起回复
    莲花草啊: 算法那里高数太久没怎么动了 完全看不懂(其实就看了那里)
    2020-8-2 10:36回复
    云天青大大: 🐔,好好看好好学
    2020-8-2 10:37回复
    莲花草啊: 回复 云天青大大: 妈个鸡 我学的化学和生物制药在这方面屁用没有 不然你也是鸡
    2020-8-2 10:39回复
    云天青大大: 回复 莲花草啊: 我从来就没说过我不是🐔哈
    2020-8-2 10:44回复
    还有1条回复,查看
  • 我大姐是9号技师 精英猛男
    0 举报 46
    干死云教授,云教授牛逼
    2020-8-2 10:50 回复
  • 我永远喜欢石原里美 混元体猛男
    0 举报 47
    牛比牛比,
    2020-8-2 11:13 收起回复
    云天青大大: 低调基操勿六皆坐
    2020-8-2 11:17回复
  • angerhermit 精英猛男
    0 举报 48

    同在济南的文科狗,数学密集恐惧症患者来膜拜大佬。。。精英二五仔实锤

    从红字部分来看,可不可以理解为AI其实并没有所谓“大局观”,或者说所谓的大局观还不能被彻底量化为纯粹数字或算法规则组成的一系列东西?——否则很难理解为什么apm放开限制全拉满以后,AI反而会变菜了。

    我觉得P的分高或许是因为P对微操的要求最高?因此只有delay但其实不存在“失误操作”的AI优势,会被滚雪球一样从开局开始堆叠,最后无限放大?

    不过,因为AI不存在先入为主的前见,所以才会有启元流海量维京暴打李培楠,这种人类玩家前所未有的理解出现?或者像隔壁围棋那样,阿老师一己之力就颠覆了几千年前围棋界怎么开局怎么套路的“思维定式”

    2020-8-2 11:13 收起回复
    云天青大大: 首先感谢你没有太长不看或者看到文章中数学公式很多就pass掉本文,你要知道围棋的alphago战胜柯洁是4年前的事情,所以人工智能现在整个行业还处在婴儿期,没有大局观很正常,不过以后会越来越厉害的。至于为何p的胜率最高则见仁见智,也许你说的是对的。现在alphastar还没有alphago的神操作,拭目以待未来的发展吧
    2020-8-2 11:20回复
  • 黑夜的光 精英猛男
    0 举报 49
    牛逼,,,,,,,,,,虽然看不懂但很厉害的样子,科普贴必须加精(以你一己之力拉高了论坛的学术水平)
    2020-8-2 11:23 回复
  • 夏一可死毒舌_ 混元体猛男
    0 举报 50
    感谢云教授的科普,虽然数学部分不太看得懂但还是加深了对人工智能的理解(是不是现在所有的人工智能本质上就是个统计模型),但我还是觉得云教授写了这么多实际上就是在偷偷说PIMBA,神族玩家不努力
    2020-8-2 11:34 收起回复
    angerhermit: 阿指导才是扛旗的,就因为它和大主教都姓阿!什么trap胖丁就是鸡!
    2020-8-2 11:38回复
  • timeout123 猛男
    0 举报 51
    云教授nb!联盟训练也太强了
    既想方设法增加练习效果,还防止了杀鸡过多练回去了。
    而且就胜率来看内战alphastar真的强啊
    感觉职业选手可能也可以学习这种模式,约合适的人对练,找自己的缺点,而不是天梯傻排

    2020-8-2 11:59 收起回复
    云天青大大: 可以是可以,这就是韩t的话maru可以找innovation,time在国内想找个t有点困难
    2020-8-2 12:41回复
  • 初音未来 精英猛男
    0 举报 52
    @树人大学教授 孙一峰博士后
    2020-8-2 12:05 回复
  • 超级大恶魔 举个牌吧
    0 举报 53
    偶像
    2020-8-2 12:24 回复
  • 天长tianchang 精英猛男
    0 举报 54
    看射了
    2020-8-2 12:26 收起回复
    云天青大大: 你这xp有点奇怪嗷
    2020-8-2 12:40回复
  • kqynyx 精英猛男
    0 举报 55
    大佬给跪了
    2020-8-2 12:29 收起回复
    云天青大大: 毛,我是🐔
    2020-8-2 12:39回复
  • 琴酒 精英猛男
    0 举报 56
    2020-8-2 13:01 回复
  • Tweehee 精英猛男
    0 举报 57
    啊,感觉理解这篇帖子的难度跟对马尔可夫决策过程的熟悉程度成反比
    之前学马尔可夫决策过程就是似懂非懂,看这个强化学习算法也是似懂非懂
    2020-8-2 13:05 回复
  • 少丶天 精英猛男
    0 举报 58
    云教授,鸡
    2020-8-2 13:05 收起回复
    云天青大大: 干嘛,你歧视🐔的咯
    2020-8-2 13:30回复
  • Angel夜夜 精英猛男
    0 举报 59
    先点赞收藏评论在看
    2020-8-2 13:45 回复
  • 飘逸的字体 精英猛男
    0 举报 60
    emmmm
    2020-8-2 14:12 回复
返回