大型科普/教学/交流贴,alphastar剖析 综合

云天青大大 云sp 2020-8-2 07:17 19673

最新回复 (110)
全部楼主
  • 0 举报 61
    云教授招RA吗,疫情出国defer了没事做啊cv往哪发
    2020-8-2 14:15 收起回复
    哈工大高阶领主: 你也是准研究生吗,同蹲一个
    2020-8-2 15:02回复
    江南四大仇人之首: 回复 哈工大高阶领主: 兄弟你啥专业的,我几个同学都在哈工
    2020-8-2 20:32回复
  • SCGr8again 猛男
    0 举报 62
    2020-8-2 14:48 回复
  • 哈工大高阶领主 精英猛男
    0 举报 63
    点开前:云教授?他不是数学系的,怎么来科普AI了
    点开看到第一张图:果然隔行如隔山,教授科普深度也不过如此
    拉到下面:教授就是教授,哪怕在自己的赛道上,我这种菜鸡学生还是比不上
    献上膝盖
    2020-8-2 15:01 回复
  • 路熊 猛男
    0 举报 64
    教授如果写代码一定是一个非常厉害的程序员
    2020-8-2 16:55 收起回复
    云天青大大: 我还是略懂一点编程的呀
    2020-8-2 17:31回复
  • 0 举报 65
    我看懂了,就是阿尔法狗不会失恋,因为如果对方不喜欢它了,它就虚拟一个自己出来……
    这种AI毫无意义,~~~不如烧了吧~~~
    2020-8-2 17:00 收起回复
    云天青大大: 这。。。
    2020-8-2 17:32回复
  • 黄龙天翔 精英猛男
    0 举报 66
    我倒是挺喜欢看数学公式的,毕竟比较简洁
    不过一个个单蹦的公式,什么梯度条件概率的,还是看不懂
    数学公式那段能再科普一下嘛
    2020-8-2 18:01 收起回复
    云天青大大: 那得再单开一个帖子了,这论坛限制每个帖子不能超过一万字,已经9500+字了,写不开了
    2020-8-2 18:09回复
    黄龙天翔: 回复 云天青大大: 这种有什么能快速了解的嘛,我倒是对这种计算有兴趣
    2020-8-2 23:07回复
    云天青大大: 回复 黄龙天翔: 我贴子里写了呀,看那本强化学习的书去呀
    2020-8-2 23:30回复
  • 倦意已深 精英猛男
    0 举报 67
    啊这,这就触及到我的知识盲区了啊不对,这是啥啊😂
    2020-8-2 18:13 回复
  • 云天青大大 云sp
    0 举报 68
    今晚上我重新排版了一下,方便各位更无障碍的阅读本文(论坛没有letax编辑功能,只能做到这样了,要是还是觉得阅读起来有障碍我暂时没啥更好的办法了)
    2020-8-2 21:37 回复
  • common 精英猛男
    0 举报 69
    啊这。。我大学都学了啥啊
    2020-8-2 23:33 回复
  • 云天青大大 云sp
    0 举报 70
    周一的上午,上班划水不如留言回复支持一下我,昨晚上又修改了一点,方便大家的阅读体验
    2020-8-3 08:33 回复
  • 莉泽露露贴贴 精英猛男
    0 举报 71
    只能点赞收藏了
    2020-8-3 08:48 回复
  • 0 举报 72
    云教授nb
    2020-8-3 08:51 收起回复
    云天青大大: 低调基操勿六皆坐
    2020-8-3 08:58回复
  • 听夏夏夏夏 精英猛男
    0 举报 73
    我就想问一个问题,云教授用的是论坛的模板??我当初发一篇一千五百字的帖子那个排版都搞的我想死
    2020-8-3 09:08 收起回复
    云天青大大: 其实这个帖子我早就写完了,就是重新排版花了好久的时间,我是先用word写好了然后复制粘贴的
    2020-8-3 13:39回复
    听夏夏夏夏: 回复 云天青大大: 我也是,用word直接复制过来,然后直接去世
    2020-8-3 14:46回复
  • wudide123 精英猛男
    0 举报 74
    可惜来不了线下 感觉物品检测应该可以
    2020-8-3 09:28 回复
  • 云天青大大 云sp
    19 举报 75

    群里好多人表示本帖好多地方看不太懂,尤其是数学公式的部分,所以这里来详解一下。


    不过看这一楼,我更建议真的对这方面有兴趣的二五仔和猛男们去阅读Richard S. SuttonAndrew G. Barto写的强化学习第二版,这本书可以说是人工智能方面的圣经了,写的非常经典,有中文翻译版。但是卖得有些贵,见下图。

    image.png


    下面开始正文吧,看任何公式的时候,你们记住一个强化学习的中心思想,那就是训练的时候,决策对了给奖励,决策错了给惩罚,目标就是使奖励最大化,其实跟小时候学习学的好发小红花 题目做错打手心一样。


    下面一个一个公式来说吧。


    image.png

    这是奖励的计算公式,其中st等当前时间t下的环境,at是当前时间t下你的动作,我们看到这里用了一个连加号,表示你采取的动作会在之后一系列事件都产生收益,但是这里要加一个系数,意思是收益产生的时间离现在的时间越远则收益越小(你在对面只有1矿的时候穿火车杀一片农民比对面已经菌毯铺了半个地图好几个矿的时候杀农民好使的多)



    image.png


    这三个式子放在一起来说,在智能体计算出当前动作的优势image.png之后,就可以通过优势来计算收益。这个带有log和倒三角符号(梯度)的项实际上是指的优势最大化的计算,最速梯度法(啥是最速梯度法真就一个帖子打死我都讲不完),前面的项是为了避免正在学习的策略和正在采样的策略不同而准备的。


    image.png

    image.png


    这几个式子看着好像很复杂的样子,但是仔细一看,实际上没有啥复杂的符号,都是加法和减法,实际上第一个式子是预期收益的计算,是当前动作的预期收益,减去当前状态的预期收益,然后Q函数指的是状态动作价值,这一点在笔者上一个帖子的文字部分有详细的介绍,这里就不重复了。


    image.png

    image.png


    这一段同样的,看着很唬人,但是也是只有加减法,注意这里每一项有一个系数λ,表示的是收益会随着时间衰弱。


    image.png

    这个式子同样不难,分子就是指的A能打败B的概率,分母是C里面的一系列B能被A打败的概率只和,显然分子越大,这个数的值越大,也就是说image.png越大,被挑中的概率越大。这里f的选择对对手的挑选有很大影响。

    image.png

    当选取第一个函数的时候,x越大则f(x)越小,所以更容易挑选到能打败自己的对手,选取第二个函数的时候通过简单的求导我们发现当x=0.5的时候,f(x)取得最大值,所以更容易挑选到旗鼓相当分对手。


    好了,简单的公式讲解部分到此结束,希望能帮助到大家更好的理解alphastar的原理,更深一步的学习还是要去阅读Richard S. SuttonAndrew G. Barto写的强化学习第二版。


    2020-8-3 09:38 回复
  • 色相头 混元体猛男
    0 举报 76
    云天青大大 群里好多人表示本帖好多地方看不太懂,尤其是数学公式的部分,所以这里来详解一下。不过看这一楼,我更建议真的对这方面有兴趣的二五仔和猛男们去阅读Richard S. Sutton和Andrew G. Ba ...
    2020-8-3 09:44 回复
  • 云天青大大 云sp
    0 举报 77
    色相头
    妈个鸡,好歹是一个群里的,能不能别这么敷衍,巴嘎
    2020-8-3 13:11 回复
  • 专门欺负女生 精英猛男
    0 举报 78
    从第一个字开始 老子就看不懂!
    2020-8-3 13:13 收起回复
    云天青大大: 你好自豪哦(´-ω-`) 前面明明是汉字
    2020-8-3 13:28回复
  • 0 举报 79
    2020-8-3 13:58 回复
  • 琴酒 精英猛男
    0 举报 80

    2020-8-3 14:20 回复
  • 色相头 混元体猛男
    0 举报 81

    回复错了

    2020-8-3 15:14 回复
  • 色相头 混元体猛男
    0 举报 82
    云天青大大 妈个鸡,好歹是一个群里的,能不能别这么敷衍,巴嘎
    好的云教授,是的云教授
    2020-8-3 15:19 回复
  • JK灵梦 精英猛男
    0 举报 83
    云天青大大 群里好多人表示本帖好多地方看不太懂,尤其是数学公式的部分,所以这里来详解一下。不过看这一楼,我更建议真的对这方面有兴趣的二五仔和猛男们去阅读Richard S. Sutton和Andrew G. Ba ...
    2020-8-3 15:24 回复
  • 云天青大大 云sp
    0 举报 84
    JK灵梦
    妈个鸡的,你们群都一个德性的,回帖只回一个表情的咯
    2020-8-3 17:17 回复
  • 天长tianchang 精英猛男
    0 举报 85
    好,为了有回帖不那么水,发挥自己的专业领域,决定对着云教授来一发(
    2020-8-3 17:28 回复
  • 深海的守护者 精英猛男
    0 举报 86
    看完了,学会了,谢谢大大
    2020-8-4 14:04 回复
  • 云天青大大 云sp
    0 举报 87
    突然发现从2级精华升一级精华了,看来还是得多py
    2020-8-4 21:30 回复
  • 冷酒精 精英猛男
    0 举报 88
    看完之后唯一感想:有钱真好
    这种工程要用到的算力,i了i了
    2020-8-4 21:38 回复
  • 飞机啊飞 精英猛男
    0 举报 89
    可以的,看得我一个刚毕业的社畜满腔热血。现在去洗澡了,明天还要上班。。。哎。。。。
    2020-8-4 23:47 回复
  • 城投水务抄表员 精英猛男
    0 举报 90
    感谢大佬。。。大佬牛逼啊。。。
    收藏了晚上慢慢看
    2020-8-5 00:13 回复
返回