巴蜀网

 找回密码
 免费注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

开启左侧
查看: 59|回复: 0
 上官123 发表于: 2017-6-20 15:35:02|显示全部楼层|阅读模式

[纪实·新闻] 谷歌AI打败了柯洁 微软AI打败了“吃豆人”的老婆

 [复制链接]
源自:PingWest
  多年以后,当游戏们又回忆起被AI支配的恐惧,它们一定会记得:
  在Google的Alpha Go已经玩了大半年《星际争霸2》、又在围棋领域打败了柯洁之后,微软的AI也终于在《吃豆小姐》游戏里扬眉吐气了。
  去年9月,微软的首席执行官Satya Nadellaz在开发者大会上表示“我们不会追求AI在游戏中击败人类”,不过他们今年年初收购的人工智能初创公司Maluuba最近发布了一项成果:
  Maluuba开发的AI在《吃豆小姐》(Ms.Pac-Man)Atari 2600版本中取得了这款游戏的历史最高分999,990分。
  顺便说,在此之前《吃豆小姐》的最高分是人类玩家阿布那·阿什曼保持的933,580分。
Xjs6-fyhfxph3591133.jpg
  《吃豆小姐》游戏
  选择《吃豆小姐》是因为简单?不不不,其实是因为它难
  《吃豆人》(Pac-Man)我知道,但是《吃豆小姐》是啥?
  1980年5月,日本南梦宫(NAMCO)株式会社推出了《吃豆人》街机游戏,并选择了Midway Games作为这个游戏的美国发行商。这款游戏的玩法大家都知道了,就是在游戏迷宫里尽可能多地吃水果和白色豆子获得分数,同时躲避四个幽灵的攻击。
  不过,初代《吃豆人》游戏的地图和幽灵出现的位置都是固定的,熟练玩家闭着眼都知道应该往哪走,所以游戏本身并没有什么难度。
  于是在游戏发行一周年时,代理商Midway Games的伊利诺斯州分公司就在美国发行了《吃豆人》的非官方强化版《吃豆小姐》(Ms.Pac-Man)。这个强化版本的游戏不仅把主角换成了吃豆小姐,怪物行动也有了随机性。在这个版本里玩家不能再闭着眼玩套路了,每次重玩都要动脑子。
  强化版本推出之后大受玩家欢迎,吃豆小姐也被玩家亲切地称为“吃豆人的老婆”。亲爹南梦宫株式会社还能怎么办,当然是选择原谅他们,顺便把这个不是自己开发的游戏版本也编入了正统。
JqJW-fyhfxph3591153.jpg
给AI玩的《吃豆小姐》差不多还是这样的
  当然研究人员让AI玩的《吃豆小姐》不是最初的街机版本,而是Atari 2600版。Atari 2600是雅达利(Atari)公司1977年推出的一款家用游戏主机,包括Alpha Go在内的很多AI目前都在玩。
  Atari主机上的大部分游戏都很适合机器学习,强化学习功能比较好的AI,只要一遍一遍重复玩就可以获得高分。当初DeepMind被Google收购,展示的项目之一就是AI玩Atari游戏的能力。
  Maluubad的研究人员测试了很多游戏之后发现:对于AI来说,玩《吃豆小姐》比完其它Atari游戏要难。要让AI通过迷宫并不是难事,但随机出现的水果和幽灵却让AI面临的环境变得复杂多了。
  AI是怎么玩这个游戏的?
  简单来说,强化学习就是给定一个环境,如果AI在环境里做出了正确选择就给它奖励。随机性让AI在游戏里面临的环境变得复杂了,所以玩有随机性的游戏对于AI来说也更有难度。
  为了让AI在游戏里获得高分,Maluuba公司创造了混合式奖赏架构(Hybrid Reward Architecture),也就是一种把游戏里的大问题分解成小问题,再把小问题分发给AI代理来解决的分治策略。
  Maluuba用来玩游戏是一个顶级AI代理和150多个普通AI代理。
  每个普通AI代理都是相互独立的,它们分别精通《吃豆小姐》的一部分技巧:有的负责吃水果,有的负责吃豆子,有的负责躲避幽灵。
  顶级AI代理的工作,就是综合考虑每个普通AI代理的意见,然后做出往哪边走的决策。
  决策的考虑因素有两个:一个是建议往某方向走的普通AI代理的数量,另一个是普通AI代理建议的强度。
  比方说有100个普通AI代理建议向左、50个普通AI代理建议向右,那么从数量上看就选择左走;但如果50个AI建议向右的原因是左侧有幽灵走过去会死,那么从建议强度上就应该选择向右。
  至于这么做的原理,Maluuba公司发表的研究论文里是这样解释的:
  将任务分解成具有定义权重的离散目标可以降低“问题的规模大小”,从而使复杂问题变得简单。
-WF--fyhfxph3591213.jpg
  蒙特利尔学习算法研究所所长Yoshua Bengio在接受外媒采访时表示:
  这种解决方法非常像人类的大脑,如果人工智能能够掌握这种分治策略,就能利用有限的信息来完成更加复杂的任务,人工智能技术也就会向前迈进一大步。
  Yoshua Bengio所长是Maluuba公司的技术顾问。
  也有反对者认为Maluuba公司的测试方法有问题。Maluuba公司事先已经把奖励和惩罚的权重写到了AI程序里,在游戏开始之前,AI就已经知道了幽灵是坏的、水果和豆子是好的。别的AI都是在玩游戏的过程里学习到哪些行为会得到奖励、哪些行为会被惩罚,但是Maluubad的AI从一开始就知道这些了。
  反对者认为AI在游戏过程中并没有从环境里发现任何情报,只是根据奖励权重去决定收集豆子和水果、躲避幽灵,这根本不是在进行机器学习,因为AI在玩游戏的过程里根本就没学到任何东西。
  Maluuba目前专注于长期的人工智能研究,在微软内部独立运作,不过AI在《吃豆小姐》游戏里学到的东西还是会被应用到微软的销售和业务工具Dynamics里,用来帮助用户判断销售线索。
『 巴蜀网 』提醒,在使用本论坛之前您必须仔细阅读并同意下列条款:
  1. 遵守《全国人大常委会关于维护互联网安全的决定》及中华人民共和国其他各项有关法律法规,并遵守您在会员注册时已同意的《『 巴蜀网 』管理办法》;
  2. 严禁发表危害国家安全、破坏民族团结、破坏国家宗教政策、破坏社会稳定、侮辱、诽谤、教唆、淫秽等内容;
  3. 本帖子由 上官123 发表,享有版权和著作权(转帖除外),如需转载或引用本帖子中的图片和文字等内容时,必须事前征得 上官123 的书面同意;
  4. 本帖子由 上官123 发表,仅代表用户本人所为和观点,与『 巴蜀网 』的立场无关,上官123 承担一切因您的行为而直接或间接导致的民事或刑事法律责任。
  5. 本帖子由 上官123 发表,帖子内容(可能)转载自其它媒体,但并不代表『 巴蜀网 』赞同其观点和对其真实性负责。
  6. 本帖子由 上官123 发表,如违规、或侵犯到任何版权问题,请立即举报,本论坛将及时删除并致歉。
  7. 『 巴蜀网 』管理员和版主有权不事先通知发帖者而删除其所发的帖子。
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

© 2002-2017, 蜀ICP备12031014号, Powered by 5Panda
GMT+8, 2017-12-15 04:29, Processed in 0.171600 second(s), 12 queries, Gzip On, MemCache On
快速回复 返回顶部 返回列表