玩躲猫猫游戏AI学会攻防术 这项研究为啥很重要?
2019-09-19 10:11:44 来源: 科技日报
尽管机器学习在诸如围棋和Dota 2等复杂游戏中取得了显著进步,但在这些领域掌握的技能并不一定能推广到真实场景中实际应用。越来越多的研究人员正在寻求建立一种机器智能,使其行为、学习和进化更像人类。
总部位于旧金山的OpenAI公司近日发表的一篇新论文提出,在儿童的“躲猫猫”游戏中训练模型,并在数以千万计的竞赛中使它们相互对抗,可导致模型自动发展出类似人类的行为,从而提高智力并改善后续行动的性能。
为什么选择躲猫猫?
该论文的第一作者、OpenAI研究员博文·贝克认为,躲猫猫被选为一个有趣的起点,主要是因为其规则很简单。所有游戏中的代理(Agent,也称智能体,指能自主活动的软件或硬件实体)都被模拟为球形对象,可执行3种类型的操作:导航、抓住并移动物体、锁定对象,且只能由该代理的队友解锁。
研究人员在模拟的、物理接地的环境中放置了1—3个“躲藏者”和1—3个“寻找者”,房间的边界是静态墙。环境中还包括不同尺寸的可移动箱子和可移动坡道。
研究人员使用强化学习来训练游戏代理,并遵循简单的躲猫猫规则:隐藏者成功躲过寻找者的追逐,或是寻找者成功找到躲藏者。
AI如何玩躲猫猫?
在经过数亿次的游戏后,AI代理经历了几个阶段的策略发展过程。
在初始阶段,躲藏者(蓝色)和寻找者(红色)通过在空间中移动而不操纵任何物体,制定了非常粗糙的躲避和追逐策略。
在经历2500万个回合后,游戏变得更加复杂。躲藏者学会了移动和锁定在环境中的箱子和路障,以在自己周围建立堡垒,这样寻找者就永远看不到它们了。不仅如此,他们还制定了协调战略,例如相互传递物体,以加快建造堡垒的进程。
然而,在游戏进行了7500万回合之后,寻找者发现了一个反策略。他们学会了在躲藏者的要塞旁边移动一个坡道,并用它来爬过墙壁。
作为回应,躲藏者学会了将坡道移入他们的房间,因此寻找者无法用它来越过墙壁。
随着环境变得越来越复杂,躲藏者学会了使用细长箱子建造更强大的“堡垒”。虽然OpenAI认为这将是最终的策略,但在游戏进行到3.8亿回合时,寻找者再次成功反击,找出一种方法来跳到一个盒子上并利用动力在它上面“冲浪”,越过墙壁进入堡垒。
在最后阶段,躲藏者学会在建造堡垒之前锁定所有箱子,以防止“箱子冲浪”。
研究人员将这些不同策略的演变称为“来自多智能体自动课程的紧急技能进展”。“自动课程”这一术语是今年由DeepMind创造的,适用于多个代理逐渐创造新任务以在特定环境中相互挑战。OpenAI的研究人员认为,这个过程在自然选择方面具有相似之处。
这项研究为啥很重要?
鉴于躲猫猫相对简单的目标,通过竞争性自我游戏训练的多个代理学会了使用工具,并采用人类相关技能来获胜。OpenAI认为,这为未来的智能代理开发和部署提供了一个有前景的研究方向。OpenAI正在开源其代码和环境,以鼓励在该领域进一步研究。
OpenAI的最终目标是构建能够在一个通用系统中执行多项任务的人工通用智能(AGI)。虽然可能会有不同的目标,但OpenAI正在大力投资由大规模计算能力实现的强化学习研究。OpenAI最近与微软签署了一份价值10亿美元的为期10年的计算合同。
躲猫猫游戏研究也激发了OpenAI,因为随着环境复杂性的增加,游戏中的代理不断地通过新策略自我适应新的挑战。贝克表示:“如果扩展像这样的流程,并将其放入更复杂的环境中,那么你可能会得到足够复杂的代理,以便为我们解决实际任务。”
挑战在哪里?
游戏代理有时会表现出令人惊讶的行为。例如,躲藏者试图完全逃离游戏区域,直到研究人员对此施加惩罚。
其他挑战可能归因于模拟环境设计中的物理缺陷。例如,躲藏者了解到,如果他们在拐角处向墙壁推动斜坡,斜坡将由于某种原因穿过墙壁然后消失。这种“作弊”说明了算法的安全性如何在机器学习中发挥关键作用。研究人员说:“在它发生之前,你永远不会知道。这类系统总是存在缺陷。我们所做的基本上是观察,以便我们可以看到这种奇怪的事情发生,然后试着修复物理缺陷。”(冯卫东)
为您推荐
精彩放送
热门文章
-
舆情预警丨搜于特:实控人及其一致行动人合计约2.16亿股持股被司法冻结 占公司总股本比例7.08%
-
热推荐:中科江南:已就数字人民币在财政国库资金支付领域应用进行试点
-
今日报丨超500家企业签约参展 第六届进博会公布首批参展商名单
-
环球通讯!交易所债券收盘:地产债多数下跌 “21旭辉01”跌超4%
-
环球观焦点:舆情预警丨如皋沿江开投:企业本部涉及重大诉讼
-
世界热资讯!小米汽车数字钥匙专利公布,可提升设备续航
-
双枪科技投资设立自动化设备新公司
-
世界头条:山高环能于天津投资新设生物能源销售公司
-
天天讯息:工信部:2022年全国家用电冰箱产量8664.4万台 同比下降3.6%
-
微信已全面支持“小号” 全量开放辅助账号注册功能
-
自然资源部:取消集中供地制度系误读
-
机构:2022年Q4苹果全球智能手机市场份额达到历史最高水平
精彩图片
-
成本大减!新一轮的旗舰大战也将在即将到来的9月正式拉开帷幕
-
博览会开幕 中国首款具有自主知识产权的国产通用型科学计算软件正式发布
-
技术下降!Intel独立显卡驱动一次评测就发现43个Bug
-
高性能的台式机彻底告别“光污染” 雷克沙推出简洁纯白外观设计
-
韩国媒体率先报道:三星电子236层NAND闪存预计年内开始生产 市场竞争更激烈
-
新科技!苹果正在积极研发某种形式的AR/VR头显或智能眼镜
-
谷歌测试开展新功能 向用户展示哪些云流媒体服务拥有特定的视频游戏
-
支付宝积极响应国家为小微降费的政策号召 一年降费让利近80亿
-
京东汽车就与浦林成山旗下新能源车轮胎品牌浦林达成战略合作 助力轮胎“电动化转型”
-
苹果新专利公布:暗示未来 iPhone手机或许有陶瓷材质版
-
盖茨和韩国能源供应商SK共同牵头 其中SK投资2.5亿美元
-
海底捞早已经捞不动了 据统计上半年最高亏损达2.97亿
热文
-
谷歌母公司下季度将调整财报:AI研究部门将单独披露
-
我国新增18处国际重要湿地 总数达82处 面积764.7万公顷
-
激发国企科技创新活力
-
爱一个人是什么感觉的说说_爱一个人是什么感觉
-
安徽省有哪些市区县名称_安徽省有哪些市区县
-
北京海淀区GDP首破万亿元大关
-
广东移动大数据解码春节:跨省出行热度高 莞深空城率超70%
-
世界动态:挪威称雷克萨斯的自费混合广告误导
-
今日要闻!又一批跨国公司地区总部和研发中心落户上海
-
环球微头条丨科大讯飞与杭州市签署全面战略合作协议
-
奥维睿沃:海信系电视2022年12月单月出货量居全球首位
-
南财投资日历(2月3日)
-
珠海:涉及知名大盘!11家房企、中介因违法违规被查处
-
世界焦点!证监会:更好保护中小投资者合法权益 树牢“大投保”理念
-
环球消息!Q4“固收+权益”理财定价下行明显,近6月收益猛跌101BP丨机警理财日报(2月2日)
-
证监会:稳妥有序化解私募基金、地方交易场所、债券违约等重点领域风险
-
当前热文:恒瑞医药人事变动频繁?董事长孙飘扬回应
-
银川优化生育措施征求意见:提高二三孩生育住院分娩医疗费报销比例
-
热门:国家卫健委发布国家血液病医学中心和国家血液病区域医疗中心设置标准
-
环球观焦点:长三角G60科创走廊:锚定“科创+产业+金融+人才”高水平融合发展
-
北京:到2025年新孵化国家高新技术企业2000家
-
环球简讯:《煤矿安全改造中央预算内投资专项管理办法》发布
-
美国联邦快递管理层将裁员超10%
-
巴比食品:2022年净利润2.22亿元 同比下降29.21%
-
空客与卡塔尔航空就A350订单纠纷达成和解
-
动态焦点:国家能源局负责人会见香港中电总裁
-
全球快资讯:北京这个区 GDP总量首次突破一万亿元!
-
天天快报!高质量发展 | 亮出“作战图” 跑出“加速度”
-
北京关停三里屯酒吧街?官方回应
-
中汽协:2022年全国汽车商品累计进出口总额为2486.5亿美元 同比增长11.7%
-
龙虎榜丨中国长城今日涨停,上榜营业部席位全天成交2.83亿元
-
立讯精密董事长王来春:未来20年立讯要有30%产品进入全球行业无人区
-
当前观点:ChatGPT热度爆棚 谷歌开测“学徒巴德”等多款竞品
-
环球即时:沪硅产业:向专业投资者公开发行不超过13.4亿元科技创新公司债券申请获批
-
天天微资讯!商务部:继续稳定和扩大汽车消费 支持新能源汽车消费
-
新年“开门红” 江苏中欧班列今年首月开行突破200列
-
舆情预警 | 小米汽车设计泄密供应商被处罚100万
-
股票破位怎么办?股票破位必须止损吗?
-
股票一字线会持续几天?股票丁字线说明什么?
-
每日速递:商务部:研究制定海南自由贸易港禁止、限制进出口货物物品清单
-
焦点短讯!舆情预警 | 交通银行四川省分行原党委委员、副行长刘志刚被“双开”
-
股票分红对以后走势有没有影响?分红和股票涨跌有关系吗?
-
环球热点!舆情预警丨云天化:从未在任何网络平台开展众筹集资
-
【环球播资讯】商务部:研究制定海南自由贸易港禁止、限制进出口货物物品清单
-
环球简讯:上海浦东GDP突破1.6万亿元
-
博亚精工:公司目前与成飞集团无业务往来
-
【天天报资讯】商务部:2022年社会消费品零售总额44.0万亿元,与2021年基本持平
-
世界最资讯丨银保监会就人身保险公司分类监管办法业内征求意见 涉及高风险业务、分支机构和非标资产投资
-
商务部:2023年要强化贸易促进 合理扩大进口
-
每日看点!沪指震荡收涨0.02% 半导体和白酒板块表现强势