Google DeepMind最近推出了生成式互动环境AI模型Genie,它能够通过文字或图片提示生成互动式动画游戏,而无需事先进行训练。
目录
Toggle
Google DeepMind推出生成式互动环境工具”Genie”
什么是Genie?
多模型架构
学习重现动作并辨识可控部分
合成或现实图片都能转游戏
Google、OpenAI较劲意味浓厚
Genie
作为一家于2014年被Google收购的人工智能公司,Google DeepMind于23日提交的论文指出,该公司推出了生成式互动环境AI模型”Genie”,能够仅通过文字、图片或草图描述,便生成可控制的互动虚拟环境。
内容写道,Genie通过大量公开可用的网络影片进行训练,而非依赖于特定游戏或场景的数据,这对游戏开发及创意娱乐等领域,具有更加广泛的应用性:
广告 – 内文未完请往下捲动
作为生成式AI的全新创举,我们推出了生成式互动环境”Genie”,可以通过单一图片提示产生互动式且可游玩的环境。
多模型架构
首先,论文显示,Genie作为一个基础世界模型,由时空影片分词器(Spatiotemporal video tokenizer)、自回归动态模型(Autoregressive dynamics model)、以及简单且可扩展的潜在动作模型(Scalable latent action model)的110亿个参数共同设定。
因此,他能够在未给予指令的情况下,从网络上的2D平台游戏及机器人技术影片中,以无监督方式进行自主训练;同时也能借由我们所提供的外界图像来提示,包括现实世界的照片或草图,生成能够供人们控制并互动的虚拟环境。
Genie的特别之处在于,他能够从网络影片中学习并重现游戏角色的控制内容,即便这些影片并没有关于正在执行之动作的标签,他也能够从生成的环境中,推断出一致或多种的潜在动作。
同时,Genie还能够学习并辨识动作中哪些部分是能够被控制的,并借以产生互动式情境。
另外,Genie仅需一张图片就能创造一个完整的新互动环境,首先采用文字转影像的生成模型Imagen 2来产生关键影格(Keyframe),再透过Genie给影像赋予动态效果。
同时,Genie也能接收从未见过的图片提示,包括现实世界照片或简单草图,使人们能够与原先无法移动的现实事物进行互动。
部落格
文章写道:
Genie的功能让任何人,甚至是儿童,都能够创建并进入可控的模拟环境、或是具互动性的生成世界。
文末最后也提到Genie产品的远大目标:
Genie的应用不仅仅局限于娱乐或创意开发,他还能够作为训练智能型代理人(Intelligent Agent)的优秀测试平台,从而推动了AI领域的发展。
据悉,智能型代理人指的是,一个能够观察周围环境,并作出行动以达成目标的自主实体,这是目前AI研究的一个核心概念及重要目标。
近几个月来,Google已释出多个生成式AI模型的产品或资讯,包括最强AI顾问”Gemini”、文字转影片生成工具”Lumiere”、以及关键字图片生成工具”ImageFX”,无不吸引大众目光。
另一方面,OpenAI的文字转影片工具Sora作为首个影片生成产品,也在几周前引发了AI狂潮。
(给文字AI就能做电影!为什么OpenAI的Sora能为AI影片生成带来大飞跃)
然而,近期有关Gemini在生成图像时涉及种族争议,造成了母公司Alphabet单日(26)股价下跌逾4%。
Google DeepMind研究部门负责人Demis Hassabis在昨日的世界行动通讯大会(MWC Barcelona 2024)上则表示:
我们已将Gemini的该功能下架,将在未来几周内修复问题并恢复。
AI
Gemini
Genie
Google
Google DeepMind
ImageFX
Lumiere
OpenAI
生成式AI
衍伸阅读
Reddit与Google签署合作关系,提供内容供Google训练AI模型
辉达(Nvidia)财报再度超乎预期,AI币同庆