谷歌推出生成式互动环境AI模型「Genie」：用文字或图片创造游戏？

Google DeepMind最近推出了生成式互动环境AI模型Genie，它能够通过文字或图片提示生成互动式动画游戏，而无需事先进行训练。

目录
Toggle
Google DeepMind推出生成式互动环境工具”Genie”
什么是Genie?
多模型架构
学习重现动作并辨识可控部分
合成或现实图片都能转游戏
Google、OpenAI较劲意味浓厚
Genie
作为一家于2014年被Google收购的人工智能公司，Google DeepMind于23日提交的论文指出，该公司推出了生成式互动环境AI模型”Genie”，能够仅通过文字、图片或草图描述，便生成可控制的互动虚拟环境。

内容写道，Genie通过大量公开可用的网络影片进行训练，而非依赖于特定游戏或场景的数据，这对游戏开发及创意娱乐等领域，具有更加广泛的应用性：

广告 – 内文未完请往下捲动
作为生成式AI的全新创举，我们推出了生成式互动环境”Genie”，可以通过单一图片提示产生互动式且可游玩的环境。

多模型架构
首先，论文显示，Genie作为一个基础世界模型，由时空影片分词器(Spatiotemporal video tokenizer)、自回归动态模型(Autoregressive dynamics model)、以及简单且可扩展的潜在动作模型(Scalable latent action model)的110亿个参数共同设定。

因此，他能够在未给予指令的情况下，从网络上的2D平台游戏及机器人技术影片中，以无监督方式进行自主训练；同时也能借由我们所提供的外界图像来提示，包括现实世界的照片或草图，生成能够供人们控制并互动的虚拟环境。

Genie的特别之处在于，他能够从网络影片中学习并重现游戏角色的控制内容，即便这些影片并没有关于正在执行之动作的标签，他也能够从生成的环境中，推断出一致或多种的潜在动作。

同时，Genie还能够学习并辨识动作中哪些部分是能够被控制的，并借以产生互动式情境。

另外，Genie仅需一张图片就能创造一个完整的新互动环境，首先采用文字转影像的生成模型Imagen 2来产生关键影格(Keyframe)，再透过Genie给影像赋予动态效果。

同时，Genie也能接收从未见过的图片提示，包括现实世界照片或简单草图，使人们能够与原先无法移动的现实事物进行互动。

部落格
文章写道：
Genie的功能让任何人，甚至是儿童，都能够创建并进入可控的模拟环境、或是具互动性的生成世界。

文末最后也提到Genie产品的远大目标：
Genie的应用不仅仅局限于娱乐或创意开发，他还能够作为训练智能型代理人(Intelligent Agent)的优秀测试平台，从而推动了AI领域的发展。

据悉，智能型代理人指的是，一个能够观察周围环境，并作出行动以达成目标的自主实体，这是目前AI研究的一个核心概念及重要目标。

近几个月来，Google已释出多个生成式AI模型的产品或资讯，包括最强AI顾问”Gemini”、文字转影片生成工具”Lumiere”、以及关键字图片生成工具”ImageFX”，无不吸引大众目光。

另一方面，OpenAI的文字转影片工具Sora作为首个影片生成产品，也在几周前引发了AI狂潮。

(给文字AI就能做电影！为什么OpenAI的Sora能为AI影片生成带来大飞跃)

然而，近期有关Gemini在生成图像时涉及种族争议，造成了母公司Alphabet单日(26)股价下跌逾4%。

Google DeepMind研究部门负责人Demis Hassabis在昨日的世界行动通讯大会(MWC Barcelona 2024)上则表示：
我们已将Gemini的该功能下架，将在未来几周内修复问题并恢复。

AI
Gemini
Genie
Google
Google DeepMind
ImageFX
Lumiere
OpenAI
生成式AI

衍伸阅读
Reddit与Google签署合作关系，提供内容供Google训练AI模型
辉达(Nvidia)财报再度超乎预期，AI币同庆

热门资讯

小川普社交媒体 Thumzup 全面收购矿企 Dogehash，扩展 Dogecoin 和 LTC 挖矿业务

Bullish IPO 募资 11.5 亿美元全部以稳定币结算，开创美国融资市场先例

WebX2025：亚洲最大 Web3 会议将在东京举行！链新闻独家折扣码 20% 优惠

谷歌推出生成式互动环境AI模型「Genie」：用文字或图片创造游戏？

WebX2025：亚洲最大 Web3 会议将在东京举行！链新闻独家折扣码 20% 优惠

SemiAnalysis 分析师：GPT-5 的算力与营收策略重大创新，免费用户成为 OpenAI 的最佳摇钱树

下一轮竞争：从通用型到功能型，为什么“定制化稳定币”是企业的刚需？

Leave A Reply Cancel Reply

链抽象是什么？相较于账户抽象更全面地提升用户体验

Metamask Learn在线学习平台上线！8堂互动式教学，轻松进入Web3

土狗交易所 DEXX 惊传私钥泄露，多位 KOL 盲目推荐，受害金额超亿

富达投资修订ETF申请，计划允许华尔街参与以太币质押

小川普社交媒体 Thumzup 全面收购矿企 Dogehash，扩展 Dogecoin 和 LTC 挖矿业务

Bullish IPO 募资 11.5 亿美元全部以稳定币结算，开创美国融资市场先例

WebX2025：亚洲最大 Web3 会议将在东京举行！链新闻独家折扣码 20% 优惠

川普兼任债券大亨？疯狂购买公司债和市政债，总额超过1亿美元

编辑精选

小川普社交媒体 Thumzup 全面收购矿企 Dogehash，扩展 Dogecoin 和 LTC 挖矿业务

Bullish IPO 募资 11.5 亿美元全部以稳定币结算，开创美国融资市场先例

WebX2025：亚洲最大 Web3 会议将在东京举行！链新闻独家折扣码 20% 优惠

最受欢迎

链抽象是什么？相较于账户抽象更全面地提升用户体验

Metamask Learn在线学习平台上线！8堂互动式教学，轻松进入Web3

土狗交易所 DEXX 惊传私钥泄露，多位 KOL 盲目推荐，受害金额超亿

热门资讯

谷歌推出生成式互动环境AI模型「Genie」：用文字或图片创造游戏？

相关文章

Leave A Reply Cancel Reply