Google推出的原生多模态AI模型Gemini,强调是从头开始建立的多模块AI模型,就像人类有五感,同时接收和感知这个世界一样,可以像人类一样概括和无缝地理解、操作和组合不同类型的信息,包括文字、代码、音频、图像和视频等等。拥有12万订阅的TheAIGRID在近期视频中详细介绍了Gemini的各项功能,看了只能赞叹地说“回不去了!”
内容目录
可看可听可写,天南地北随便聊
最强AI顾问Gemini
最强家教,上传考题教你解
地表最强AI模型
Gemini强调是从头开始建立的多模块AI模型,就像人类有五感,同时接收和感知这个世界一样,而这也意味着Gemini可以像人类一样概括和无缝地理解、操作和组合不同类型的信息,包括文字、代码、音频、图像和视频等等。
这表示你可接上镜头、麦克风,用图像搭配上语音同时向Gemini提问,而且是连续性的,就像朋友间天南地北的随便闲聊,还可以跟它玩游戏。
(视频5:20处开始)
和Gemini玩猜硬币在哪只手的游戏
Gemini还是最强的AI顾问,视频中示范了“想给女儿举办生日派对”的任务,并提供喜爱动物和想在户外开派对的条件,Gemini立即生成了数种方案供其选择。
而且Gemini的生成形态同时融合了文字、图片。它提供的派对主题方案,还帮你设想了派对的布置、可以准备的活动,还有食物等等,你可自行点击喜欢的主题,进一步查看细节,或者直接在细节处询问更多问题,像派对的杯子蛋糕有哪些造型,要如何自己制作等等,简直就是地表最强AI顾问!
(视频13:47处开始)
用户也可直接上传考题,Gemini会先帮你改考卷,再告诉你哪里有错,并一步一步地解题给你看,有不懂的地方可以随时提问,甚至请它再出类似的考题,来确保你已完全了解了这种题型的观念。
(视频17:15处开始)
此外,你还可以上载自己练习踢球的影片,请Gemini指正你的姿势要如何调整,才能顺利进球。
(视频27:10处开始)
Google的AI聊天机器人Bard已开始使用Gemini Pro的微调版本来进行更高级的推理、计划、理解等。Google也将Gemini引入Pixel手机中,并在接下来的几个月出现在更多的产品和服务中。
从视频中不难发现,Gemini不仅是聊天机器人,它还可以绘图、帮科学家整理海量的资料,并整合成你指定的形式,简直就是地表最强AI顾问,也难怪Google及Alphabet执行长Sundar Pichai可以自豪地表示:
这是我们迄今为止最强大、最通用的模型,我对未来以及Gemini将为世界各地的人们带来的机会感到由衷的兴奋。
(Google推出原生多模态AI模型Gemini,挑战GPT-4)