昨天举行的OpenAI发布会宣布了新的语言模型GPT-4o,它可以接收用户的文字、声音、画面、笑声和情绪,并为用户提供更像真人的聊天环境。
真正的聊天机器人GPT-4o
GPT-4o模型的优势
可以作为即时的聊天机器人
目标向所有用户免费开放
根据团队所述,GPT-4o将朝向更自然的人机互动发展,可以接受文字、音频和图像的任意组合作为输入,并产生文字、音频和图像的任意组合输出。与现有模型相比,GPT-4o在视觉和音频信息理解方面更加精准和快速。
GPT-4o在英语文字和代码上的表现与GPT-4 Turbo的性能相似,平均回复速度为320毫秒,与人类对话的间隔类似。过去GPT-3.5的平均延迟为2.8秒,GPT-4为5.4秒。
不过这些代表什么呢?
GPT-4o模型可以通过分析语音和即时影像实现更真实的互动,代表用户只需要开启手机摄像头或直接与其对话,就可以开始使用。例如实时翻译、唱生日快乐歌曲、作为定制化学习语言的家教、分析周围环境,甚至能听懂人类的笑话并展现出快乐的情绪和笑声,或者能理解语言背后的嘲讽意涵。
GPT-4o可以像是真实的朋友一样,以羡慕的情绪称赞自己养的狗有多可爱,也会好奇询问它的名字,GPT-4o与问答相比更像是在聊天。
GPT-4o模型实现跨文字、视觉和音频端到端地训练了一个新模型,除了用户主要的语音或文字输入之外,还可以自动输入用户的表情、笑声、环境,让回复更真实和精准,如果用户打断其发言,GPT-4o也能知道该怎么做。
与Chat-4o学习数学
(资料来源)
GPT-4o的o是指omni,也就是全能的意思。团队希望可以带给用户回应任何事情的模型,而非仅仅是文字输入或单维度的问题。
目前GPT-4o已经开放给付费用户使用,不过似乎仅开放文字和语音输入,官方所述的即时影像输入需要再等待一段时间。OpenAI的目标是向所有用户免费开放。
付费用户可以抢先试用GPT-4o
目前笔者体验,发现其实许多团队所述的功能仍未完善,包含中文的听笑话的效果并不好、真实聊天内容较为空洞、实际回应速度较为缓慢,期待团队进一步的更新。
OpenAI选择在Google I/O开发者大会之前释出新产品,竞争意味浓厚,此前两者的ChatGPT与Gemini模型皆传出可能与Apple合作导入iOS 18。
GPT-4
GPT-4o
OpneAI
衍伸阅读
Vitalik:GPT4已经算通过图灵测试,最好谨记这件事
GPT-4o与《云端情人》(Her)距离不远吗?GPT-4o整合语音多维互动的潜在应用