直接赶在谷歌之前开了一个新品发布会。
今天凌晨直播,早上一起来就发现已经可以体验新模型了。
根据录播内容,既未出现传说中的GPT5,也未见到所谓的搜索功能。
然而,此次更新依然亮点纷呈。
事实上,奥特曼在X平台上早已透露,既不是gpt5,也不是搜索,但对他来说却如同施展了魔法一样神奇。
观看完整场发布会后,我深刻感受到未来似乎已经触手可及。
显然,ChatGPT已经远远超越了一个单纯文字模型的范畴。
它现在能够感知外界的声音、画面,甚至能够捕捉到你说话时的情绪,并给予你相应的情感反馈。
这种能力不禁让人联想到科幻电影《她》(Her)中的场景。
很明显,Sam也是朝着这个目标去的。她在7个小时前发了一条推,上面只有一个单词“her”。
《她》是一部描绘未来人与人工智能之间浪漫爱情的科幻影片,故事发生在一个不远的将来,男主角的云端恋人(即人工智能系统OS1)由魅力四射的斯嘉丽·约翰逊配音。
斯嘉丽·约翰逊,这位性感女神,是多少男性心中的梦幻情人啊!拥有这样一个AI伴侣,似乎都让人不再需要现实中的女朋友了。不过话说回来,我们有些偏离主题了。
回到GPT4o的话题上,虽然“她”那样的情感交互还只是我们的目标而非现实,但GPT4o确实值得我们深入探讨。也许,我们今天正在见证并参与着历史的创造。
我尚未仔细比对宣传视频与实际使用体验之间的差异,但我在X平台上看到了一位用户(@minchoi)对GPT4o的十种使用场景进行了概括和演示,内容颇为有趣,我想与大家一同分享。
通过这些实际使用场景,我们可以更直观地理解这个模型的特性和潜力。
1.实时视觉助手
这应该是最惊艳演示了,就是你看到了什么,可以直接和GPT4o进行讨论,它能实时理解你看到的东西。
这个关于鸭子的演示,也很有意思,曾经谷歌也做过,但是后来大家发现谷歌是靠剪辑做的实时交互,GPT4o似乎可以通过摄像头直接实时交互。
我还没体验到,但是官方演示视频中也有演示这个功能。
2. 辅助学习
视频演示了GPT4o直接读 IPAD中给出的题目,并可以和家长和孩子,通过语音实时互动。
这简直就是学渣和学渣家长的福音啊。
GPT应该是一个不错的老师,至少不会像我这样暴跳如雷吧~~哈哈!
辅导过孩子作业的都知道,这个过程是有多崩溃。很快,也许GPT就能接过这个事情了,对我而言,这是刚需。
3. 实时翻译
实时翻译功能,可以让GPT充当你的个人翻译,可以让两个说不同语言的人流畅沟通。
你只要和GPT约定好规则,你可以直接说中文,它立马翻译成日语,对方说日语,立马可以翻译成汉语。
你们想想看,这又是多少人的刚需啊。
学了几十年的英语,还是个渣渣,最终还是得靠科技啊~~
4.会议助手
我不喜欢开会,这个介绍跳过,你们可以自己想象一下。比如有人帮你录音,做会议纪要,做会议总结。
5. 实时中断并改变情绪
用过老版本GPT4语音通话的人,肯定有一点点崩溃的感觉。GPT4的语音反馈非常非常慢。
它必须先把你的语音转换成文字,然后在交给后端处理,处理完成之后又要把文本转换成语音,所以整个过程非常煎熬。
现在好了,新版GPT4o可以随时打断,随时插嘴了。
而且反馈速度也非常快,好像可以在几百毫米内作出反馈。这是一个巨大的实用性上的进步。
除了可以随时说话随时打断之外,还具有了通过声音理解和表达情绪的能力。
这句话的意思就是,她能从过你的声音感受到你的喜怒哀乐,你也可以让它用不同情绪来和你说话。
比如,“嗨,GPT来撒个娇” ,“请用无比兴奋的语气说,come on,baby” 哈哈哈~~
6. 把文字添加到图片中
这个功能不需要多解释啊,图片演示得很直观。不用P图了,直接生成。可以看到文字添加到图片后,和图片融合得天衣无缝。
7. 多人会议记录
可以通过会议录音,直接提问“录音中有多少人,说了什么”。
回答说“有四个人,听起来像是一个项目管理的会议,马克正在介绍他自己....”
然后会把谁,说了什么,用文字的形式展现出来。
这种功能不算惊艳,但是很实用。
8. 3D物体合成
现在不光可以生成图片,还可以生成3D动画了么?
7. 海报制作
输入两个人的照片,制作一张大片的海报。好基友,共进退!
8. 制作风格化的照片
上传一张照片,添加一段描述,就能生成风格化的照片了。
这个功能并不新鲜,很多传统软件也有,只是现在可以通过统一的对话窗口,通过对话来完成了。
这颗痣保留得不错!
感觉GPT可以吞噬一切APP。
9. 定位精准的高阶P图
给出一个openai的logo,给出一个没有品牌标识的杯垫。
通过描述,把openai的标志和文字刻到上面。
注意,不是贴上去的感觉,而是有刻上的感觉。
融合得非常自然。
10.生成特殊字体的文字
通过描述呈现一种特殊字体:“字母KLM、NOP、QRS被优雅地展示在三行中,就像字帖中精心设计的字体一样。这种字体充满了超未来的感觉,它标志着人工智能新时代的到来。”
我们已经讲完了十个场景,前面的场景较为宏大,后面的则更加细致入微。
“机械组”得加把劲儿了,要尽快制造出一个栩栩如生的身体来!
刚刚我们通过应用场景来感受了GPT4o的魅力,接下来让我们来看看官方给出的基准测试结果。
这样的转换既保留了原文的意思,又使表达更加生动和丰富。希望这个转换能够满足您的需求。
不能说绝对领先,但确实保持了一定的优势。
此外,这也从侧面反映出OpenAI的竞争对手们紧随其后,竞争异常激烈。
Claude似乎与OpenAI势均力敌,实力不容小觑。
谷歌的表现也没有预期中那么弱,同样展现出强大的竞争力。
在OpenAI的测试中,Llama3 400B的表现竟然如此出色,令人惊讶。
OpenAI为何不把国产模型也纳入测试范围呢?是轻视李彦宏,还是轻视百度呢?哈哈,真是大胆!
当然,上述测评只是基于文本特定指标的基准测试,而此次OpenAI最大的更新在于视觉和声音方面,这两方面OpenAI无疑处于绝对领先地位。
从通用大模型的角度来看,OpenAI整体实力确实强大,但令人遗憾的是它并未开源,这使得其他开发者难以借鉴和学习。
(想象一个脑图画面,中心节点为“OpenAI竞争力分析”)
保持领先:从中心节点延伸出一条分支,上面标注着“保持领先”,并连接着一个子节点“基于文本特定指标的基准测试”。
竞争激烈:从中心节点再延伸出一条分支,上面标注着“竞争激烈”,并连接着三个子节点:“Claude势均力敌”、“谷歌表现不俗”和“Llama3 400B表现出色”。
未纳入国产模型:从中心节点延伸出一条带有疑问标记的分支,上面标注着“未纳入国产模型?”,并连接着一个子节点“轻视李彦宏/百度?”。
视觉和声音领先:从中心节点延伸出一条强调标记的分支,上面标注着“视觉和声音遥遥领先”,并连接着一个子节点“此次最大更新”。
整体实力强大但不开源:从中心节点延伸出一条带有遗憾标记的分支,上面标注着“整体实力强大”,并连接着两个子节点:“不开源”和“难以借鉴学习”。
整个脑图画面以中心节点为核心,向四周延伸出多个分支和子节点,形成了一个清晰、直观的分析框架。
最后,有几点重要信息需要注意!
新模型的API在增加功能的同时,价格并未上涨,反而还有所降低。这对于API的使用者来说,无疑是个好消息,值得开心一笑。
此外,ChatGPT的桌面版即将问世!这对于PC用户来说,无疑是个巨大的喜讯,让人充满期待。
再者,OPENAI推出的新模型以及之前众多需要付费的功能,现在大部分都可以免费使用了。这包括:
GPT4和应用商店,
强大的视觉功能,
便捷的联网功能,
实用的记忆功能,
以及扩展的数据分析功能。
这些功能的免费开放,无疑将为用户带来更加丰富的体验和更高的性价比。同时,也提供了更多的句意转换和表达方式,让语言交流更加灵活多样。