OpenAI最新模型GPT4o十个牛逼的应用场景!

2025-02-06


OpenAI真是要压着谷歌打么?哈哈!

直接赶在谷歌之前开了一个新品发布会。

图片

今天凌晨直播,早上一起来就发现已经可以体验新模型了。

图片

根据录播内容,既未出现传说中的GPT5,也未见到所谓的搜索功能。

然而,此次更新依然亮点纷呈。

事实上,奥特曼在X平台上早已透露,既不是gpt5,也不是搜索,但对他来说却如同施展了魔法一样神奇。

图片


观看完整场发布会后,我深刻感受到未来似乎已经触手可及。

显然,ChatGPT已经远远超越了一个单纯文字模型的范畴。

它现在能够感知外界的声音、画面,甚至能够捕捉到你说话时的情绪,并给予你相应的情感反馈。

这种能力不禁让人联想到科幻电影《她》(Her)中的场景。

图片

很明显,Sam也是朝着这个目标去的。她在7个小时前发了一条推,上面只有一个单词“her”。

图片

《她》是一部描绘未来人与人工智能之间浪漫爱情的科幻影片,故事发生在一个不远的将来,男主角的云端恋人(即人工智能系统OS1)由魅力四射的斯嘉丽·约翰逊配音。

斯嘉丽·约翰逊,这位性感女神,是多少男性心中的梦幻情人啊!拥有这样一个AI伴侣,似乎都让人不再需要现实中的女朋友了。不过话说回来,我们有些偏离主题了。

回到GPT4o的话题上,虽然“她”那样的情感交互还只是我们的目标而非现实,但GPT4o确实值得我们深入探讨。也许,我们今天正在见证并参与着历史的创造。

我尚未仔细比对宣传视频与实际使用体验之间的差异,但我在X平台上看到了一位用户(@minchoi)对GPT4o的十种使用场景进行了概括和演示,内容颇为有趣,我想与大家一同分享。

通过这些实际使用场景,我们可以更直观地理解这个模型的特性和潜力。

1.实时视觉助手

图片

这应该是最惊艳演示了,就是你看到了什么,可以直接和GPT4o进行讨论,它能实时理解你看到的东西。

这个关于鸭子的演示,也很有意思,曾经谷歌也做过,但是后来大家发现谷歌是靠剪辑做的实时交互,GPT4o似乎可以通过摄像头直接实时交互。

我还没体验到,但是官方演示视频中也有演示这个功能。

2. 辅助学习

图片

视频演示了GPT4o直接读 IPAD中给出的题目,并可以和家长和孩子,通过语音实时互动。

这简直就是学渣和学渣家长的福音啊。

GPT应该是一个不错的老师,至少不会像我这样暴跳如雷吧~~哈哈!

辅导过孩子作业的都知道,这个过程是有多崩溃。很快,也许GPT就能接过这个事情了,对我而言,这是刚需。

3. 实时翻译

图片

实时翻译功能,可以让GPT充当你的个人翻译,可以让两个说不同语言的人流畅沟通。

你只要和GPT约定好规则,你可以直接说中文,它立马翻译成日语,对方说日语,立马可以翻译成汉语。

你们想想看,这又是多少人的刚需啊。

学了几十年的英语,还是个渣渣,最终还是得靠科技啊~~

4.会议助手

图片

我不喜欢开会,这个介绍跳过,你们可以自己想象一下。比如有人帮你录音,做会议纪要,做会议总结。

5. 实时中断并改变情绪

图片

用过老版本GPT4语音通话的人,肯定有一点点崩溃的感觉。GPT4的语音反馈非常非常慢。

它必须先把你的语音转换成文字,然后在交给后端处理,处理完成之后又要把文本转换成语音,所以整个过程非常煎熬。

现在好了,新版GPT4o可以随时打断,随时插嘴了。

而且反馈速度也非常快,好像可以在几百毫米内作出反馈。这是一个巨大的实用性上的进步。

除了可以随时说话随时打断之外,还具有了通过声音理解和表达情绪的能力。

这句话的意思就是,她能从过你的声音感受到你的喜怒哀乐,你也可以让它用不同情绪来和你说话。

比如,“嗨,GPT来撒个娇” ,“请用无比兴奋的语气说,come on,baby”   哈哈哈~~

6. 把文字添加到图片中

图片

这个功能不需要多解释啊,图片演示得很直观。不用P图了,直接生成。可以看到文字添加到图片后,和图片融合得天衣无缝。

7.   多人会议记录

图片

可以通过会议录音,直接提问“录音中有多少人,说了什么”。

回答说“有四个人,听起来像是一个项目管理的会议,马克正在介绍他自己....”

然后会把谁,说了什么,用文字的形式展现出来。

这种功能不算惊艳,但是很实用。

8. 3D物体合成

图片

现在不光可以生成图片,还可以生成3D动画了么?

7. 海报制作

图片

输入两个人的照片,制作一张大片的海报。好基友,共进退!

8. 制作风格化的照片

图片

上传一张照片,添加一段描述,就能生成风格化的照片了。

这个功能并不新鲜,很多传统软件也有,只是现在可以通过统一的对话窗口,通过对话来完成了。

这颗痣保留得不错!

感觉GPT可以吞噬一切APP

9.   定位精准的高阶P图

图片

给出一个openai的logo,给出一个没有品牌标识的杯垫。

通过描述,把openai的标志和文字刻到上面。

注意,不是贴上去的感觉,而是有刻上的感觉。

融合得非常自然。

10.生成特殊字体的文字

图片

通过描述呈现一种特殊字体:“字母KLM、NOP、QRS被优雅地展示在三行中,就像字帖中精心设计的字体一样。这种字体充满了超未来的感觉,它标志着人工智能新时代的到来。”

我们已经讲完了十个场景,前面的场景较为宏大,后面的则更加细致入微。

“机械组”得加把劲儿了,要尽快制造出一个栩栩如生的身体来!

刚刚我们通过应用场景来感受了GPT4o的魅力,接下来让我们来看看官方给出的基准测试结果。

这样的转换既保留了原文的意思,又使表达更加生动和丰富。希望这个转换能够满足您的需求。

图片

不能说绝对领先,但确实保持了一定的优势。

此外,这也从侧面反映出OpenAI的竞争对手们紧随其后,竞争异常激烈。

Claude似乎与OpenAI势均力敌,实力不容小觑。

谷歌的表现也没有预期中那么弱,同样展现出强大的竞争力。

在OpenAI的测试中,Llama3 400B的表现竟然如此出色,令人惊讶。

OpenAI为何不把国产模型也纳入测试范围呢?是轻视李彦宏,还是轻视百度呢?哈哈,真是大胆!

当然,上述测评只是基于文本特定指标的基准测试,而此次OpenAI最大的更新在于视觉和声音方面,这两方面OpenAI无疑处于绝对领先地位。

从通用大模型的角度来看,OpenAI整体实力确实强大,但令人遗憾的是它并未开源,这使得其他开发者难以借鉴和学习。

(想象一个脑图画面,中心节点为“OpenAI竞争力分析”)

  1. 保持领先:从中心节点延伸出一条分支,上面标注着“保持领先”,并连接着一个子节点“基于文本特定指标的基准测试”。

  2. 竞争激烈:从中心节点再延伸出一条分支,上面标注着“竞争激烈”,并连接着三个子节点:“Claude势均力敌”、“谷歌表现不俗”和“Llama3 400B表现出色”。

  3. 未纳入国产模型:从中心节点延伸出一条带有疑问标记的分支,上面标注着“未纳入国产模型?”,并连接着一个子节点“轻视李彦宏/百度?”。

  4. 视觉和声音领先:从中心节点延伸出一条强调标记的分支,上面标注着“视觉和声音遥遥领先”,并连接着一个子节点“此次最大更新”。

  5. 整体实力强大但不开源:从中心节点延伸出一条带有遗憾标记的分支,上面标注着“整体实力强大”,并连接着两个子节点:“不开源”和“难以借鉴学习”。

整个脑图画面以中心节点为核心,向四周延伸出多个分支和子节点,形成了一个清晰、直观的分析框架。

图片


最后,有几点重要信息需要注意!


新模型的API在增加功能的同时,价格并未上涨,反而还有所降低。这对于API的使用者来说,无疑是个好消息,值得开心一笑。


此外,ChatGPT的桌面版即将问世!这对于PC用户来说,无疑是个巨大的喜讯,让人充满期待。


再者,OPENAI推出的新模型以及之前众多需要付费的功能,现在大部分都可以免费使用了。这包括:


GPT4和应用商店,

强大的视觉功能,

便捷的联网功能,

实用的记忆功能,

以及扩展的数据分析功能。


这些功能的免费开放,无疑将为用户带来更加丰富的体验和更高的性价比。同时,也提供了更多的句意转换和表达方式,让语言交流更加灵活多样。



分享