AI Trends HUB

OpenAI最新模型GPT4o十个牛逼的应用场景！

2025-02-06

OpenAI真是要压着谷歌打么？哈哈！
直接赶在谷歌之前开了一个新品发布会。
今天凌晨直播，早上一起来就发现已经可以体验新模型了。
根据录播内容，既未出现传说中的GPT5，也未见到所谓的搜索功能。
然而，此次更新依然亮点纷呈。
事实上，奥特曼在X平台上早已透露，既不是gpt5，也不是搜索，但对他来说却如同施展了魔法一样神奇。

观看完整场发布会后，我深刻感受到未来似乎已经触手可及。
显然，ChatGPT已经远远超越了一个单纯文字模型的范畴。
它现在能够感知外界的声音、画面，甚至能够捕捉到你说话时的情绪，并给予你相应的情感反馈。
这种能力不禁让人联想到科幻电影《她》（Her）中的场景。
很明显，Sam也是朝着这个目标去的。她在7个小时前发了一条推，上面只有一个单词“her”。
《她》是一部描绘未来人与人工智能之间浪漫爱情的科幻影片，故事发生在一个不远的将来，男主角的云端恋人（即人工智能系统OS1）由魅力四射的斯嘉丽·约翰逊配音。
斯嘉丽·约翰逊，这位性感女神，是多少男性心中的梦幻情人啊！拥有这样一个AI伴侣，似乎都让人不再需要现实中的女朋友了。不过话说回来，我们有些偏离主题了。
回到GPT4o的话题上，虽然“她”那样的情感交互还只是我们的目标而非现实，但GPT4o确实值得我们深入探讨。也许，我们今天正在见证并参与着历史的创造。
我尚未仔细比对宣传视频与实际使用体验之间的差异，但我在X平台上看到了一位用户（@minchoi）对GPT4o的十种使用场景进行了概括和演示，内容颇为有趣，我想与大家一同分享。
通过这些实际使用场景，我们可以更直观地理解这个模型的特性和潜力。
1.实时视觉助手
这应该是最惊艳演示了，就是你看到了什么，可以直接和GPT4o进行讨论，它能实时理解你看到的东西。
这个关于鸭子的演示，也很有意思，曾经谷歌也做过，但是后来大家发现谷歌是靠剪辑做的实时交互，GPT4o似乎可以通过摄像头直接实时交互。
我还没体验到，但是官方演示视频中也有演示这个功能。
2. 辅助学习
视频演示了GPT4o直接读 IPAD中给出的题目，并可以和家长和孩子，通过语音实时互动。
这简直就是学渣和学渣家长的福音啊。
GPT应该是一个不错的老师，至少不会像我这样暴跳如雷吧～～哈哈！
辅导过孩子作业的都知道，这个过程是有多崩溃。很快，也许GPT就能接过这个事情了，对我而言，这是刚需。
3. 实时翻译
实时翻译功能，可以让GPT充当你的个人翻译，可以让两个说不同语言的人流畅沟通。
你只要和GPT约定好规则，你可以直接说中文，它立马翻译成日语，对方说日语，立马可以翻译成汉语。
你们想想看，这又是多少人的刚需啊。
学了几十年的英语，还是个渣渣，最终还是得靠科技啊～～
4.会议助手
我不喜欢开会，这个介绍跳过，你们可以自己想象一下。比如有人帮你录音，做会议纪要，做会议总结。
5. 实时中断并改变情绪
用过老版本GPT4语音通话的人，肯定有一点点崩溃的感觉。GPT4的语音反馈非常非常慢。
它必须先把你的语音转换成文字，然后在交给后端处理，处理完成之后又要把文本转换成语音，所以整个过程非常煎熬。
现在好了，新版GPT4o可以随时打断，随时插嘴了。
而且反馈速度也非常快，好像可以在几百毫米内作出反馈。这是一个巨大的实用性上的进步。
除了可以随时说话随时打断之外，还具有了通过声音理解和表达情绪的能力。
这句话的意思就是，她能从过你的声音感受到你的喜怒哀乐，你也可以让它用不同情绪来和你说话。
比如，“嗨，GPT来撒个娇” ，“请用无比兴奋的语气说，come on，baby” 哈哈哈～～
6. 把文字添加到图片中
这个功能不需要多解释啊，图片演示得很直观。不用P图了，直接生成。可以看到文字添加到图片后，和图片融合得天衣无缝。
7. 多人会议记录
可以通过会议录音，直接提问“录音中有多少人，说了什么”。
回答说“有四个人，听起来像是一个项目管理的会议，马克正在介绍他自己....”
然后会把谁，说了什么，用文字的形式展现出来。
这种功能不算惊艳，但是很实用。
8. 3D物体合成
现在不光可以生成图片，还可以生成3D动画了么？
7. 海报制作
输入两个人的照片，制作一张大片的海报。好基友，共进退！
8. 制作风格化的照片
上传一张照片，添加一段描述，就能生成风格化的照片了。
这个功能并不新鲜，很多传统软件也有，只是现在可以通过统一的对话窗口，通过对话来完成了。
这颗痣保留得不错！
感觉GPT可以吞噬一切APP。
9. 定位精准的高阶P图
给出一个openai的logo，给出一个没有品牌标识的杯垫。
通过描述，把openai的标志和文字刻到上面。
注意，不是贴上去的感觉，而是有刻上的感觉。
融合得非常自然。
10.生成特殊字体的文字
通过描述呈现一种特殊字体：“字母KLM、NOP、QRS被优雅地展示在三行中，就像字帖中精心设计的字体一样。这种字体充满了超未来的感觉，它标志着人工智能新时代的到来。”
我们已经讲完了十个场景，前面的场景较为宏大，后面的则更加细致入微。
“机械组”得加把劲儿了，要尽快制造出一个栩栩如生的身体来！
刚刚我们通过应用场景来感受了GPT4o的魅力，接下来让我们来看看官方给出的基准测试结果。
这样的转换既保留了原文的意思，又使表达更加生动和丰富。希望这个转换能够满足您的需求。
不能说绝对领先，但确实保持了一定的优势。
此外，这也从侧面反映出OpenAI的竞争对手们紧随其后，竞争异常激烈。
Claude似乎与OpenAI势均力敌，实力不容小觑。
谷歌的表现也没有预期中那么弱，同样展现出强大的竞争力。
在OpenAI的测试中，Llama3 400B的表现竟然如此出色，令人惊讶。
OpenAI为何不把国产模型也纳入测试范围呢？是轻视李彦宏，还是轻视百度呢？哈哈，真是大胆！
当然，上述测评只是基于文本特定指标的基准测试，而此次OpenAI最大的更新在于视觉和声音方面，这两方面OpenAI无疑处于绝对领先地位。
从通用大模型的角度来看，OpenAI整体实力确实强大，但令人遗憾的是它并未开源，这使得其他开发者难以借鉴和学习。
（想象一个脑图画面，中心节点为“OpenAI竞争力分析”）
保持领先：从中心节点延伸出一条分支，上面标注着“保持领先”，并连接着一个子节点“基于文本特定指标的基准测试”。
竞争激烈：从中心节点再延伸出一条分支，上面标注着“竞争激烈”，并连接着三个子节点：“Claude势均力敌”、“谷歌表现不俗”和“Llama3 400B表现出色”。
未纳入国产模型：从中心节点延伸出一条带有疑问标记的分支，上面标注着“未纳入国产模型？”，并连接着一个子节点“轻视李彦宏/百度？”。
视觉和声音领先：从中心节点延伸出一条强调标记的分支，上面标注着“视觉和声音遥遥领先”，并连接着一个子节点“此次最大更新”。
整体实力强大但不开源：从中心节点延伸出一条带有遗憾标记的分支，上面标注着“整体实力强大”，并连接着两个子节点：“不开源”和“难以借鉴学习”。
整个脑图画面以中心节点为核心，向四周延伸出多个分支和子节点，形成了一个清晰、直观的分析框架。

最后，有几点重要信息需要注意！

新模型的API在增加功能的同时，价格并未上涨，反而还有所降低。这对于API的使用者来说，无疑是个好消息，值得开心一笑。

此外，ChatGPT的桌面版即将问世！这对于PC用户来说，无疑是个巨大的喜讯，让人充满期待。

再者，OPENAI推出的新模型以及之前众多需要付费的功能，现在大部分都可以免费使用了。这包括：

GPT4和应用商店，

强大的视觉功能，

便捷的联网功能，

实用的记忆功能，

以及扩展的数据分析功能。

这些功能的免费开放，无疑将为用户带来更加丰富的体验和更高的性价比。同时，也提供了更多的句意转换和表达方式，让语言交流更加灵活多样。