上周一 Open AI 的发布会虽然只有短短 25 分钟,但是直接把所有人都震撼了,能够把比 GPT-4 还强很多的真正的多模态模型的推理速度压缩到这个地步真是离谱。
Open AI 虽然产品能力不行,但是可以用模型的进步替代产品的优化和复杂迭代。
而且这次的产品和模型更新摆明了就是要收集更多的多模态信息,但是没办法我还是得用,同时再加上跟最大入口 Apple 的合作,数据问题现在应该已经不是问题了。
强烈推荐看一遍GPT-4o 发布页的所有视频演示和文本演示。
Sam 自己写了一条博客来阐述他对GPT-4o的看法。他们的阶段性目标获得了更新:
“用最低的价格甚至是免费,将最好的模型提供给世界上所有人”
关于GPT-4o 模型更新
- 它可以接受任意组合的文本、音频和图像作为输入,并生成任意组合的文本、音频和图像输出。
- 它可以在 232 毫秒内响应音频输入,平均为 320 毫秒,这与人类在对话中的响应时间相似。
- 在英文和代码文本方面,它与 GPT-4 Turbo 的性能相当,对非英语文本的文本有显著改进。
- 同时在 API 方面更快速、价格更便宜 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面表现特别出色。
- 与 GPT-4 Turbo 相比,GPT-4o 速度提高了 2 倍,价格减半,限制速率提高了 5 倍。
- 他们也承认之前在 LLM 竞技场上的 GPT2-Chatbot 模型就是 GPT-4o,LLM 竞技场中 GPT-4o 的评分比 GPT-4 0409 高了整整 50 分。
ChatGPT产品层面的更新
- 新的 ChatGPT 更新,支持利用 GPT-4o 进行实时的语音和视频对话。
- 网页端和移动端全新的 UI 设计。
- 发布 Mac 版本的 ChatGPT 客户端,支持获取桌面内容进行对话,支持类似 Raycost 的快速拉起。
- 免费用户可以使用 GPT-4o,同时使用 GPT-4o 的时候可以免费使用原来 ChatGPT Plus 的发布分功能,目前只有文本模型,额度有限制 3 小时 10 条。
- Sam 也确认了目前在ChatGPT中的GPT-4o只有文本模式,其他的多模态声音、图像、视频都没有实装。
除了上面在发布会发布的能力之外,Open AI 还发布了一部分新的 ChatGPT 能力:
- 直接从 Google Drive 和 Microsoft OneDrive 上传最新文件版本。
- 在新的可展开视图中与表格和图表进行交互。
- 定制并下载用于演示和文档的图表。
一些产品使用方法和技巧
orangeai 发布的破解 ChatGPT Mac 版本使用权限的方法:https://x.com/oran_ge/status/1791825374143488160
使用 GPT-4o 快速从白板草图生成前端组件的案例:https://x.com/op7418/status/1791279683910451305
使用 ChatGPT Mac 版本用一分钟生成一个 Mac 应用的案例:https://x.com/op7418/status/1791697320079430134