【来源:虎嗅网】
本文来自微信公众号:机器之心,作者:泽南,题图来自:AI生成
“看到人们喜欢 ChatGPT 中的图片功能真是太有趣了,但是我们的 GPU 正在融化。”
上线不到 72 小时,OpenAI 的 GPT-4o 原生图像功能终于扛不住了。
今天凌晨,OpenAI CEO 山姆・奥特曼在社交平台 X 上宣布 ChatGPT 图像生成功能开始暂时受限。这一次,他没有具体说明次数限制是多少,但表示希望这项保障措施不需要实施很长时间,因为 OpenAI 正在尝试优化效率。
随着用户在互联网上发布大量 ChatGPT 生成的图像,传播开来之后再吸引到更多的用户,OpenAI 升级后的图像工具火爆程度远远超出了预期。其实 GPT-4o 生成图像的速度越来越慢,很多用户已经在抱怨了,周四时生成一张图片的速度就长达半个小时。
要知道,现在 GPT-4o 生图还是仅限于付费版用户的功能(Plus、Pro 和 Team 用户)。虽然奥特曼仍然许诺免费的 ChatGPT 账户未来每天可以获得三次生成机会,但是照目前的情况来看距离兑现反而还越来越远了。
看起来这一回,AI 的图片生成能力终于超过了某个阈值,切实地在重塑着世界。
人们从 GPT-4o 生成的图像中会发现一些令人毛骨悚然的细节,可以看出 AI 是能够理解你生成图片背后想要表达的含义。这说明 GPT-4o 的绘图能力源自 LLM 本身,并不是像以前那样简单地调用专门的生图模型(Dall-E)。经过了最新的思维链流程,AI 充分结合了自身的知识,能够实现更好的反馈。
用 GPT-4o 生成的图片。
原生多模态的大模型是如此的强大,对此很多业内人士已经开始认为,当下一些明星 AI 创业公司开发的图像生成工具、RAG 工具、AI IDE、工作流、智能体等会在基础大模型能力提升之后变得不值一提。
毕竟如果把 GPT-4o 比作一个知识渊博,又有理性的设计师,那么 Stable Diffusion 还仅局限于美工的程度。
OpenAI 曾报告说,GPT-4o 生图能力的大幅提升源自于一系列技术改进,在执行生成任务的过程中,AI 会对人类提出的 Prompt 进行细化,编写出一个更加详细的英文版提示词。它还会充分调用模型内已有的知识库和对话上下文,并对人们上传的参考图片预先进行转化处理。
由此生成的图片可以轻松获得人们构想的效果,具备完美的风格一致性,一举让此前还属于玩具的图像生成工具成为了兼具准确性与实用性的强大工具。
当然,这一切都是建立在更加复杂的推理和计算基础上的。目前的 GPT-4o 在效率、逻辑上也存在一些问题。比如奥特曼的推文下有人就在质疑:我试图生成辛普森一家风格的图片,ChatGPT 算完了才回复我“受到版权限制无法生成”,为什么不在生成图片之前就限制呢?
说到生成图像的风格,其实又引出了另一个问题:整个互联网上大家一直在生成的吉卜力风格的却不受版权限制,这是否也是一种双标?
自从奥特曼换了头像带起节奏,很多人在用 GPT-4o 生成吉卜力工作室画风的图像,有的人做出了表情包开始卖,也有人顺着这股风潮开始推出滤镜 App,结果有网友开始恶搞,假称吉卜力终于忍无可忍了,发来了律师函:
或许在 OpenAI 改进好大模型之前,这股 GPT-4o 改图的风潮就会因为其他层面的问题而受到影响。
不过 OpenAI 并没有停止前进。今天凌晨,他们又宣布了 ChatGPT 的另一波更新:
更新后的 GPT-4o 功能已面向所有付费用户开放。OpenAI 表示,免费用户将在未来几周内获得相同功能。
AI 引发的革命,还在继续。
参考内容:
https://x.com/sama/status/1905296867145154688
本文来自微信公众号:机器之心,作者:泽南