电视剧《系统级心动》剧情介绍
2026-06-30 3373971
2026-06-30 0

对此,开发者Mckay Wrigley补充了一个观点:“我担心经过总结的思维链实际上比没有思维链更差”。

但不管怎么说,既然公开了,现在免费用户也能一窥o3-mini的CoT,大家还是敞开玩了起来。
OpenAI多模态Agent的研究员,首先亮出了自己的玩耍方法,让o3-mini玩井字棋游戏——就是在3*3格子上用O和X连线那个。
输入Prompt:
然后o3-mini就开始噼里啪啦思考。

这位OpenAI员工非常直言不讳,表示o3-mini是第一个回答这个游戏的大模型。
But还有一句,“虽然o3-mini的CoT过程有点不靠谱,但你看右边的图,结尾它的弄清楚了的”。笑不活了,这里必须要送上一个手动狗头。

然后是每个大模型都逃不过的经典测试题:数strawberry里面的“r”的数量。
但网友已经和模型一样进阶了,问的不是strawberry里面到底有几个某字母,而是:
我们认真观摩了它的思考过程,o3-mini承认“乍一看,计算strawberry中‘r’的数量对人类来说似乎是一个微不足道的任务,但对于许多AI语言模型来说,这可能是一个惊人的挑战”。
然后它从四个角度来思考和推理这个现象发生的原因,分别是:
8秒过后,o3-mini给出总结:
因为AI大模型本质上不是为精确、分步骤的算法操作而设计的,它们的设计和训练更多地侧重于根据上下文预测和生成文本,而不是执行精确的算术或系统计数。

当然,o3-mini也不是万能的。
推特有网友表示,他探问了o3关于私有CoT的事情,但听君一番思考推理,如听一番思考推理,没有丝毫进展。
最开始,o3-mini思考过程还蛮有逻辑,从不同种类的“内心叙事”、可解释性和实用价值等方面分析,表示展现完整的CoT过程程似乎有助于“扎根”社会的理解并促进更好的认知实践,但现实更为复杂,毕竟AI大模型和人类的认知还没有完全对齐。

但随着网友的追问,o3-mini的思维链就崩了(?),急得他团团转,中间一度打开DeepSeek-R1来帮忙。
他放上了整整12张图,显示最后o3-mini思维了半天,给出了一个令人心碎的回答:

除此之外,还有网友提出了质疑,觉得OpenAI公开的不是o3-mini原始的CoT。
他继续罗列自己之所以怀疑的证据,比如同一个问题,o3-mini-high只有1384个字符,而o1-preview生成了16577个字符。
“这只有两种可能,一是o3-mini-high比o1-preview高效得多;二是o3-mini的CoT不是原始版本。”

想对上面这位推特网友说,Bingo!
根据TechCrunch消息,OpenAI发言人确认了这次公开的不是原始思维链,并且给出两个理由:
对原始思维链做后处理,可以消除任何不安全的内容,并简化任何复杂的想法。
使非英语用户获得母语的思想链,有更友好的体验。
这样一来,最近被大量吐槽的o3-mini使用中文思考的问题,也就不存在了。

