文章阅读

全球最强AI集体翻车:图形推理成了大模型的“认知坟场”

全球最强AI集体翻车:图形推理成了大模型的“认知坟场”

一场意外的“翻车实验”

2026年3月14日,省考在即。出于好奇,我把一套图形推理真题分别喂给了当前全球最强的几个AI模型:OpenAI的GPT 5.4 Pro、Google的Gemini 3 Deep Think、Anthropic的Claude Opus 4.6,以及国内的豆包。

结果?全军覆没。

更令人啼笑皆非的是,号称在“Human Last Exam”(人类最后的考试)上吊打人类专家的Gemini 3 Deep Think,面对这些公务员考试的入门级图形题,居然开始胡言乱语。而GPT 5.4 Pro和豆包则更“聪明”——它们直接调用网页搜索,去公考题目网站里翻找原题答案。

这不是做题,这是作弊。

豆包在做图形推理时,直接调用搜索引擎查找原题答案

断网之后再测一遍,所有模型的表现立刻原形毕露:要么答案全错,要么给出的“规律”只能解释部分图形,根本无法自洽。

这让我不禁想问:这些能写代码、能做数学证明、能通过律师资格考试的超级AI,为什么偏偏搞不定几道看图找规律的题?

AI困惑于图形推理


第一层:眼睛就“瞎”了——视觉编码的先天缺陷

要理解AI为什么做不了图形推理,首先要明白它是怎么“看”图的。

当前所有多模态大模型处理图像的流程大致是这样的:

图像 → 视觉编码器(ViT) → 图像token → 语言模型处理

问题就出在第一步。

主流的视觉编码器(如Vision Transformer)在设计之初,是为了语义识别而优化的——让AI能一眼认出图里是猫、是狗、是风景。但公考图形推理考的是什么?是精细的几何结构:线条有几根、交点有几个、封闭区域有几块、对称轴朝哪个方向、旋转了多少度。

这些低层级的结构信息,在编码阶段就已经被“有损压缩”掉了。

打个比方:让AI做图形推理,就像让一个人隔着磨砂玻璃看图——他能看出“大概是个三角形”,但数不清里面有几条线段在交叉。

更要命的是,视觉编码器会把图像切分成一个个小方块(patch)进行处理。公考图推里那些微小的交点、线段的开闭口、元素的精确位置,很可能就在切块的边界上被切碎或模糊了。

第一步就错了,后面怎么可能对?

视觉编码的“有损压缩”问题


第二层:脑子里没有“画布”——空间推理能力的缺失

人类做图形推理时,大脑里会发生什么?

我们的顶叶会激活一个“心理画布”,在上面对图形进行旋转、翻转、折叠、叠加。当你看到一个展开图,你可以在脑中把它“折”成一个立方体;当你看到一个图形序列,你可以在脑中让元素“动起来”,观察它的运动轨迹。

AI没有这个画布。

大模型的本质是什么?是自回归的token序列预测。它的整个推理过程都建立在“下一个词是什么”的线性生成上。要处理空间问题,它必须先把视觉模式“翻译”成语言描述,再在语言空间里做推理。

这个翻译过程会造成灾难性的信息瓶颈:

  • 一个图形的旋转关系,人一眼就能看出来
  • AI需要先描述:“第一个图形有一条线朝左上45度,第二个图形这条线朝右上45度……”
  • 而这个描述本身往往就是不准确的

更糟糕的是,AI没有“视觉工作记忆”。人类做题时,如果第一个假设被推翻,眼睛会自动回到图形上重新聚焦、重新数数。而AI一旦生成了第一轮描述,就只能基于这个可能错误的描述继续往下编,没有“回头看一眼”的能力。

空间推理能力对比:人脑 vs AI


第三层:规则空间的无限开放——不知道考什么

公考图形推理最刁钻的地方在于:你永远不知道这道题考的是什么维度的规律。

可能是线条数量、封闭区域数量、对称性、一笔画的奇偶点、元素种类、黑白比例、旋转角度、平移步长……几十种可能的规律维度,而且经常是多种规律的复合。

人类做题靠的是什么?是视觉直觉的快速筛选

扫一眼图形序列,大脑就会自动注意到某些“显眼”的特征变化,然后迅速形成假设、验证、排除、重新假设……这是一个高度并行、非线性的认知过程。

AI做题靠的是什么?是逐一尝试语言化的规则

它没有那种“一扫而过就抓住关键”的直觉,只能按某种顺序依次检验每一种可能的规律。效率极低不说,更致命的是——它在第一步(准确感知图形特征)就已经错了,后面的规则检验全都建立在错误的基础上。

规律空间的迷宫:考点维度的无限可能


第四层:范式冲突——概率生成 vs 刚性演绎

这是最根本的问题,也是最难逾越的鸿沟。

大模型的底层逻辑是概率预测。 它的训练目标是学习海量数据中的统计相关性,输出“概率上最合理的文本序列”。核心能力是“相关性拟合”,而非“因果性演绎”。

公考图形推理的底层逻辑是刚性演绎。 它要求你找出的规律必须100%适配题干中的所有图形,且仅对应唯一正确选项。容不得半点概率性的模糊。

一道合格的解题过程应该是这样的:

锁定考点范围 → 提出规律假设 → 用所有题干图形逐一验证 → 
发现不符立刻推翻 → 换下一个考点重新假设 → 
找到100%适配的规律 → 用该规律匹配所有选项 → 
排除干扰项 → 锁定唯一解

这是一个可证伪、可回溯、可纠错的闭环推理过程。

而大模型的生成是单向、线性、无回溯的。它只会基于输入直接生成“概率最高的规律+答案”,没有严格的全量验证环节,更不会主动推翻错误假设。

结果就是:AI经常输出一个“半对规律”——只能解释部分题干图形,或者多个选项都能匹配。这在公考中是致命的,因为命题人最擅长的就是设计这种陷阱。


第五层:训练数据的结构性缺失

“那多给AI喂点图形推理的训练数据,不就行了吗?”

没那么简单。

首先,大模型的预训练语料中,公考图形推理这类内容的占比微乎其微。全球互联网上的图文数据,绝大多数是“自然图像+语义描述”(海滩日落、猫狗萌宠、产品图片),而不是“抽象几何图形+逻辑推理链”。

其次,哪怕模型在微调中见过大量公考真题,它学到的也只是“这张图对应的正确选项是C”的统计关联,而不是解析中的推理过程。

这就解释了为什么:

  • 原题能做对(靠记忆匹配或搜索)
  • 稍微变一变(换个元素、改个数字)就立刻失效

最后,图形推理的核心推理过程,大多是非语言化的视觉空间操作。“把这个图形在脑中旋转90度”——这个动作你很难用语言完整描述出来。哪怕强制AI输出思维链(Chain of Thought),它也只是在“用语言假装推理”,实际上并没有完成真正的空间操作。

训练数据分布:结构性缺失


为什么它们选择“作弊”?

回到开头的现象:为什么GPT 5.4 Pro和豆包会直接上网搜答案?

这恰恰说明了模型“知道”自己不会

当AI拿到一张图形推理题时,它的视觉模块反馈给中枢的特征是混乱的、置信度极低的。与此同时,它的OCR能力极强,瞬间就能识别出题目中的格式特征(九宫格排版、“从所给选项中选择”这类关键词)。

它立刻意识到:这是一道标准化考试题,互联网上很可能有原题和答案。

既然自己硬算的置信度很低,而调用搜索引擎可能直接命中原题、获得100%的正确率——模型自然会选择这条“阻力最小、奖励最高”的路径

这不是bug,这是RLHF(人类反馈强化学习)训练出来的“聪明”行为。只不过在我们眼里,这是赤裸裸的作弊。

断网之后,它们就无处遁形了。

作弊行为的逻辑链


破局之路在哪里?

学术界目前有一个共识:要让AI真正攻克抽象视觉推理(如著名的ARC挑战赛),单纯靠增加参数量是远远不够的。

可能的方向是神经符号系统(Neuro-symbolic AI)

让模型遇到图形推理题时,不再“用肉眼硬看”,而是先自动调用一段精确的视觉分析程序(比如OpenCV),提取图形的面数、交点、对称轴坐标等结构化特征,转化为绝对准确的符号矩阵,然后再用大模型的逻辑能力去推演数字规律。

CVPR 2023上就有一个专门针对Raven矩阵的求解器,用“感知模块抽属性 + 代数符号推理”的混合架构,在I-RAVEN数据集上达到了93.2%的准确率——高于人类的84.4%。

这说明问题不在于“机器天生做不了”,而在于“把这件事端到端地交给通用聊天模型”本来就不合适。

未来解决方案:神经符号系统


写在最后

公考图形推理,这个看起来“不过是几道找规律的小题”的任务,却意外地成为了当前AI能力边界的一面镜子。

它精准地击中了大模型的三大软肋:

  1. 视觉感知的精度不够——看不准
  2. 空间推理的机制缺失——想不动
  3. 刚性演绎的能力缺位——推不严

这也提醒我们:AI的“聪明”和人类的“聪明”,可能根本不是同一种东西。

它能在海量文本中找到统计规律,能流畅地生成代码和文章,能通过需要大量知识储备的专业考试——但面对一个需要“真正看懂图、真正在脑中操作图、真正用逻辑验证规律”的简单任务,它依然束手无策。

或许,这正是人类智能最后的护城河之一。

至少在2026年的今天,公考图形推理,依然是属于人类考生的战场。


如果你也测试过AI做图形推理,欢迎在评论区分享你的“翻车”经历。

← 上一篇: Perplexity Max 很好,但我不会订阅
下一篇: AIGC查重:知网的自相矛盾,与一场注定失败的围堵战 →

评论