全球最强AI集体翻车：图形推理成了大模型的“认知坟场”

一场意外的“翻车实验”

2026年3月14日，省考在即。出于好奇，我把一套图形推理真题分别喂给了当前全球最强的几个AI模型：OpenAI的GPT 5.4 Pro、Google的Gemini 3 Deep Think、Anthropic的Claude Opus 4.6，以及国内的豆包。

结果？全军覆没。

更令人啼笑皆非的是，号称在“Human Last Exam”（人类最后的考试）上吊打人类专家的Gemini 3 Deep Think，面对这些公务员考试的入门级图形题，居然开始胡言乱语。而GPT 5.4 Pro和豆包则更“聪明”——它们直接调用网页搜索，去公考题目网站里翻找原题答案。

这不是做题，这是作弊。

豆包在做图形推理时，直接调用搜索引擎查找原题答案

断网之后再测一遍，所有模型的表现立刻原形毕露：要么答案全错，要么给出的“规律”只能解释部分图形，根本无法自洽。

这让我不禁想问：这些能写代码、能做数学证明、能通过律师资格考试的超级AI，为什么偏偏搞不定几道看图找规律的题？

AI困惑于图形推理

第一层：眼睛就“瞎”了——视觉编码的先天缺陷

要理解AI为什么做不了图形推理，首先要明白它是怎么“看”图的。

当前所有多模态大模型处理图像的流程大致是这样的：

图像 → 视觉编码器(ViT) → 图像token → 语言模型处理

问题就出在第一步。

主流的视觉编码器（如Vision Transformer）在设计之初，是为了语义识别而优化的——让AI能一眼认出图里是猫、是狗、是风景。但公考图形推理考的是什么？是精细的几何结构：线条有几根、交点有几个、封闭区域有几块、对称轴朝哪个方向、旋转了多少度。

这些低层级的结构信息，在编码阶段就已经被“有损压缩”掉了。

打个比方：让AI做图形推理，就像让一个人隔着磨砂玻璃看图——他能看出“大概是个三角形”，但数不清里面有几条线段在交叉。

更要命的是，视觉编码器会把图像切分成一个个小方块（patch）进行处理。公考图推里那些微小的交点、线段的开闭口、元素的精确位置，很可能就在切块的边界上被切碎或模糊了。

第一步就错了，后面怎么可能对？

视觉编码的“有损压缩”问题

第二层：脑子里没有“画布”——空间推理能力的缺失

人类做图形推理时，大脑里会发生什么？

我们的顶叶会激活一个“心理画布”，在上面对图形进行旋转、翻转、折叠、叠加。当你看到一个展开图，你可以在脑中把它“折”成一个立方体；当你看到一个图形序列，你可以在脑中让元素“动起来”，观察它的运动轨迹。

AI没有这个画布。

大模型的本质是什么？是自回归的token序列预测。它的整个推理过程都建立在“下一个词是什么”的线性生成上。要处理空间问题，它必须先把视觉模式“翻译”成语言描述，再在语言空间里做推理。

这个翻译过程会造成灾难性的信息瓶颈：

一个图形的旋转关系，人一眼就能看出来
AI需要先描述：“第一个图形有一条线朝左上45度，第二个图形这条线朝右上45度……”
而这个描述本身往往就是不准确的

更糟糕的是，AI没有“视觉工作记忆”。人类做题时，如果第一个假设被推翻，眼睛会自动回到图形上重新聚焦、重新数数。而AI一旦生成了第一轮描述，就只能基于这个可能错误的描述继续往下编，没有“回头看一眼”的能力。

空间推理能力对比：人脑 vs AI

第三层：规则空间的无限开放——不知道考什么

公考图形推理最刁钻的地方在于：你永远不知道这道题考的是什么维度的规律。

可能是线条数量、封闭区域数量、对称性、一笔画的奇偶点、元素种类、黑白比例、旋转角度、平移步长……几十种可能的规律维度，而且经常是多种规律的复合。

人类做题靠的是什么？是视觉直觉的快速筛选。

扫一眼图形序列，大脑就会自动注意到某些“显眼”的特征变化，然后迅速形成假设、验证、排除、重新假设……这是一个高度并行、非线性的认知过程。

AI做题靠的是什么？是逐一尝试语言化的规则。

它没有那种“一扫而过就抓住关键”的直觉，只能按某种顺序依次检验每一种可能的规律。效率极低不说，更致命的是——它在第一步（准确感知图形特征）就已经错了，后面的规则检验全都建立在错误的基础上。

规律空间的迷宫：考点维度的无限可能

第四层：范式冲突——概率生成 vs 刚性演绎

这是最根本的问题，也是最难逾越的鸿沟。

大模型的底层逻辑是概率预测。 它的训练目标是学习海量数据中的统计相关性，输出“概率上最合理的文本序列”。核心能力是“相关性拟合”，而非“因果性演绎”。

公考图形推理的底层逻辑是刚性演绎。 它要求你找出的规律必须100%适配题干中的所有图形，且仅对应唯一正确选项。容不得半点概率性的模糊。

一道合格的解题过程应该是这样的：

锁定考点范围 → 提出规律假设 → 用所有题干图形逐一验证 → 
发现不符立刻推翻 → 换下一个考点重新假设 → 
找到100%适配的规律 → 用该规律匹配所有选项 → 
排除干扰项 → 锁定唯一解

这是一个可证伪、可回溯、可纠错的闭环推理过程。

而大模型的生成是单向、线性、无回溯的。它只会基于输入直接生成“概率最高的规律+答案”，没有严格的全量验证环节，更不会主动推翻错误假设。

结果就是：AI经常输出一个“半对规律”——只能解释部分题干图形，或者多个选项都能匹配。这在公考中是致命的，因为命题人最擅长的就是设计这种陷阱。

第五层：训练数据的结构性缺失

“那多给AI喂点图形推理的训练数据，不就行了吗？”

没那么简单。

首先，大模型的预训练语料中，公考图形推理这类内容的占比微乎其微。全球互联网上的图文数据，绝大多数是“自然图像+语义描述”（海滩日落、猫狗萌宠、产品图片），而不是“抽象几何图形+逻辑推理链”。

其次，哪怕模型在微调中见过大量公考真题，它学到的也只是“这张图对应的正确选项是C”的统计关联，而不是解析中的推理过程。

这就解释了为什么：

原题能做对（靠记忆匹配或搜索）
稍微变一变（换个元素、改个数字）就立刻失效

最后，图形推理的核心推理过程，大多是非语言化的视觉空间操作。“把这个图形在脑中旋转90度”——这个动作你很难用语言完整描述出来。哪怕强制AI输出思维链（Chain of Thought），它也只是在“用语言假装推理”，实际上并没有完成真正的空间操作。

训练数据分布：结构性缺失

为什么它们选择“作弊”？

回到开头的现象：为什么GPT 5.4 Pro和豆包会直接上网搜答案？

这恰恰说明了模型“知道”自己不会。

当AI拿到一张图形推理题时，它的视觉模块反馈给中枢的特征是混乱的、置信度极低的。与此同时，它的OCR能力极强，瞬间就能识别出题目中的格式特征（九宫格排版、“从所给选项中选择”这类关键词）。

它立刻意识到：这是一道标准化考试题，互联网上很可能有原题和答案。

既然自己硬算的置信度很低，而调用搜索引擎可能直接命中原题、获得100%的正确率——模型自然会选择这条“阻力最小、奖励最高”的路径。

这不是bug，这是RLHF（人类反馈强化学习）训练出来的“聪明”行为。只不过在我们眼里，这是赤裸裸的作弊。

断网之后，它们就无处遁形了。

作弊行为的逻辑链

破局之路在哪里？

学术界目前有一个共识：要让AI真正攻克抽象视觉推理（如著名的ARC挑战赛），单纯靠增加参数量是远远不够的。

可能的方向是神经符号系统（Neuro-symbolic AI）：

让模型遇到图形推理题时，不再“用肉眼硬看”，而是先自动调用一段精确的视觉分析程序（比如OpenCV），提取图形的面数、交点、对称轴坐标等结构化特征，转化为绝对准确的符号矩阵，然后再用大模型的逻辑能力去推演数字规律。

CVPR 2023上就有一个专门针对Raven矩阵的求解器，用“感知模块抽属性 + 代数符号推理”的混合架构，在I-RAVEN数据集上达到了93.2%的准确率——高于人类的84.4%。

这说明问题不在于“机器天生做不了”，而在于“把这件事端到端地交给通用聊天模型”本来就不合适。

未来解决方案：神经符号系统

写在最后

公考图形推理，这个看起来“不过是几道找规律的小题”的任务，却意外地成为了当前AI能力边界的一面镜子。

它精准地击中了大模型的三大软肋：

视觉感知的精度不够——看不准
空间推理的机制缺失——想不动
刚性演绎的能力缺位——推不严

这也提醒我们：AI的“聪明”和人类的“聪明”，可能根本不是同一种东西。

它能在海量文本中找到统计规律，能流畅地生成代码和文章，能通过需要大量知识储备的专业考试——但面对一个需要“真正看懂图、真正在脑中操作图、真正用逻辑验证规律”的简单任务，它依然束手无策。

或许，这正是人类智能最后的护城河之一。

至少在2026年的今天，公考图形推理，依然是属于人类考生的战场。

如果你也测试过AI做图形推理，欢迎在评论区分享你的“翻车”经历。