

这项由微软研究院(印度班加罗尔)与印度理工学院海德拉巴校区联合开展的研究,于2026年4月发表,论文编号为arXiv:2604.16054v1,有兴趣深入了解的读者可通过该编号查询完整论文。研究团队构建了一套名为"Mind's Eye(心眼)"的视觉认知基准测试,用以系统评估当前最先进的多模态大型语言模型在视觉空间推理方面的真实能力。
当你第一次在入职测试或智力测验中遇到那种"下图中哪个折叠后会变成正方体"的题目时,你可能会觉得稍微有点费神,但基本上几秒钟内就能作出判断。现在,研究团队把这类题目摆到了GPT-4o、Gemini-2.5 Pro、GPT-o3这些被誉为"最强AI"的系统面前,结果令人大跌眼镜——人类平均正确率达到了80%,而这些顶尖模型的最高成绩不足50%,有些甚至仅仅略高于蒙对的概率。这究竟是怎么回事?这些AI在语言对话上无所不能,为什么在这类"看图思考"的任务上表现得如此拙劣?这正是这项研究想要彻底搞清楚的核心问题。
一、 为什么要专门测试AI"看懂图形"的能力
现代AI模型在很多视觉任务上表现抢眼——认出图片里的猫、读出照片里的文字、描述一张风景照里有什么——这类工作它们做得非常出色。但这类任务本质上是"认出来",就像你看到一张老朋友的脸,立刻就知道是谁。
然而人类处理视觉信息还有另一类能力,更像是在脑子里搭乐高积木。当你看一张展开的纸板平面图,你需要在脑海中把它"折起来",判断它能不能拼成一个盒子;当你看一个三维积木图案,你需要把它在脑子里转动,确认它的另一面长什么样。这种能力在认知科学中被称为"视觉空间推理"或"流体视觉智能",是人类智力中相当核心的一部分,也是工程师、外科医生、建筑师等职业每天都在高度依赖的能力。
研究团队发现,现有的AI评估体系有两个严重的盲点。第一个盲点是,几乎没有人专门针对这种"在脑海中操作图形"的能力进行系统测试,大多数评测都停留在"认出来"的层面。第二个盲点更隐蔽:很多视觉推理测试其实可以被AI用语言技巧来"绕过",模型不需要真正理解图形,只需要识别出一些表面特征,再结合它从大量文本训练中积累的语言知识,就能猜出大概正确的答案,这就好像学生通过押题套路蒙对了考题,而不是真正学会了解题方法。
正因如此,这支团队决心造一套无法靠"语言知识"取巧的纯视觉推理测试,让AI无处可藏。
二、 这套测试是如何设计的:一个专为挖出AI弱点的考试体系
研究团队将人类视觉认知能力拆解成三个维度,并以此构建了整个测试框架,他们将其命名为"ART分类体系",三个字母分别代表抽象(Abstraction)、关系(Relation)和转变(Transformation)。
抽象维度考查的是从一堆看似不同的图形中找出它们共同隐藏规律的能力,就像你看五张画面截然不同的画,要找出它们共同遵循的某种视觉原则,再判断第六张是否违反了这个原则。关系维度考查的是在两组视觉结构之间识别对应关系的能力,类似于语言中的类比——"A之于B,如同C之于D"这种逻辑,但换成了视觉图形的版本。转变维度是三者中最接近"脑内模拟"的,它要求你在头脑中执行一个实际的物理操作:把一张纸折叠起来再看孔的位置会在哪里,或者把一个三维积木结构旋转90度后它长什么样。
基于这三个维度,研究团队精心设计了八种具体任务。在抽象维度下有两种:一是"视觉关系抽象",给出五个符合某抽象概念的图形和一个不符合的,要求找出异类;二是"层次模式等价",基于分形树、嵌套圆形等递归结构,要求识别哪一个图案违反了递归规律。在关系维度下有三种:一是"动态结构对应",追踪两个图形在时间序列中各自遵循的变换规律,预测下一帧的状态;二是"视觉概念滑移",从一组图形中找出不遵循多数图形所共享的抽象视觉概念的那一个;三是"对称结构",从四个线条图案中找出那个不具备其他三个所共有的对称性质的图案。在转变维度下有三种:一是"心理转变",从四个候选旋转结果中找出正确的三维旋转;二是"纸张折叠",根据一个纸张折叠打孔的步骤序列,判断展开后孔洞的位置;三是"心理组合",判断一个平面展开图折叠后会变成哪个三维立体形状。
这八种任务全部以程序化方式自动生成图像,所有图形都是纯粹的几何形状,不包含任何现实世界的物体,也不依赖任何领域知识,确保AI无法利用它从文字训练中积累的"世界知识"来投机取巧。每道题都包含四到六个选项,其中的错误选项(干扰项)是精心设计的,专门针对特定类型的推理错误——比如把旋转结果和镜像反射混淆的选项,或者折叠次数算错的选项。这样一来,从模型选了哪个错误选项,研究者就能判断出它是在哪个思维环节出了问题,而不仅仅是知道它答错了。整套测试共包含800道题,每种任务各100道,难度分布涵盖简单、中等和困难三个层级。
为了确保难度级别的划定是可靠的,团队还邀请了30名年龄在20到40岁之间的普通成年人参与人类基线测试,每人完成覆盖所有八种任务的完整测试。难度标定的方法相当严格:如果五名参与者中全部答对,那道题就被标为"简单";如果只有零到一人答对,就标为"困难";介于两者之间的标为"中等"。
三、 测试结果:AI的成绩单令人尴尬
测试结果用一句话概括就是:人类游刃有余,AI集体挂科。
在所有参与测试的18个模型中,包括来自OpenAI的GPT-4o和GPT-o3、谷歌的Gemini-2.5 Pro,以及数十亿参数规模的各种开源模型,没有任何一个达到50%的总体正确率。与此同时,参与测试的普通人平均达到了80%的正确率。在具体任务上,人类在"层次模式等价"这道题上表现最好,达到了88%的正确率;即便是表现最弱的"视觉关系抽象"任务,人类也有68%的正确率。
相比之下,表现最好的Gemini-2.5 Pro在整体上仍然远低于人类水平,而且在不同任务之间的表现差距极大。在需要"脑内折叠"和"空间旋转"的转变类任务上,几乎所有模型的成绩都只比随机乱猜高出一点点。以纸张折叠任务为例,随机猜测的正确率是25%,而大多数模型的正确率在24%到32%之间徘徊——这意味着这些模型基本上在乱猜。
在抽象类任务上,视觉关系抽象任务的结果更加触目惊心:随机猜测的基准线是16.67%(因为有六个选项),而大量模型的得分在16%到25%之间,有些甚至比随机猜测还差。这说明这些模型不仅没有学会如何做这类题,它们的"猜测方式"甚至是反向的——某种意义上说,它们学到了错误的偏见。
关系类任务的表现稍微好一些,但也没有哪个模型突破了35%的正确率。动态结构对应任务——需要追踪图形变换规律并预测下一帧——对于模型来说格外困难,因为它需要理解图形随时间的动态变化,而不仅仅是比较静止的画面。
一个细节格外值得关注:在模型规模和性能的关系上,更大的模型确实通常比更小的模型表现好,但这种改善是不均匀的。一些中等规模的模型(比如InternVL3-8B和LLaMA-3.2-11B)在某些任务上的表现居然与远大于它们的模型相当甚至更好。这说明单纯把模型做大并不能从根本上解决这类视觉推理问题,可能需要在训练方式和架构设计上进行更本质的改变。
四、 为什么AI在这件事上这么差劲:深入挖掘失败原因
测试结果只是表面现象,研究团队随后深入分析了AI失败的内在机制,挖出了三个层次的根本原因。
第一个原因是"眼睛看到了,但脑子没转起来"。研究团队做了一项精细的注意力分析,追踪模型在生成答案时的"视觉注意力"分布——也就是模型在"看"图片时,它的注意力集中在哪些区域。结果发现,注意力的集中程度和答对与否确实存在正相关,但这种关联并不牢固。在注意力最集中的那组题目中,模型的正确率依然远低于人类水平,远低于80%。更有意思的是,当模型答对时,它的注意力明显更集中在正确答案的图形区域;但当它答错时,它对被选的错误选项和正确选项的注意力分配几乎没有区别。这说明模型"看到了"正确的地方,但不知道该如何利用它看到的信息做出正确的推理——就好像一个人虽然盯着棋盘看,但并不真正理解棋局的走向。
第二个原因是"难度对AI毫无意义"。这是整个研究中最令人震惊的发现之一。对于人类来说,简单题和困难题之间存在巨大差距:人类在简单题上能答对85%到95%,但困难题的正确率会跌到10%到25%。这种随难度升高而系统性下降的曲线,恰恰说明人类真的在"思考"这些题目,而且思考量随难度增加而增加。然而AI模型的表现曲线几乎是一条水平线——简单题和困难题的正确率相差无几,通常只在2%到8%之间波动,有时候甚至在某些困难题上表现比简单题还好。这种"难度无感"的现象说明AI并不是"难题做不好、简单题做得好",而是根本没有执行解这类题所需要的基本认知操作,无论题目难不难,它都在做同样层次的、不充分的处理。
第三个原因是"嘴上说的和脑子想的不一样"。研究团队详细分析了模型的推理过程文本,发现了一种被称为"误绑定"的现象。以心理转变任务(识别正确旋转结果)为例,在Qwen-7B模型产生错误答案的案例中,有高达61.1%的情况是这样的:模型在推理文本中正确描述了应该如何旋转这个三维形状,但最终选出来的答案却是错误的。换句话说,模型的"语言推理过程"和它的"视觉判断结果"出现了断裂,两者互不搭理。模型可以流利地说出正确的旋转逻辑,但这段文字描述没有真正驱动它去正确地识别视觉图像。这就好像一个人能够口头描述"向左转再向右转"的操作步骤,但当真正需要在脑海中执行这个操作并与图片对照时,却完全失败了。
研究团队还注意到另一类有趣的失败:模型有时会把题目里的抽象几何图形强行套用到现实世界的知识上。比如在对称结构任务中,模型把一些由线条构成的对称图形解释成了"分子链结构",并开始用化学知识分析它们,而不是从几何对称性的角度来思考。这种"领域知识干扰"恰恰印证了研究团队最初的担忧:AI很难像人类一样从视觉图形的纯几何属性出发进行推理,它总是倾向于把视觉输入"翻译"成它在文字训练中见过的某种已知概念。
五、 给模型换换"提示词"能救它吗
既然发现了这些问题,研究团队自然也尝试了各种"救治方案",其中最直接的一类就是调整给模型的指令方式,看看换个提问角度能不能激发出模型更好的表现。
团队测试了四种不同的提示策略。第一种是"思维链"提示,要求模型在给出答案前先一步步写出推理过程。第二种是"元任务框架"提示,在问题前明确告诉模型这是一道什么类型的认知测试,比如"这是一道心理旋转题,你需要想象把这个三维形状在空间中转动"。第三种是"逐步分解"提示,给出明确的步骤指引,比如"先描述每个图形,然后识别变换操作,最后排除不可能的选项"。第四种是"提示线索"提示,在问题中嵌入视觉属性的提示词,引导模型关注特定特征。
结果显示,这些提示策略的效果非常不均匀,而且关键在于题目类型,而不是说哪种策略普遍有效。在抽象类任务上,元任务框架和逐步分解提示确实带来了大约1.3个百分点的提升,说明当题目本质上是"归纳规律"时,给模型一个明确的框架能帮助它更有条理地推导。然而在转变类任务上——也就是需要在脑海中折叠、旋转的那些题目——几乎所有替代提示策略都导致了性能下降,其中"提示线索"策略导致了约0.9个百分点的退步。这意味着对于真正需要内部模拟视觉操作的题目,任何外部的语言框架都帮不上忙,甚至会起反作用,因为这类任务根本上需要的是执行一个"动作",而不是遵循一个"规则"。
研究团队还尝试了更系统化的提示词优化方法,利用一套自动迭代改进提示词的框架,为模型生成了若干优化版提示。结果令人清醒:最好的优化提示版本相比基础版最多带来了不到10%的绝对提升,而且核心错误模式完全没有改变。这证明模型的失败不是因为"没有被好好引导",而是因为缺乏执行这些视觉认知操作的底层能力。
六、 这项研究放在整个领域里意味着什么
在这项研究出现之前,学界已经有不少针对AI视觉推理的评测工具。比如RAVEN数据集测试矩阵式的规律归纳,Bongard-LOGO测试概念归纳能力,CLEVR测试空间关系问答,还有VisFactor直接把心理学标准认知测试数字化。但研究团队指出,这些工具都有不同程度的局限。
Mind's Eye与这些前辈测试的核心区别在于它同时满足了六个条件,而据研究团队所知,没有其他评测工具能同时做到这六点。第一,它有形式化的心理测量分类体系,基于认知科学理论(具体来说是Carroll的流体智力理论)明确定义了测试涵盖的认知构件。第二,测试任务来源于已验证的心理测量学经典测试,包括Vandenberg & Kuse心理旋转测试和CogAT纸折叠测试。第三,干扰项是根据特定认知错误类型定制设计的,而非随机选取,这使得错误分析有了更精细的粒度。第四,整个测试不依赖任何领域知识,从根本上堵住了语言捷径。第五,所有题目通过参数化程序生成,可以精确控制难度,也可以几乎零成本地扩展出更多题目。第六,测试包含了人类基线数据,提供了真正有意义的比较参照。
另外值得一提的是,这套测试的题目全部用可缩放矢量图形格式程序化生成,这确保了纯几何精确性,同时也意味着测试规模可以随需求增长——目前研究团队已经准备好了每种任务2500道题、共2万道题的扩展版本,专门用于模型训练研究。
研究团队还特别警告了一类解读风险,值得单独提及。由于这套测试的灵感来自人类认知测试,很容易让人产生一种想法:当模型答对了某道题,就说明它"真正理解了空间关系"或"具备了类似人类的心理旋转能力"。研究团队明确反对这种拟人化解读,他们强调应该把模型的输出理解为在受控刺激下的行为表现特征,而不是内在认知机制的证明。模型可能通过完全不同于人类的途径偶然答对,同样,答错也不代表它在某种意义上"理解了什么但做不到"。
说到底,这项研究最核心的发现可以用一句话来概括:当前的AI在视觉认知上表现出的弱点不是"难题做不好",而是在最基础的"脑内视觉操作"层面就根本没能运转起来。无论题目简单还是困难,无论给它什么样的提示,模型的表现都维持在一个低得让人尴尬的平台上,而人类的表现则随着题目难度有条不紊地起伏变化。
这意味着,如果未来的AI要真正拥有工程师或外科医生那种"在脑子里操作形状"的能力,光靠现有的训练范式和更大的参数规模恐怕是不够的。研究团队认为,这可能需要在模型架构层面引入专门处理空间工作记忆和视觉变换操作的机制,也可能需要重新思考如何让模型真正"执行"视觉操作,而不仅仅是"描述"视觉操作。当前AI的视觉能力还更像是一个博闻强记的鉴赏家,能认出各种已见过的视觉模式,但还不像一个工程师,能在头脑中自由地搭建和拆解形状。这个差距在Mind's Eye面前暴露得清清楚楚。
有兴趣深入探索这项研究的读者,可以通过论文编号arXiv:2604.16054查阅完整原文,研究团队也已在GitHub上开放了基准测试的代码和数据集。
Q&A
Q1:Mind's Eye基准测试和其他AI视觉测试有什么本质区别?
A:Mind's Eye的核心区别在于它测的不是"认出图形",而是"在脑海中操作图形"——比如折叠、旋转、找规律。它同时满足六个条件:有理论化的认知分类框架、题目来源于经典心理测量工具、干扰选项是专门针对特定认知错误设计的、完全不依赖领域知识、可以程序化精确控制难度、并且包含人类基线数据。这六点同时满足,在现有评测工具中是唯一的。
Q2:为什么更换提示词策略没法提升AI在视觉空间推理上的表现?
A:研究发现,对于需要真正"脑内模拟"视觉操作的任务,换提示词不仅没有帮助,有时反而让结果更差。原因在于这类任务根本上要求的是执行一个动作(在脑海中旋转、折叠),而不是遵循一套语言规则。AI缺乏的是底层的视觉操作执行能力,而提示词只能改变它思考问题的框架,无法补充它根本不具备的能力。
Q3:AI在视觉空间推理上失败的最根本原因是什么?
A:研究揭示了三层原因。首先,模型会"看"到正确的图形区域,但不知道如何利用这些视觉信息做推理。其次,AI的表现完全不随题目难度变化——简单题和困难题的正确率几乎相同,说明它根本没有在真正"思考"这些题目。最关键的是一种叫"误绑定"的现象:模型的语言推理过程和视觉判断结果互不搭理,它能说出正确的操作步骤,但这段话根本没驱动它在视觉层面做出正确判断。
启泰网提示:文章来自网络,不代表本站观点。