超越Gemini3、GPT5.1！阿里千问登顶空间推理全球冠军

行业

空间推理基准测试SpatialBench更新了最新一期榜单，阿里千问的视觉理解模型Qwen3-VL、Qwen2.5-VL位列头两名，超越Gemini 3、GPT-5.1、Claude Sonnet4.5等国际顶尖模型。

SpatialBench榜单显示，Qwen3-VL-235B和Qwen2.5-VL-72B分别斩获13.5和12.9分，领先于Gemini 3.0 Pro Preview(9.6) 、GPT-5.1(7.5)、Claude Sonnet 4.5等海外顶尖模型。

然而，AI大模型的整体表现距离人类仍有差距，人类基准线约为80分左右，可专业处理电路分析、CAD 工程和分子生物学等复杂空间推理任务，目前大模型还无法完全自动化完成此类工作。

据悉，Qwen2.5-VL于2024年开源，Qwen3-VL是阿里在2025年开源的新一代视觉理解模型。

Qwen3-VL在视觉感知和多模态推理方面实现重大突破，在32项 核心能力测评中超过Gemini2.5-Pro和GPT-5，不但可调用抠图、搜索等工具完成“带图推理”，也可以凭借一张设计草图或一段小游戏视频直接“视觉编程”。

同时，Qwen3-VL专门增强了3D检测能力，可以更好地感知空间，基于Qwen3-VL，机器人更好地判断物体方位、视角变化和遮挡关系，实现远处苹果的精准抓取。

目前，Qwen3-VL已开源不同版本，包括2B、4B、8B、32B等密集模型以及30B-A3B、235B-A22B等MoE模型，每个模型都有指令版和推理版两款，是当下最受企业和开发者欢迎的开源视觉理解模型。同时，Qwen3-VL模型也已上线千问APP，用户可免费体验。

据了解，SpatialBench是一项近年来兴起的第三方空间推理基准测试榜单，主要聚焦多模态模型在空间、结构、路径等方面的综合推理能力，被AI社区视为是衡量“具身智能”进展的新兴测试标准之一。

SpatialBench不仅测试模型已知的知识，还测试模型在二维和三维空间中“感知”和操控抽象概念的能力，这对具身智能的落地尤为关键。

来源：机器人观察网

作者：机器人观察网

编辑：机器人观察网

本文链接: http://robotpx.com/hy/247.html

声明：除非注明，本站文章均为机器人观察网原创或编译，转载时请注明文章作者和“来源：机器人观察网”，机器人观察网尊重行业规范，每篇文章都标有明确的作者和来源。文章为作者观点，不代表机器人观察网立场。部份图片来自网络，如有侵权，请联系我们删除！

AI智能体重构传播链路，媒体管家上海软闻以技术驱动媒体公关业务逆势增长
在流量红利见顶与注意力极度碎片化的双重挑战下，2026年春节后的公关传播市场正经历着一场深刻的“洗牌”。当传统的人工邀约模式因效率低下逐渐被品牌方摒弃时，媒体管...
还能这么“玩”？2025首届国际人形机器人街舞邀请赛高光时刻
机器人跳街舞，这是认真的吗？这不是一场传统的街舞Show，甚至舞台上“人”的元素都被弱化了，但它就是被朋友圈刷爆了，被媒体圈围观了，被大众们圈粉了！没错，街舞还...
网信部门查处一批APP：AI生成合成内容标识违法违规
“网信中国”发文称，网信部门依法集中查处一批存在人工智能生成合成内容标识违法违规问题的移动互联网应用程序。网信部门依法依规予以约谈、责令限期改正、下架下线等处置...