超越Gemini3、GPT5.1!阿里千问登顶空间推理全球冠军
- 2025-11-26 17:29:36
空间推理基准测试SpatialBench更新了最新一期榜单,阿里千问的视觉理解模型Qwen3-VL、Qwen2.5-VL位列头两名,超越Gemini 3、GPT-5.1、Claude Sonnet4.5等国际顶尖模型。
SpatialBench榜单显示,Qwen3-VL-235B和Qwen2.5-VL-72B分别斩获13.5和12.9分,领先于Gemini 3.0 Pro Preview(9.6) 、GPT-5.1(7.5)、Claude Sonnet 4.5等海外顶尖模型。

然而,AI大模型的整体表现距离人类仍有差距,人类基准线约为80分左右,可专业处理电路分析、CAD 工程和分子生物学等复杂空间推理任务,目前大模型还无法完全自动化完成此类工作。
据悉,Qwen2.5-VL于2024年开源,Qwen3-VL是阿里在2025年开源的新一代视觉理解模型。
Qwen3-VL在视觉感知和多模态推理方面实现重大突破,在32项 核心能力测评中超过Gemini2.5-Pro和GPT-5,不但可调用抠图、搜索等工具完成“带图推理”,也可以凭借一张设计草图或一段小游戏视频直接“视觉编程”。
同时,Qwen3-VL专门增强了3D检测能力,可以更好地感知空间,基于Qwen3-VL,机器人更好地判断物体方位、视角变化和遮挡关系,实现远处苹果的精准抓取。
目前,Qwen3-VL已开源不同版本,包括2B、4B、8B、32B等密集模型以及30B-A3B、235B-A22B等MoE模型,每个模型都有指令版和推理版两款,是当下最受企业和开发者欢迎的开源视觉理解模型。同时,Qwen3-VL模型也已上线千问APP,用户可免费体验。
据了解,SpatialBench是一项近年来兴起的第三方空间推理基准测试榜单,主要聚焦多模态模型在空间、结构、路径等方面的综合推理能力,被AI社区视为是衡量“具身智能”进展的新兴测试标准之一。
SpatialBench不仅测试模型已知的知识,还测试模型在二维和三维空间中“感知”和操控抽象概念的能力,这对具身智能的落地尤为关键。
相关文章
最新
- 3天前
死了么APP否认圈一波钱就跑路:要不然也不会只卖10%的股份
- 3天前
“智绘低空新蓝图・共启万亿新赛道”2026第三届低空经济大会暨低空产业链博览会9月举办聚焦“一带一路”产业协同
- 3天前
百镜大战再添新军 思问AI眼镜如何脱颖而出
- 3天前
以“正向设计”蓄势品质突围 美的威灵机器人部件领创核心部件国产化突破
- 3天前
超越特斯拉!比亚迪问鼎2025年全球纯电销量冠军
- 3天前
还能这么“玩”?2025首届国际人形机器人街舞邀请赛高光时刻
- 3天前
2026年元旦起 东航国内宽体机航班Wi-Fi全免费
- 3天前
十二年深耕再添暖举 加勒电气联动特殊群体打造公益开放日
- 3天前
中国电信宣布云智手机公测版正式上线!旧手机也能玩3A级大作
- 3天前
比亚迪“开”进公务员生活圈
- 3天前
新款本田飞度实车亮相:大眼变眯眯眼 明年一季度上市
- 3天前
朝阳发布智能机器人“政策包+场景清单”:首批12大机器人应用场景亮相,创新应用基地开园
荐读
-
网信部门查处一批APP:AI生成合成内容标识违法违规
“网信中国”发文称,网信部门依法集中查处一批存在人工智能生成合成内容标识违法违规问题的移动互联网应用程序。网信部门依法依规予以约谈、责令限期改正、下架下线等处置...
-
还能这么“玩”?2025首届国际人形机器人街舞邀请赛高光时刻
机器人跳街舞,这是认真的吗?这不是一场传统的街舞Show,甚至舞台上“人”的元素都被弱化了,但它就是被朋友圈刷爆了,被媒体圈围观了,被大众们圈粉了!没错,街舞还...
-
朵朵棉携手代言人于适盛大启幕 “与适同行”首次线下见面会
聚光灯下,演员于适与粉丝的每一次互动都引发了浪潮般的欢呼,而朵朵棉品牌创始人胡总在台下注视着这一切,心中浮现的是品牌创立十四年来“回归本初”的漫长旅程。2025...





