豆包语音识别模型2.0发布:能听懂字看懂图 支持13种外语
- 2025-12-05 16:42:29
12月5日消息,今日,火山引擎发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0),依托Seed混合专家大语言模型架构构建。
据介绍,2.0版本模型推理能力提升,可以通过深度理解上下文完成精准识别,上下文整体关键词召回率提升20%。
同时支持多模态视觉识别,不仅“听懂字”还能“看懂图”,通过单图和多图等视觉信息输入让文字识别更精准。

此外,2.0版本还支持日语、韩语、德语、法语等 13 种海外语种的精准识别。
并且重点针对专有名词、人名、地名、品牌名称及易混淆多音字等复杂场景进行了升级。
以历史人物生平讨论场景为例,当用户提及苏辙贬谪地“筠(yún)州”时,如果模型缺乏推理能力会易将其误识别为同音的“云州”“郓州”等。
而豆包语音识别模型2.0可依托“当前讨论苏轼、苏辙”这一背景,即便上下文从没出现过“筠州”,也能通过逻辑推理锁定用户所指的特定地名,最终实现对多音字地名的精准识别。
目前,豆包语音识别模型2.0已上线火山方舟体验中心并对外提供API服务。
相关文章
最新
- 3天前
死了么APP否认圈一波钱就跑路:要不然也不会只卖10%的股份
- 3天前
“智绘低空新蓝图・共启万亿新赛道”2026第三届低空经济大会暨低空产业链博览会9月举办聚焦“一带一路”产业协同
- 3天前
百镜大战再添新军 思问AI眼镜如何脱颖而出
- 3天前
以“正向设计”蓄势品质突围 美的威灵机器人部件领创核心部件国产化突破
- 3天前
超越特斯拉!比亚迪问鼎2025年全球纯电销量冠军
- 3天前
还能这么“玩”?2025首届国际人形机器人街舞邀请赛高光时刻
- 3天前
2026年元旦起 东航国内宽体机航班Wi-Fi全免费
- 3天前
十二年深耕再添暖举 加勒电气联动特殊群体打造公益开放日
- 3天前
中国电信宣布云智手机公测版正式上线!旧手机也能玩3A级大作
- 3天前
比亚迪“开”进公务员生活圈
- 3天前
新款本田飞度实车亮相:大眼变眯眯眼 明年一季度上市
- 3天前
朝阳发布智能机器人“政策包+场景清单”:首批12大机器人应用场景亮相,创新应用基地开园
荐读
-
网信部门查处一批APP:AI生成合成内容标识违法违规
“网信中国”发文称,网信部门依法集中查处一批存在人工智能生成合成内容标识违法违规问题的移动互联网应用程序。网信部门依法依规予以约谈、责令限期改正、下架下线等处置...
-
还能这么“玩”?2025首届国际人形机器人街舞邀请赛高光时刻
机器人跳街舞,这是认真的吗?这不是一场传统的街舞Show,甚至舞台上“人”的元素都被弱化了,但它就是被朋友圈刷爆了,被媒体圈围观了,被大众们圈粉了!没错,街舞还...
-
朵朵棉携手代言人于适盛大启幕 “与适同行”首次线下见面会
聚光灯下,演员于适与粉丝的每一次互动都引发了浪潮般的欢呼,而朵朵棉品牌创始人胡总在台下注视着这一切,心中浮现的是品牌创立十四年来“回归本初”的漫长旅程。2025...





