豆包语音识别模型2.0发布:能听懂字看懂图 支持13种外语
- 2025-12-05 16:42:29
12月5日消息,今日,火山引擎发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0),依托Seed混合专家大语言模型架构构建。
据介绍,2.0版本模型推理能力提升,可以通过深度理解上下文完成精准识别,上下文整体关键词召回率提升20%。
同时支持多模态视觉识别,不仅“听懂字”还能“看懂图”,通过单图和多图等视觉信息输入让文字识别更精准。

此外,2.0版本还支持日语、韩语、德语、法语等 13 种海外语种的精准识别。
并且重点针对专有名词、人名、地名、品牌名称及易混淆多音字等复杂场景进行了升级。
以历史人物生平讨论场景为例,当用户提及苏辙贬谪地“筠(yún)州”时,如果模型缺乏推理能力会易将其误识别为同音的“云州”“郓州”等。
而豆包语音识别模型2.0可依托“当前讨论苏轼、苏辙”这一背景,即便上下文从没出现过“筠州”,也能通过逻辑推理锁定用户所指的特定地名,最终实现对多音字地名的精准识别。
目前,豆包语音识别模型2.0已上线火山方舟体验中心并对外提供API服务。
相关文章
最新
- 3天前
换新赋能,FIBRO转台引领工业部件再利用
- 3天前
火星贡酒暨火星集市循环经济+火星盾品牌发布会 联合国和谐基金会秘书长出席会议
- 3天前
媒体管家深度详解专家科普媒体直播破局医疗营销“信任围墙”
- 3天前
2026礼月年度发布会:以“专业、科技、温度”引领家政行业新变革
- 3天前
科技赋能年味,好物点亮新春|2026年“江苏省科技小院”优质农产品年货大集开街
- 3天前
进迭时空发布 K3 芯片 以 RISC-V 架构赋能智能计算新场景
- 3天前
RTC(固驰)亚太运营中心在宁启幕深化布局助推中国汽车后市场服务升级
- 3天前
Robotiq 推出适用于 2F 自适应夹爪的触觉传感指尖, 为具身智能 (Physical AI) 注入“触觉”能力
- 3天前
工信部发布2025年全国宽带概况:家庭户均553.4Mbps
- 3天前
李想:理想一定做人形机器人
- 3天前
艺术体操新星齐聚首钢园 谱写中俄友好与体教融合新篇章
- 3天前
用AI守护工人健康:索菲丝发布“灯塔工厂计划”,推动有温度的智能升级
荐读
-
电升油降!纯电动力连续4月成大三排SUV市场销冠 蔚来立大功
中汽终端公布了大三排SUV市场各动力类型的最新销量。数据显示,2025年12月纯电大三排SUV销量54518台,插混销量49760台,燃油销量38123台,增程...
-
还能这么“玩”?2025首届国际人形机器人街舞邀请赛高光时刻
机器人跳街舞,这是认真的吗?这不是一场传统的街舞Show,甚至舞台上“人”的元素都被弱化了,但它就是被朋友圈刷爆了,被媒体圈围观了,被大众们圈粉了!没错,街舞还...
-
网信部门查处一批APP:AI生成合成内容标识违法违规
“网信中国”发文称,网信部门依法集中查处一批存在人工智能生成合成内容标识违法违规问题的移动互联网应用程序。网信部门依法依规予以约谈、责令限期改正、下架下线等处置...






