豆包语音识别模型2.0发布：能听懂字看懂图支持13种外语

行业

12月5日消息，今日，火山引擎发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0)，依托Seed混合专家大语言模型架构构建。

据介绍，2.0版本模型推理能力提升，可以通过深度理解上下文完成精准识别，上下文整体关键词召回率提升20%。

同时支持多模态视觉识别，不仅“听懂字”还能“看懂图”，通过单图和多图等视觉信息输入让文字识别更精准。

此外，2.0版本还支持日语、韩语、德语、法语等 13 种海外语种的精准识别。

并且重点针对专有名词、人名、地名、品牌名称及易混淆多音字等复杂场景进行了升级。

以历史人物生平讨论场景为例，当用户提及苏辙贬谪地“筠(yún)州”时，如果模型缺乏推理能力会易将其误识别为同音的“云州”“郓州”等。

而豆包语音识别模型2.0可依托“当前讨论苏轼、苏辙”这一背景，即便上下文从没出现过“筠州”，也能通过逻辑推理锁定用户所指的特定地名，最终实现对多音字地名的精准识别。

目前，豆包语音识别模型2.0已上线火山方舟体验中心并对外提供API服务。

来源：机器人观察网

作者：机器人观察网

编辑：机器人观察网

本文链接: http://robotpx.com/hy/258.html

声明：除非注明，本站文章均为机器人观察网原创或编译，转载时请注明文章作者和“来源：机器人观察网”，机器人观察网尊重行业规范，每篇文章都标有明确的作者和来源。文章为作者观点，不代表机器人观察网立场。部份图片来自网络，如有侵权，请联系我们删除！

AI智能体重构传播链路，媒体管家上海软闻以技术驱动媒体公关业务逆势增长
在流量红利见顶与注意力极度碎片化的双重挑战下，2026年春节后的公关传播市场正经历着一场深刻的“洗牌”。当传统的人工邀约模式因效率低下逐渐被品牌方摒弃时，媒体管...
还能这么“玩”？2025首届国际人形机器人街舞邀请赛高光时刻
机器人跳街舞，这是认真的吗？这不是一场传统的街舞Show，甚至舞台上“人”的元素都被弱化了，但它就是被朋友圈刷爆了，被媒体圈围观了，被大众们圈粉了！没错，街舞还...
电升油降！纯电动力连续4月成大三排SUV市场销冠蔚来立大功
中汽终端公布了大三排SUV市场各动力类型的最新销量。数据显示，2025年12月纯电大三排SUV销量54518台，插混销量49760台，燃油销量38123台，增程...