当前位置:首页 > 站长资讯 > 正文内容

豆包语音识别模型2.0发布:能听懂字看懂图 支持13种外语

a811625532个月前 (12-05)站长资讯11

12月5日,火山引擎正式推出其新一代语音识别系统——豆包语音识别模型2.0。新版本在核心架构与技术能力上实现了显著升级。

据悉,该2.0版本大幅提升了系统的推理与理解能力。通过深度分析对话的上下文语境,其整体关键词的准确捕捉率较以往提升了20%。这意味着系统能够更精准地把握用户表达的真实意图。

此次升级的另一大亮点是引入了多模态识别技术。新系统不仅能处理音频信息,还能结合单张或多张图片等视觉信息进行综合判断,从而实现“既听声音,也看内容”的识别效果,进一步提高了文字转写的准确性。

豆包语音识别模型2.0支持多模态识别

在语种支持方面,新版模型的服务范围进一步扩大,新增了对日语、韩语、德语、法语等共计13种外语的精准识别能力,以满足更广泛的国际化应用需求。

模型支持13种外语识别

针对日常识别中的难点,2.0版本进行了专项优化。系统在处理专有名词、人名、地名、品牌名称以及容易混淆的多音字时,表现出更强的鲁棒性和准确性。

以一个具体场景为例:在讨论历史人物生平时,若用户提到“苏辙贬谪地筠(yún)州”,传统识别技术可能因同音字问题误判为“云州”或“郓州”。而新一代系统能够依据对话中关于“苏轼、苏辙”的背景信息进行逻辑推理,即使前文未出现“筠州”,也能准确锁定这一特定历史地名,实现精准识别。

模型在复杂专有名词识别上的应用示例

目前,豆包语音识别模型2.0已在火山引擎的“火山方舟”体验中心正式上线,并通过API接口向企业和开发者开放服务。

(举报)

  • 相关推荐
关键词:
  • 语音识别
  • 豆包模型
  • 多模态识别
  • 海外语种
  • AI日报:字节推storyMem系统;月之暗面再推多模态新模型;AI眼镜Pickle 1发布

    本期AI日报聚焦多项AI领域进展:字节跳动推出StoryMem系统,提升AI生成视频角色一致性28.7%;月之暗面计划2026年推出多模态模型K2.1/K2.5;智能眼镜Pickle 1实现“无限记忆”与主动交互;清华与OpenBMB开源音频模型评测框架UltraEval-Audio;openai押注语音交互,整合团队重构音频系统;开源工具Antigravity支持多账号切换,突破AI使用限制;元象开源面向泛娱乐场景的大模型XVERSE-Ent;苹果回应“国行版AI功能 *** ”传闻,提醒用户勿通过第三方强行激活。

    ​AI视频生成 ​角色一致性 ​字节跳动
  • 它石智航 WIYH 数据集正式开源:全球首个具身 VLTA 多模态数据,加速具身智能真实世界落地

    它石智航开源了全球首个大规模真实世界具身多模态数据集WIYH,填补了高质量、可泛化、大规模真实世界数据的空白。该数据集采用以人为中心的新范式,破解了数据采集成本高、仿真数据迁移难等痛点,为具身基座模型实现Scaling Law提供了关键语料。WIYH数据集具备真实可靠、丰富多元、全面多模态、规模化等特征,并拥有海量数据,覆盖10余种核心场景全链路任务。它石还�

    ​具身智能 ​多模态数据集 ​VLTA
  • 英国一边牧能识别220个单词:获封最聪明狗狗称号

    《每日邮报》报道,英国7岁边境牧羊犬哈维能记住220个玩具的名字,并按指令准确找回对应物品,被称为英国最聪明的狗狗”。 研究人员称,全球仅约10只狗具备类似能力,目前哈维已受到布达佩斯、朴次茅斯等多家天才犬”研究机构关注。 哈维的主人、52岁的艾琳休

    ​边境牧羊犬 ​聪明狗狗 ​玩具识别
  • 英国一只7岁边牧能识别220个玩具 主人回应

    ,近日,英国7岁边境牧羊犬能记住220个玩具的名字引发热议。 据狗狗主人艾琳介绍,它能按指令准确找回对应物品,还被称为英国最聪明的狗狗”。 研究人员称,全球仅约10只狗具备类似能力,目前它已受到布达佩斯、朴次茅斯等多家天才犬”研究机构关注。 艾琳表示,从幼犬时期起,她就以游戏方式训练它识别单词。

    ​边境牧羊犬 ​聪明狗狗 ​玩具记忆
  • 小米MIX 5来了!真全面屏回归:支持屏下3D人脸识别

    小米MIX系列即将回归,依然主打真全面屏设计。 发布时间会比iphone 18系列更早一些,也就是在9月之前,抢先一步实现屏下3D人脸识别。 从时间段来看,小米MIX 5有望在明年举行的雷军年度演讲上正式亮相。 回顾小米MIX系列,自2021年8月小米MIX 4发布以来,该系列已有较长时间未进行更新。 小米MIX 4搭载了高通骁龙888 Plus芯片,并首次引入了屏下摄像头技术,实现了正面无开�

    ​小米MIX ​真全面屏 ​屏下3D人脸识别
  • 不露脸,只出声,语音厅怎么就成了300亿黑马?

    ​不露脸,只出声,直播日均流水超200万元,一款周边爆卖20.6万元。 当团播还在卷生卷死的时候,纯靠声音的语音厅却悄悄拿下了一个300亿的市场,并捧出了“𝑇.赵太阳”“控”等拥有百万粉丝的语音圈顶流。 不久前,“𝑇.赵太阳”还以听潮阁传媒总裁的身份参与录制了抖音、湖北卫视联合呈现的综艺《我被有趣的工作包围了》。

    ​语音厅 ​直播 ​主播
  • 阿里两款千问语音新模型齐发:动物也能“原声”说人话了!

    阿里今日升级语音模型家族Qwen3-TTS,发布音色创造Qwen3-TTS-VD和音色克隆Qwen3-TTS-VC两款全新模型。 在生成效果上,全新模型的表现显著超越GPT-4o。 Qwen3-TTS新模型可实现DIY声音设计和像素级音色模仿,甚至让动物原生”开口说人话。 其音色自然、效果稳定、生成高效,可大大加速语音大模型在有声小说、AI漫剧、影视配音等多专业领域落地。 其中,音色创造模型支持通过自然�

    ​语音模型 ​Qwen3-TTS ​音色克隆
  • 豆包狂飙,字节AI再亮剑

    中国AI领域的竞争,依旧体现在互联网巨头们的一举一动中。临近年末,各大厂也在密集总结成绩,并放出新的大招。 “豆包大模型日均token使用量突破50万亿,较去年同期增长超过10倍。” 12月18日,火山引擎FORCE原动力大会上,火山引擎总裁谭待宣布的这一数据引发行业关注。截至今年12月,已有超过100家企业客户累计token使用量超过一万亿。 这意味着,字节跳动正式加入�

    ​AI竞争 ​豆包大模型 ​token经济
  • 三星将推出首款AI冰箱:搭载谷歌Gemini 可识别食材、推荐菜谱

    三星电子宣布,将在下月于拉斯维加斯举办的国际消费电子展(CES)前,通过抢先看”活动在美国首次亮相一款全新的Bespoke AI冰箱。 该产品搭载谷歌人工智能模型Gemini,成为首款应用该技术的家用电器,冰箱内置摄像头,可识别冰箱内存储的食品。 三星表示,与此前仅能识别几十种食品的旧

    ​三星电子 ​Bespoke ​AI冰箱
  • 豆包“包圆”互联网

    ​豆包手机才发布半个多月,字节就发布了通用agent模型豆包1.8。这是一个能在真实世界中“做事”的多模态大模型。 豆包1.8可以直接操作你的手机、电脑和浏览器。它能看懂屏幕上的按钮和界面,然后像人一样点击、滑动,帮你完成各种任务。 这是字节一次非常大胆的尝试。要知道,在12月1号的时候,字节才发布了豆包手机。通用agent大模型的推出,让豆包的领地从手机一

    ​豆包1.8 ​通用agent模型 ​多模态大模型

今日大家都在搜的词:

  • 人生重开模拟器
  • 显卡天梯图
  • 国内云服务器哪家好
  • 高通骁龙处理器排名
  • 手机CPU天梯图
  • 单反相机天梯图
  • 安兔兔手机跑分排行榜
  • 笔记本电脑排行榜

热文

  • 3 天
  • 7天
  • 1

    REDMI Turbo 5系列本月发布:将推出Turbo 5 Max机型

  • 2

    AI日报:电信开源MoE大模型TeleChat3;微信推出AI小程序成长计

  • 3

    雷军称直播拆的小米YU7会装回去 但不进入销售渠道

  • 4

    AI日报:百度推百科AI知识图谱新功能;字节否认豆包AI眼镜即将

  • 5

    真我Neo8本月正式发布 “赛博紫”配色外观公布

  • 6

    荣耀亲选iotapk AI通话耳机发布 首发价799元

  • 7

    重磅!小米国际与阿里速卖通达成品牌出海战略合作

  • 8

    雷军2026年第1次健身房打卡:目标今年打卡100次

  • 9

    苹果AirPods Pro 3马年特别款发布 售价1899元

  • 10

    iQOO Z11 Turbo官宣1月15日发布

  • 1

    雷军称小米车轮子撞掉是丢轮保车:一种重要的安全策略

  • 2

    AI日报:字节推StoryMem系统;月之暗面再推多模态新模型;AI眼

  • 3

    雷军确认小字营销要改:小米会认真倾听大家意见

  • 4

    REDMI Turbo 5系列本月发布:将推出Turbo 5 Max机型

  • 5

    AI日报:电信开源MoE大模型TeleChat3;微信推出AI小程序成长计

  • 6

    雷军2026年立了3个flag:称今年要学会叉车 交付55万辆小米汽车

  • 7

    真我Neo 8官宣1月发布 首发三星1.5K高刷屏

  • 8

    一加Turbo 6搭载第四代骁龙8s风驰版 安兔兔跑分超260万

  • 9

    雷军称直播拆的小米YU7会装回去 但不进入销售渠道

  • 10

    AI日报:百度推百科AI知识图谱新功能;字节否认豆包AI眼镜即将

站长商机

广告

商务合作 侵权投诉 广告服务 版权声明 ***

©CopyRight 2002-2020 CHINAZ.COM

扫描二维码推送至手机访问。

版权声明:本文由2345好导航站长资讯发布,如需转载请注明出处。

本文链接:http://2345hao.cn/blog/index.php/post/21701.html

分享给朋友:

“豆包语音识别模型2.0发布:能听懂字看懂图 支持13种外语” 的相关文章

手握采购、研发、销售三条“命脉” 谁是操控创耀科技命运的神秘“公司A”

手握采购、研发、销售三条“命脉” 谁是操控创耀科技命运的神秘“公司A”

  1947年,美国贝尔实验室的威廉.肖克利和他的两位助手布拉顿、巴丁,研制出了世界上第一只晶体管,为集成电路产业打开时代大门,也造就了现代信息社会的根基――“芯片”。   但是现代信息社会并不能避不开国与国之间的问题。   “芯片强则产业强,芯片兴则经济兴,没有高端芯片就没有真正的产业安全和国...

威腾电气IPO观察:自夸“头部企业”被打回原形 拿投资者4个亿只为“试试水”?

威腾电气IPO观察:自夸“头部企业”被打回原形 拿投资者4个亿只为“试试水”?

  威腾电气,一家缺乏科创属性、爱夸夸其谈还带着问题供应商的公司,正在冲击科创板市场。   2021年1月14日,以输配电中母线产品研发、制造及销售为主业的威腾电气,正式通过上市委会议,距离科创板上市又近了一步。   但这对投资者而言,可能并不是一件好事。   由于身在传统电力行业,科研步伐又...

市占率不足0.1% 造血能力不足 罗普特科创上市谋续命?

市占率不足0.1% 造血能力不足 罗普特科创上市谋续命?

  钱流不进口袋的企业,真的算是赚钱企业吗?   盈利,是大部分投资者最关心的问题。但企业盈利的有效性,是有前提的,现金流就是这个前提。但这部分,往往会被许多投资者忽略,正如巴菲特的那句著名评论:“现金是氧气,99%的时间你不会注意它,直到它没有了”。   没有现金流入的盈利只是纸面数字,纸面数...

19%市占率换不来业绩体量的和林微纳 新业务0.24%市占率又该如何期待?

19%市占率换不来业绩体量的和林微纳 新业务0.24%市占率又该如何期待?

  以19%市占率位居精微屏蔽罩市场头部玩家的和林微纳,即将亮相科创板。   2021年3月9日,主要产品为微机电(MEMS)精微电子零部件的和林微纳,开启了科创板招股。公司与楼氏电子、瑞声科技、裕元电子和银河机械,一同成为精微屏蔽罩市场的主要玩家,2019年五家企业合计占到全球市场总份额的80%...

上声电子:四年净利仅剩30% 研发低产能又“空置” 三角股权难解丨

上声电子:四年净利仅剩30% 研发低产能又“空置” 三角股权难解丨

  历时四年发展,归母净利润反缩水近7成的上声电子,即将登陆科创板,寻求资本助力。   作为国内前装市场汽车声学产品方案供应商的上声电子,于2021年3月29日在科创板启动招股环节。公司计划募集4.47亿元资金,其中2.47亿元用于扩产扬声器项目,1.49亿元用于扩产汽车电子项目,剩余5000万元...

华恒生物:近半市占率的细分龙头 竟然只能“被动挨打”丨

华恒生物:近半市占率的细分龙头 竟然只能“被动挨打”丨

  全球最大的丙氨酸生产商华恒生物,即将亮相科创资本市场。   2021年4月7日,以合成生物技术为核心,主要从事氨基酸及其衍生物产品研发、生产、销售的华恒生物,于科创板开启了路演询价环节,距离正式亮相科创板仅剩一步之遥。      图/Wind   目前,华恒生物拥有接近50%的市场占有率...