豆包語音識別模型2.0發布:能聽懂字看懂圖 支持13種外語
12月5日消息,豆包懂字今日,語音火山引擎發布豆包語音識別模型2.0(Doubao-Seed-ASR-2.0),識別依托Seed混合專家大語言模型架構構建。模型 據介紹,發布2.0版本模型推理能力提升,看懂可以通過深度理解上下文完成精準識別,圖支上下文整體關鍵詞召回率提升20%。持種 同時支持多模態視覺識別,外語不僅“聽懂字”還能“看懂圖”,豆包懂字通過單圖和多圖等視覺信息輸入讓文字識別更精準。語音 此外,識別2.0版本還支持日語、模型韓語、發布德語、看懂法語等 13 種海外語種的精準識別。 并且重點針對專有名詞、人名、地名、品牌名稱及易混淆多音字等復雜場景進行了升級。 以歷史人物生平討論場景為例,當用戶提及蘇轍貶謫地“筠(yún)州”時,如果模型缺乏推理能力會易將其誤識別為同音的“云州”“鄆州”等。 而豆包語音識別模型2.0可依托“當前討論蘇軾、蘇轍”這一背景,即便上下文從沒出現過“筠州”,也能通過邏輯推理鎖定用戶所指的特定地名,最終實現對多音字地名的精準識別。 目前,豆包語音識別模型2.0已上線火山方舟體驗中心并對外提供API服務。
- 最近發表
- 隨機閱讀
-
- 微信:這種“轉賬”不要收!
- 微軟醞釀Win11 UI重磅更新!“毛玻璃”限制解除可自由應用
- 2949元 佳能發布RF45mm F1.2 STM全畫幅鏡頭:同價位罕見F/1.2大光圈
- 首發海豚聲吶通信!華為WATCH Ultimate 2非凡探索今日預售
- 繼組裝終端產品后 蘋果首次考慮在印度封裝iPhone芯片
- 打破質疑!小鵬直播剪開機器人IRON外衣:里面不是真人
- 2025年全球票房榜前五 電影《鬼滅之刃》預售票房破5000萬
- 馬斯克:特斯拉AI5芯片明年出樣品 臺積電三星共造
- 為全天候綠電而生 海辰儲能發布全球首個原生8小時長時儲能解決方案
- 如何安裝Windows 11 25H2 這里有三種官方途徑
- 大電池+大油箱 小鵬汽車發布鯤鵬超級增程:續航超1600公里
- 2949元 佳能發布RF45mm F1.2 STM全畫幅鏡頭:同價位罕見F/1.2大光圈
- 什么手機可以拍實況live圖 2025Q4最推薦這款
- 首款星閃音頻耳機!華為Freebuds Pro 5搭載麒麟A3處理器
- Mate 70 Air之后 華為Mate 80即將登場:全球首發麒麟9030
- 男子編造充“劣質電”致車輛自燃謠言:把自己送進去了
- 究竟哪種馬達最好:盤盤手機馬達的“三六九等”
- 為避讓越線車保時捷卡宴壓馬路牙子致爆胎 對方也需擔責
- 全國有線電視最新用戶數出爐:穩超2億
- Kimi最強開源思考模型 Kimi K2 Thinking發布:推理等超越GPT
- 搜索
-