精品国产成人,精品视频免费,国产亚洲精品美女久久久久久久久久

12月23日通義大模型發(fā)布新一代端到端語音交互模型Fun-Audio-Chat。這是通義百聆語音模型系列中，首個(gè)主打“語音對(duì)語音”交互能力的模型，支持用戶直接通過語音與模型進(jìn)行多輪對(duì)話。

通義端到端語音交互模型Fun-Audio-Chat發(fā)布

從技術(shù)指標(biāo)看，該模型在OpenAudioBench、VoiceBench、UltraEval-Audio、MMAU、MMSU、SpeechFunctionCall等多項(xiàng)語音與多模態(tài)評(píng)測(cè)中取得當(dāng)前開源模型中的領(lǐng)先成績，整體性能超過多款同參數(shù)規(guī)模模型，顯示出其在語音理解、生成以及對(duì)話協(xié)同上的綜合能力。

Fun-Audio-Chat-8B隸屬于通義百聆語音模型家族。此前，該系列已包含語音轉(zhuǎn)文字模型Fun-ASR以及文字轉(zhuǎn)語音模型Fun-CosyVoice3。與前兩者不同，F(xiàn)un-Audio-Chat-8B強(qiáng)調(diào)端到端語音交互能力，可直接用于語音聊天、情感陪伴、智能終端交互以及語音客服等場(chǎng)景。目前，該模型已同步在魔搭社區(qū)、Hugging Face及GitHub開源。

在模型訓(xùn)練與架構(gòu)設(shè)計(jì)上，阿里云披露了兩項(xiàng)關(guān)鍵技術(shù)路徑。其一是Core-Cocktail 兩階段訓(xùn)練策略，通過分階段引入語音與多模態(tài)能力，再與原有文本大模型參數(shù)融合微調(diào)，以降低新增能力對(duì)原有語言理解能力的影響，緩解“災(zāi)難性遺忘”問題。其二是引入多階段、多任務(wù)的偏好對(duì)齊訓(xùn)練，使模型在真實(shí)語音對(duì)話中能更準(zhǔn)確捕捉語義與情緒線索，提升對(duì)話自然度。

算力效率也是該模型的一大特點(diǎn)。Fun-Audio-Chat-8B采用 壓縮—自回歸—解壓縮的雙分辨率端到端架構(gòu)，將音頻幀率降低至約 5Hz。在保證語音質(zhì)量的前提下，該設(shè)計(jì)可 節(jié)省近50%的GPU計(jì)算開銷，在當(dāng)前語音大模型普遍算力成本較高的背景下，具有一定工程意義。

整體來看，F(xiàn)un-Audio-Chat-8B的開源，標(biāo)志著通義大模型在語音交互方向進(jìn)一步向“低算力、強(qiáng)對(duì)話”的實(shí)用化階段推進(jìn)，也為開源語音大模型在真實(shí)場(chǎng)景中的部署提供了新的技術(shù)參考。

通義端到端語音交互模型Fun-Audio-Chat發(fā)布

科技解讀更多>>