12月23日 通義大模型發(fā)布新一代端到端語音交互模型Fun-Audio-Chat。這是通義百聆語音模型系列中,首個(gè)主打“語音對(duì)語音”交互能力的模型,支持用戶直接通過語音與模型進(jìn)行多輪對(duì)話。

從技術(shù)指標(biāo)看,該模型在OpenAudioBench、VoiceBench、UltraEval-Audio、MMAU、MMSU、SpeechFunctionCall等多項(xiàng)語音與多模態(tài)評(píng)測(cè)中取得當(dāng)前開源模型中的領(lǐng)先成績,整體性能超過多款同參數(shù)規(guī)模模型,顯示出其在語音理解、生成以及對(duì)話協(xié)同上的綜合能力。
Fun-Audio-Chat-8B隸屬于通義百聆語音模型家族。此前,該系列已包含語音轉(zhuǎn)文字模型Fun-ASR以及文字轉(zhuǎn)語音模型Fun-CosyVoice3。與前兩者不同,F(xiàn)un-Audio-Chat-8B強(qiáng)調(diào)端到端語音交互能力,可直接用于語音聊天、情感陪伴、智能終端交互以及語音客服等場(chǎng)景。目前,該模型已同步在魔搭社區(qū)、Hugging Face及GitHub開源。
在模型訓(xùn)練與架構(gòu)設(shè)計(jì)上,阿里云披露了兩項(xiàng)關(guān)鍵技術(shù)路徑。其一是Core-Cocktail 兩階段訓(xùn)練策略,通過分階段引入語音與多模態(tài)能力,再與原有文本大模型參數(shù)融合微調(diào),以降低新增能力對(duì)原有語言理解能力的影響,緩解“災(zāi)難性遺忘”問題。其二是引入多階段、多任務(wù)的偏好對(duì)齊訓(xùn)練,使模型在真實(shí)語音對(duì)話中能更準(zhǔn)確捕捉語義與情緒線索,提升對(duì)話自然度。
算力效率也是該模型的一大特點(diǎn)。Fun-Audio-Chat-8B采用 壓縮—自回歸—解壓縮的雙分辨率端到端架構(gòu),將音頻幀率降低至約 5Hz。在保證語音質(zhì)量的前提下,該設(shè)計(jì)可 節(jié)省近50%的GPU計(jì)算開銷,在當(dāng)前語音大模型普遍算力成本較高的背景下,具有一定工程意義。
整體來看,F(xiàn)un-Audio-Chat-8B的開源,標(biāo)志著通義大模型在語音交互方向進(jìn)一步向“低算力、強(qiáng)對(duì)話”的實(shí)用化階段推進(jìn),也為開源語音大模型在真實(shí)場(chǎng)景中的部署提供了新的技術(shù)參考。