與基于文本的大語(yǔ)言模型(LLM)相比,語(yǔ)音語(yǔ)言模型(SpeechLM)接受語(yǔ)音輸入并生成語(yǔ)音輸出,能夠?qū)崿F(xiàn)更自然的人機(jī)交互。然而,傳統(tǒng)的 SpeechLM 因缺乏無(wú)監(jiān)督語(yǔ)音數(shù)據(jù)和并行語(yǔ)音-文本數(shù)據(jù),很難像 LLM 一樣進(jìn)行大規(guī)模擴(kuò)展。
為解決這一問題,來(lái)自清華大學(xué)和智譜的研究團(tuán)隊(duì)提出了一種新方法,利用從文本語(yǔ)料庫(kù)中提取的大規(guī)模合成交錯(cuò)數(shù)據(jù)來(lái)擴(kuò)展語(yǔ)音-文本預(yù)訓(xùn)練,從而消除了對(duì)并行語(yǔ)音-文本數(shù)據(jù)集的需求。這一方法從現(xiàn)有文本庫(kù)中抽取文本片段,并使用 text-to-token 模型合成相應(yīng)的語(yǔ)音片段,從而高效地構(gòu)建語(yǔ)音-文本交錯(cuò)數(shù)據(jù),而無(wú)需生成實(shí)際語(yǔ)音。
此外,通過(guò)在編碼器中加入向量量化的瓶頸層,他們還采用了從自動(dòng)語(yǔ)音識(shí)別(ASR)模型中提取的監(jiān)督語(yǔ)音 tokenizer。即使在較低的采樣率(如 12.5Hz)下,這種有監(jiān)督的訓(xùn)練方法也能生成語(yǔ)義保存較好的離散語(yǔ)音 token,同時(shí)保持語(yǔ)音重構(gòu)質(zhì)量。
研究團(tuán)隊(duì)表示,從預(yù)訓(xùn)練的語(yǔ)言模型開始,并將預(yù)訓(xùn)練擴(kuò)展到 1 萬(wàn)億個(gè) token(其中包括 6000 億合成交錯(cuò)語(yǔ)音文本數(shù)據(jù)),他們?cè)?strong>語(yǔ)音語(yǔ)言建模和口語(yǔ)問題解答方面取得了 SOTA,將語(yǔ)音問答任務(wù)方面的性能從之前的 13%(Moshi)提高到 31%。
圖|隨著合成交錯(cuò)數(shù)據(jù)量的增加,Spoken QA 的性能不斷提高,大大超過(guò)了之前的 SOTA 模型 Moshi(左圖)。合成交錯(cuò)語(yǔ)音文本數(shù)據(jù)的 pipeline(右圖)。
他們進(jìn)一步證明,通過(guò)使用語(yǔ)音對(duì)話數(shù)據(jù)對(duì)預(yù)訓(xùn)練的模型進(jìn)行微調(diào),他們開發(fā)出的一種端到端語(yǔ)音聊天機(jī)器人,在對(duì)話能力和語(yǔ)音質(zhì)量方面都達(dá)到了與現(xiàn)有基線相當(dāng)?shù)男阅?,展現(xiàn)了在純語(yǔ)音領(lǐng)域中應(yīng)用的巨大潛力。
研究方法
研究團(tuán)隊(duì)提出了一種通過(guò)從文本語(yǔ)料庫(kù)合成高質(zhì)量交錯(cuò)語(yǔ)音-文本數(shù)據(jù)來(lái)擴(kuò)展語(yǔ)音-文本預(yù)訓(xùn)練的新方法,使得大規(guī)模預(yù)訓(xùn)練無(wú)需依賴大量的語(yǔ)音數(shù)據(jù)集成為可能。完整方法框框架結(jié)合了語(yǔ)音 token 化、語(yǔ)音-文本交替數(shù)據(jù)生成以及兩階段訓(xùn)練。
圖|研究方法概述。
在語(yǔ)音 token 化的設(shè)計(jì)上,他們采用了一種基于自動(dòng)語(yǔ)音識(shí)別(ASR)的監(jiān)督語(yǔ)音 tokenizer,通過(guò)在編碼器中加入向量量化的瓶頸層和平均池化層來(lái)有效生成離散語(yǔ)音 token。
同時(shí),為提高實(shí)時(shí)語(yǔ)音處理能力,tokenizer 還優(yōu)化為支持流式推理從而降低在線應(yīng)用中的延遲。
圖|語(yǔ)音重構(gòu)結(jié)果。使用了詞錯(cuò)誤率(WER)評(píng)估語(yǔ)義保留情況,并使用 VisQOL 和 MOSNet 評(píng)估不同語(yǔ)音tokenizer 在不同采樣率下的重建質(zhì)量。
語(yǔ)音-文本交錯(cuò)數(shù)據(jù)是 SpeechLM 預(yù)訓(xùn)練的關(guān)鍵。他們先是基于現(xiàn)有的文本到語(yǔ)音(TTS)數(shù)據(jù)集訓(xùn)練了一個(gè) text-to-token 模型,能直接將文本片段轉(zhuǎn)換為對(duì)應(yīng)的語(yǔ)音 token,較傳統(tǒng)多步生成方法效率更高且潛在錯(cuò)誤的累積更少。
接著,他們使用訓(xùn)練好的 text-to-token 模型從大規(guī)模文本語(yǔ)料庫(kù)中采樣文本片段,并將其轉(zhuǎn)換為語(yǔ)音 token。這些語(yǔ)音 token 與原始文本片段交錯(cuò)組合,從而生成高質(zhì)量語(yǔ)音-文本交錯(cuò)數(shù)據(jù)。最終,他們基于 FineWeb 語(yǔ)料庫(kù)為模型預(yù)訓(xùn)練生成了 6000 億 token 的語(yǔ)音-文本交錯(cuò)數(shù)據(jù)。
圖|文本到 token 模型的 WER。
之后,他們開展了一個(gè)兩階段訓(xùn)練,在第一階段,使用合成語(yǔ)音-文本交錯(cuò)數(shù)據(jù)對(duì)模型進(jìn)行預(yù)訓(xùn)練,在第二階段,使用語(yǔ)音對(duì)話數(shù)據(jù)集微調(diào)預(yù)訓(xùn)練模型。
在語(yǔ)音-文本預(yù)訓(xùn)練階段,他們通過(guò)使用不同用途的 4 類數(shù)據(jù):語(yǔ)音-文本交錯(cuò)數(shù)據(jù)、無(wú)監(jiān)督文本數(shù)據(jù)、無(wú)監(jiān)督語(yǔ)音數(shù)據(jù)和有監(jiān)督語(yǔ)音-文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,使模型學(xué)習(xí)語(yǔ)音和文本之間的對(duì)齊關(guān)系。
到了監(jiān)督微調(diào)階段,他們利用語(yǔ)音對(duì)話數(shù)據(jù)進(jìn)行微調(diào),使模型能夠支持端到端語(yǔ)音輸入與輸出。
實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)通過(guò)一系列實(shí)驗(yàn)驗(yàn)證了提出方法的有效性,包括語(yǔ)音語(yǔ)言建模、語(yǔ)音問答、語(yǔ)音聊天機(jī)器人等任務(wù),展現(xiàn)了在多個(gè)語(yǔ)音應(yīng)用場(chǎng)景中的突破性進(jìn)展。
他們?cè)谡Z(yǔ)音語(yǔ)言建模任務(wù)中首次測(cè)試了大規(guī)模合成語(yǔ)音-文本交錯(cuò)數(shù)據(jù)的效果。結(jié)果表明,由他們的方法預(yù)訓(xùn)練的模型在所用任務(wù)上均優(yōu)于現(xiàn)有方法。模型不僅能更精準(zhǔn)地預(yù)測(cè)語(yǔ)音序列,還表現(xiàn)出更強(qiáng)的泛化能力,能夠適應(yīng)多樣化的語(yǔ)音輸入模式。
圖|模型預(yù)訓(xùn)練結(jié)果。
在語(yǔ)音問答任務(wù)中,他們?cè)u(píng)估了模型處理自然語(yǔ)音問答的能力,特別是其在跨模態(tài)輸入輸出場(chǎng)景中的表現(xiàn)。相比之前 SOTA 模型 Moshi 的 13% 準(zhǔn)確率,新模型將問答任務(wù)的準(zhǔn)確率大幅提升至 31%,實(shí)現(xiàn)了近 3 倍的性能增長(zhǎng)。
他們進(jìn)一步微調(diào)預(yù)訓(xùn)練模型,開發(fā)出一個(gè)完全基于語(yǔ)音的端到端語(yǔ)音聊天機(jī)器人。評(píng)估結(jié)果顯示,具有文本引導(dǎo)的 9B 模型在一般問答和基于知識(shí)的任務(wù)中優(yōu)于所有基線模型,在語(yǔ)音質(zhì)量評(píng)估方面也比其他模型取得了更好的結(jié)果。
值得注意的是,即使沒有文本引導(dǎo),9B 模型仍然與文本引導(dǎo)的基線模型表現(xiàn)相當(dāng),突出了該方法在文本和語(yǔ)音模態(tài)對(duì)齊方面的有效性。
圖|端到端語(yǔ)音聊天機(jī)器人的評(píng)估結(jié)果。
此外,研究團(tuán)隊(duì)進(jìn)一步開展了消融實(shí)驗(yàn)探究數(shù)據(jù)規(guī)模與組成、tokenizer 采樣率和跨模態(tài)數(shù)據(jù)生成方法對(duì)模型性能的影響,為優(yōu)化語(yǔ)音-文本預(yù)訓(xùn)練提供了實(shí)證依據(jù)。
首先,數(shù)據(jù)規(guī)模與組成部分的實(shí)驗(yàn)結(jié)果顯示,移除交錯(cuò)數(shù)據(jù)時(shí)模型性能顯著下降,表明這種數(shù)據(jù)在對(duì)齊語(yǔ)音和文本模態(tài)中發(fā)揮了核心作用。進(jìn)一步增加交錯(cuò)數(shù)據(jù)的規(guī)模(從 1000 億擴(kuò)展至 6000 億 token)后,語(yǔ)音問答和語(yǔ)音語(yǔ)言建模的表現(xiàn)均有明顯提升,特別是在語(yǔ)音到文本(S→T)和語(yǔ)音到語(yǔ)音(S→S)模式下,任務(wù)性能顯著優(yōu)化。
此外,盡管未標(biāo)注語(yǔ)音數(shù)據(jù)的移除對(duì)小模型影響不大,但在大規(guī)模模型(9B 參數(shù))中,保留所有數(shù)據(jù)類型能夠大幅提升整體性能。
圖|關(guān)于交錯(cuò)數(shù)據(jù)尺度和預(yù)訓(xùn)練數(shù)據(jù)組成的消融研究。
之后,他們?cè)u(píng)估了 tokenizer 的采樣率對(duì)模型表現(xiàn)的影響。研究發(fā)現(xiàn),較低采樣率(如 12.5Hz)在平衡語(yǔ)義保留與計(jì)算效率方面表現(xiàn)最佳,這為模型在實(shí)際應(yīng)用中的優(yōu)化提供了有力支持。
最后,跨度損壞率(即交錯(cuò)樣本中文本和語(yǔ)音 token 的比例)對(duì)模型性能有顯著影響。當(dāng)損壞比率接近 0 或 1 時(shí),交錯(cuò)樣本主要由文本或語(yǔ)音 token 主導(dǎo),導(dǎo)致性能下降。實(shí)驗(yàn)通過(guò)調(diào)整不同的損壞比率訓(xùn)練了多個(gè) 1.5B 模型,得出 0.2 到 0.4 之間的跨度損壞率效果最佳,進(jìn)而選取了 0.3 作為最佳的跨度損壞率用于主要模型的訓(xùn)練。
圖|采樣率與平均準(zhǔn)確率(a);跨度損壞率與平均準(zhǔn)確率(b);監(jiān)督微調(diào)后的交錯(cuò)數(shù)據(jù) token 與平均性能對(duì)比(c)。
研究團(tuán)隊(duì)表示,他們將繼續(xù)探索更高效的訓(xùn)練方法,進(jìn)一步擴(kuò)展模型規(guī)模與多語(yǔ)言能力,促進(jìn)語(yǔ)音 AI 實(shí)現(xiàn)更高效的應(yīng)用。
作者:阮文韻