y1111111少妇影视,青青青国产在线观看资源

與基于文本的大語(yǔ)言模型（LLM）相比，語(yǔ)音語(yǔ)言模型（SpeechLM）接受語(yǔ)音輸入并生成語(yǔ)音輸出，能夠?qū)崿F(xiàn)更自然的人機(jī)交互。然而，傳統(tǒng)的 SpeechLM 因缺乏無(wú)監(jiān)督語(yǔ)音數(shù)據(jù)和并行語(yǔ)音-文本數(shù)據(jù)，很難像 LLM 一樣進(jìn)行大規(guī)模擴(kuò)展。

為解決這一問題，來(lái)自清華大學(xué)和智譜的研究團(tuán)隊(duì)提出了一種新方法，利用從文本語(yǔ)料庫(kù)中提取的大規(guī)模合成交錯(cuò)數(shù)據(jù)來(lái)擴(kuò)展語(yǔ)音-文本預(yù)訓(xùn)練，從而消除了對(duì)并行語(yǔ)音-文本數(shù)據(jù)集的需求。這一方法從現(xiàn)有文本庫(kù)中抽取文本片段，并使用 text-to-token 模型合成相應(yīng)的語(yǔ)音片段，從而高效地構(gòu)建語(yǔ)音-文本交錯(cuò)數(shù)據(jù)，而無(wú)需生成實(shí)際語(yǔ)音。

此外，通過(guò)在編碼器中加入向量量化的瓶頸層，他們還采用了從自動(dòng)語(yǔ)音識(shí)別（ASR）模型中提取的監(jiān)督語(yǔ)音 tokenizer。即使在較低的采樣率（如 12.5Hz）下，這種有監(jiān)督的訓(xùn)練方法也能生成語(yǔ)義保存較好的離散語(yǔ)音 token，同時(shí)保持語(yǔ)音重構(gòu)質(zhì)量。

研究團(tuán)隊(duì)表示，從預(yù)訓(xùn)練的語(yǔ)言模型開始，并將預(yù)訓(xùn)練擴(kuò)展到 1 萬(wàn)億個(gè) token（其中包括 6000 億合成交錯(cuò)語(yǔ)音文本數(shù)據(jù)），他們?cè)?strong>語(yǔ)音語(yǔ)言建模和口語(yǔ)問題解答方面取得了 SOTA，將語(yǔ)音問答任務(wù)方面的性能從之前的 13%（Moshi）提高到 31%。

圖｜隨著合成交錯(cuò)數(shù)據(jù)量的增加，Spoken QA 的性能不斷提高，大大超過(guò)了之前的 SOTA 模型 Moshi（左圖）。合成交錯(cuò)語(yǔ)音文本數(shù)據(jù)的 pipeline（右圖）。

他們進(jìn)一步證明，通過(guò)使用語(yǔ)音對(duì)話數(shù)據(jù)對(duì)預(yù)訓(xùn)練的模型進(jìn)行微調(diào)，他們開發(fā)出的一種端到端語(yǔ)音聊天機(jī)器人，在對(duì)話能力和語(yǔ)音質(zhì)量方面都達(dá)到了與現(xiàn)有基線相當(dāng)?shù)男阅?，展現(xiàn)了在純語(yǔ)音領(lǐng)域中應(yīng)用的巨大潛力。

研究方法

研究團(tuán)隊(duì)提出了一種通過(guò)從文本語(yǔ)料庫(kù)合成高質(zhì)量交錯(cuò)語(yǔ)音-文本數(shù)據(jù)來(lái)擴(kuò)展語(yǔ)音-文本預(yù)訓(xùn)練的新方法，使得大規(guī)模預(yù)訓(xùn)練無(wú)需依賴大量的語(yǔ)音數(shù)據(jù)集成為可能。完整方法框框架結(jié)合了語(yǔ)音 token 化、語(yǔ)音-文本交替數(shù)據(jù)生成以及兩階段訓(xùn)練。

圖｜研究方法概述。

在語(yǔ)音 token 化的設(shè)計(jì)上，他們采用了一種基于自動(dòng)語(yǔ)音識(shí)別（ASR）的監(jiān)督語(yǔ)音 tokenizer，通過(guò)在編碼器中加入向量量化的瓶頸層和平均池化層來(lái)有效生成離散語(yǔ)音 token。

同時(shí)，為提高實(shí)時(shí)語(yǔ)音處理能力，tokenizer 還優(yōu)化為支持流式推理從而降低在線應(yīng)用中的延遲。

圖｜語(yǔ)音重構(gòu)結(jié)果。使用了詞錯(cuò)誤率（WER）評(píng)估語(yǔ)義保留情況，并使用 VisQOL 和 MOSNet 評(píng)估不同語(yǔ)音tokenizer 在不同采樣率下的重建質(zhì)量。

語(yǔ)音-文本交錯(cuò)數(shù)據(jù)是 SpeechLM 預(yù)訓(xùn)練的關(guān)鍵。他們先是基于現(xiàn)有的文本到語(yǔ)音（TTS）數(shù)據(jù)集訓(xùn)練了一個(gè) text-to-token 模型，能直接將文本片段轉(zhuǎn)換為對(duì)應(yīng)的語(yǔ)音 token，較傳統(tǒng)多步生成方法效率更高且潛在錯(cuò)誤的累積更少。

接著，他們使用訓(xùn)練好的 text-to-token 模型從大規(guī)模文本語(yǔ)料庫(kù)中采樣文本片段，并將其轉(zhuǎn)換為語(yǔ)音 token。這些語(yǔ)音 token 與原始文本片段交錯(cuò)組合，從而生成高質(zhì)量語(yǔ)音-文本交錯(cuò)數(shù)據(jù)。最終，他們基于 FineWeb 語(yǔ)料庫(kù)為模型預(yù)訓(xùn)練生成了 6000 億 token 的語(yǔ)音-文本交錯(cuò)數(shù)據(jù)。

圖｜文本到 token 模型的 WER。

之后，他們開展了一個(gè)兩階段訓(xùn)練，在第一階段，使用合成語(yǔ)音-文本交錯(cuò)數(shù)據(jù)對(duì)模型進(jìn)行預(yù)訓(xùn)練，在第二階段，使用語(yǔ)音對(duì)話數(shù)據(jù)集微調(diào)預(yù)訓(xùn)練模型。

在語(yǔ)音-文本預(yù)訓(xùn)練階段，他們通過(guò)使用不同用途的 4 類數(shù)據(jù)：語(yǔ)音-文本交錯(cuò)數(shù)據(jù)、無(wú)監(jiān)督文本數(shù)據(jù)、無(wú)監(jiān)督語(yǔ)音數(shù)據(jù)和有監(jiān)督語(yǔ)音-文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，使模型學(xué)習(xí)語(yǔ)音和文本之間的對(duì)齊關(guān)系。

到了監(jiān)督微調(diào)階段，他們利用語(yǔ)音對(duì)話數(shù)據(jù)進(jìn)行微調(diào)，使模型能夠支持端到端語(yǔ)音輸入與輸出。

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)通過(guò)一系列實(shí)驗(yàn)驗(yàn)證了提出方法的有效性，包括語(yǔ)音語(yǔ)言建模、語(yǔ)音問答、語(yǔ)音聊天機(jī)器人等任務(wù)，展現(xiàn)了在多個(gè)語(yǔ)音應(yīng)用場(chǎng)景中的突破性進(jìn)展。

他們?cè)谡Z(yǔ)音語(yǔ)言建模任務(wù)中首次測(cè)試了大規(guī)模合成語(yǔ)音-文本交錯(cuò)數(shù)據(jù)的效果。結(jié)果表明，由他們的方法預(yù)訓(xùn)練的模型在所用任務(wù)上均優(yōu)于現(xiàn)有方法。模型不僅能更精準(zhǔn)地預(yù)測(cè)語(yǔ)音序列，還表現(xiàn)出更強(qiáng)的泛化能力，能夠適應(yīng)多樣化的語(yǔ)音輸入模式。

圖｜模型預(yù)訓(xùn)練結(jié)果。

在語(yǔ)音問答任務(wù)中，他們?cè)u(píng)估了模型處理自然語(yǔ)音問答的能力，特別是其在跨模態(tài)輸入輸出場(chǎng)景中的表現(xiàn)。相比之前 SOTA 模型 Moshi 的 13% 準(zhǔn)確率，新模型將問答任務(wù)的準(zhǔn)確率大幅提升至 31%，實(shí)現(xiàn)了近 3 倍的性能增長(zhǎng)。

他們進(jìn)一步微調(diào)預(yù)訓(xùn)練模型，開發(fā)出一個(gè)完全基于語(yǔ)音的端到端語(yǔ)音聊天機(jī)器人。評(píng)估結(jié)果顯示，具有文本引導(dǎo)的 9B 模型在一般問答和基于知識(shí)的任務(wù)中優(yōu)于所有基線模型，在語(yǔ)音質(zhì)量評(píng)估方面也比其他模型取得了更好的結(jié)果。

值得注意的是，即使沒有文本引導(dǎo)，9B 模型仍然與文本引導(dǎo)的基線模型表現(xiàn)相當(dāng)，突出了該方法在文本和語(yǔ)音模態(tài)對(duì)齊方面的有效性。

圖｜端到端語(yǔ)音聊天機(jī)器人的評(píng)估結(jié)果。

此外，研究團(tuán)隊(duì)進(jìn)一步開展了消融實(shí)驗(yàn)探究數(shù)據(jù)規(guī)模與組成、tokenizer 采樣率和跨模態(tài)數(shù)據(jù)生成方法對(duì)模型性能的影響，為優(yōu)化語(yǔ)音-文本預(yù)訓(xùn)練提供了實(shí)證依據(jù)。

首先，數(shù)據(jù)規(guī)模與組成部分的實(shí)驗(yàn)結(jié)果顯示，移除交錯(cuò)數(shù)據(jù)時(shí)模型性能顯著下降，表明這種數(shù)據(jù)在對(duì)齊語(yǔ)音和文本模態(tài)中發(fā)揮了核心作用。進(jìn)一步增加交錯(cuò)數(shù)據(jù)的規(guī)模（從 1000 億擴(kuò)展至 6000 億 token）后，語(yǔ)音問答和語(yǔ)音語(yǔ)言建模的表現(xiàn)均有明顯提升，特別是在語(yǔ)音到文本（S→T）和語(yǔ)音到語(yǔ)音（S→S）模式下，任務(wù)性能顯著優(yōu)化。

此外，盡管未標(biāo)注語(yǔ)音數(shù)據(jù)的移除對(duì)小模型影響不大，但在大規(guī)模模型（9B 參數(shù)）中，保留所有數(shù)據(jù)類型能夠大幅提升整體性能。

圖｜關(guān)于交錯(cuò)數(shù)據(jù)尺度和預(yù)訓(xùn)練數(shù)據(jù)組成的消融研究。

之后，他們?cè)u(píng)估了 tokenizer 的采樣率對(duì)模型表現(xiàn)的影響。研究發(fā)現(xiàn)，較低采樣率（如 12.5Hz）在平衡語(yǔ)義保留與計(jì)算效率方面表現(xiàn)最佳，這為模型在實(shí)際應(yīng)用中的優(yōu)化提供了有力支持。

最后，跨度損壞率（即交錯(cuò)樣本中文本和語(yǔ)音 token 的比例）對(duì)模型性能有顯著影響。當(dāng)損壞比率接近 0 或 1 時(shí)，交錯(cuò)樣本主要由文本或語(yǔ)音 token 主導(dǎo)，導(dǎo)致性能下降。實(shí)驗(yàn)通過(guò)調(diào)整不同的損壞比率訓(xùn)練了多個(gè) 1.5B 模型，得出 0.2 到 0.4 之間的跨度損壞率效果最佳，進(jìn)而選取了 0.3 作為最佳的跨度損壞率用于主要模型的訓(xùn)練。

圖｜采樣率與平均準(zhǔn)確率（a）；跨度損壞率與平均準(zhǔn)確率（b）；監(jiān)督微調(diào)后的交錯(cuò)數(shù)據(jù) token 與平均性能對(duì)比（c）。

研究團(tuán)隊(duì)表示，他們將繼續(xù)探索更高效的訓(xùn)練方法，進(jìn)一步擴(kuò)展模型規(guī)模與多語(yǔ)言能力，促進(jìn)語(yǔ)音 AI 實(shí)現(xiàn)更高效的應(yīng)用。

作者：阮文韻

“6000億合成交錯(cuò)語(yǔ)音文本”預(yù)訓(xùn)練，問答性能提升近3倍！

“6000億合成交錯(cuò)語(yǔ)音文本”預(yù)訓(xùn)練，問答性能提升近3倍！