一家名為 Nari Labs 的兩人初創公司推出了 Dia,這是一款擁有 1.6 億參數的文本轉語音(TTS)模型,旨在直接從文本提示生成自然化對話 —— 其中一位創始人聲稱,其性能超越了包括 ElevenLabs、Google 熱門的 NotebookLM AI 播客生成產品等競爭對手的專有產品。
它甚至可能對 OpenAI 最近推出的 gpt-4o-mini-tts 產生沖擊。
“Dia 在與 NotebookLM 播客功能的競爭中不但旗鼓相當,而且在質量上超越了 ElevenLabs Studio 和 Sesame 的開源模型,” Nari 以及 Dia 的聯合創始人 Toby Kim 在社交網絡 X 上的帖子中如是說道。
在另一篇帖子中,Kim 指出該模型是在“零資金”情況下構建的,并在一個主題帖中補充道: “……我們一開始并非 AI 專家。一切始于我們去年推出的 NotebookLM 播客功能令我們著迷。我們期待更多 —— 有更多對聲音的控制,劇本也有更多自由。我們嘗試了市面上所有的 TTS API,但沒有一款聽起來像真實的人類對話。”
Kim 進一步感謝 Google,通過其 Research Cloud,讓他和合作者得以使用公司的 Tensor Processing Unit 芯片 (TPU) 來訓練 Dia。
現在,Dia 的代碼和權重(內部模型連接集)已經在 Hugging Face 以及 Github 上對所有人開放下載與本地部署。個別用戶還可以在 Hugging Face Space 上嘗試生成語音。
高級控制與更多可定制功能
Dia 支持諸如情感語調、說話人標記及非語言音頻提示等細致特征 —— 所有這些均可由純文本實現。
用戶可以利用 [S1] 和 [S2] 等標簽標記說話人轉換,并添加 (laughs) 、 (coughs) 或 (clears throat) 等提示,使生成的對話在非語言行為上更加豐富。
這些標簽能在生成過程中被 Dia 正確解析 —— 根據公司示例頁面,其他現有模型對此支持并不穩定。
該模型目前僅支持英語,并且不關聯于某個特定說話人的聲音,每次生成時的音色均可能不同,除非用戶固定生成種子或提供音頻提示。通過音頻條件約束(或語音克隆),用戶可通過上傳樣本片段來引導語音的語調和音色。
Nari Labs 提供了示例代碼以便簡化這一流程,并推出了基于 Gradio 的演示,用戶無需進行復雜設置即可體驗。
與 ElevenLabs 和 Sesame 的對比
Nari 在其 Notion 網站上展示了大量由 Dia 生成的示例音頻,并將其與其他領先的語音轉文本競爭對手進行了對比,特別是 ElevenLabs Studio 以及 Sesame CSM-1B —— 后者是 Oculus VR 頭顯聯合創始人 Brendan Iribe 推出的一款新文本轉語音模型,曾在今年早些時候于 X 平臺引起熱議。
Nari Labs 通過并排示例展示了 Dia 在多個方面優于競爭對手:
在標準對話場景中,Dia 無論在自然時序還是在非語言表達上都表現更佳。例如,在劇本以 (laughs) 結束時,Dia 能真正理解并生成笑聲,而 ElevenLabs 和 Sesame 則只輸出諸如 “haha” 之類的文本替代表達。
例如,下面展示的是 Dia 的效果……
……
而下面則是由 ElevenLabs Studio 朗讀同一句話時的效果。
在多輪情感豐富的對話中,Dia 展現出更加平滑的過渡和語調變化。一項測試包括一個充滿戲劇性、情感激昂的緊急場景,Dia 有效地傳遞了緊迫感和說話者壓力,而競爭模型往往顯得表達平淡或節奏丟失。
在處理僅包含非語言內容的劇本時,例如涉及咳嗽、吸鼻子和笑聲的幽默對話,Dia 表現尤為出色,而其他模型則往往無法識別這些標簽或將其完全忽略。
即使面對如說唱歌詞這類節奏復雜的內容,Dia 也能生成流暢、富有表現力且保持一定節奏感的語音;這與 ElevenLabs 和 Sesame 的 1B 模型產生的較為單調或斷裂的輸出形成了鮮明對比。
利用音頻提示,Dia 還能延續或擴展說話人的語音風格,實現新臺詞的無縫銜接。一則使用對話片段作為種子的示例顯示,Dia 能將樣本中的語音特征貫穿于后續生成的整個對話中,而這一特性在其他模型中尚未得到穩健支持。
在一組測試中,Nari Labs 指出,Sesame 最佳網站演示很可能采用了內部 8B 版本模型,而非公開的 1B 檢查點,導致其廣告效果與實際性能之間存在差距。
模型訪問與技術參數
開發者可以從 Nari Labs 的 GitHub 倉庫以及 Hugging Face 模型頁面上獲取 Dia。
該模型運行在 PyTorch 2.0+ 和 CUDA 12.6 環境下,大約需要 10GB 的顯存。
在企業級 GPU(如 NVIDIA A4000)上推理時,速度約為每秒 40 個 Token。
雖然當前版本僅支持在 GPU 上運行,Nari 計劃未來推出 CPU 版本及量化版本,以提升可訪問性。
該初創公司同時提供了 Python 庫和 CLI 工具,進一步簡化了部署過程。
憑借靈活的特性,Dia 在內容創作、輔助技術以及合成語音旁白等多種應用場景中展現出廣闊前景。
此外,Nari Labs 正在開發一款面向休閑用戶的消費版 Dia,旨在滿足希望混剪或分享生成對話的用戶。感興趣的用戶可以通過電子郵件注冊早期訪問候補名單。
完全開源
該模型采用 Apache 2.0 完全開源許可證發布,這意味著它可用于商業用途 —— 這一特性無疑會吸引企業和獨立應用開發者。
Nari Labs 明確禁止使用該模型進行冒充個人、傳播虛假信息或參與非法活動。團隊倡導負責任的試驗,并對不道德的部署行為持明確反對態度。
Dia 的開發還得到了 Google TPU Research Cloud、Hugging Face 的 ZeroGPU 撥款計劃以及在 SoundStorm、Parakeet 和 Descript Audio Codec 等項目上的既有研究工作的支持。
盡管 Nari Labs 的團隊僅由兩位工程師(一位全職、一位兼職)組成,他們仍通過 Discord 服務器和 GitHub 積極邀請社區貢獻。
憑借對表達質量、可復現性和開放獲取的堅定追求,Dia 為生成式語音模型領域增添了一種獨特的新聲。