語音模式已迅速成爲對話式人工智能的旗艦功能,讓用戶感到輕鬆並允許他們以最自然的方式(通過語音)進行交互。 openai 不斷開拓創新,推出了延遲低於 500 毫秒的實時 ai 語音代理。這一成就背後的技術現已開源,提供了無與倫比的工具訪問權限,使構建高質量的響應式語音代理成爲可能。
語音模式有迅速成爲對話式人工智能的旗艦功能,讓用戶感到輕鬆並允許他們以最自然的方式(通過語音)進行交互。 OpenAI 不斷開拓創新,推出了延遲低於 500 毫秒的實時 AI 語音代理。這一成就背後的技術現已開源,提供了無與倫比的工具訪問權限,使構建高質量的響應式語音代理成爲可能。
OpenAI 並沒有採取任何行動。當他們爲 ChatGPT 開發語音功能時,他們引進了頂尖的選角和導演人才,以確保聲音具有身臨其境的感覺,同時又讓他們看起來像是屬於自己的。隨後,400 名試鏡者被削減至今天的 5 名。這並不是說一切都是一帆風順的。不是當公司不得不擱置“天空”,因爲它與斯嘉麗約翰遜驚人的相似。
但真正令人興奮的是最新的發展:能夠在本地利用這項技術。想象一下,在您自己的 GPU 上進行實時語音到語音處理,延遲低於 500 毫秒。這不再是一個遙遠的夢想:系統現已完全開源。
它是如何工作的?
爲了實現如此小的延遲,AI 管道被分爲不同的組件,每個組件都經過優化爲了速度和效率:
1。語音活動檢測 (VAD)
管道從 Silero VAD v5 模塊開始,負責檢測用戶何時結束講話。它是觸發下一階段處理的“看門人”。
2.實時轉錄(語音到文本)
這部分流程使用一些更復雜的模型(例如 Whisper 或 DeepSpeech)將用戶的語音轉錄爲文本。例如,Whisper 是實時運行的,係數爲 0.5;因此,它可以以兩倍於實時速度的速度處理語音,並在大約 100 毫秒內提供準確的轉錄。
3.響應生成
隨着轉錄的進行,大型語言模型(LLM)開始同時預測可能的響應。在 200 毫秒內,系統可以生成相關的基於文本的回覆。
4.語音合成(文本到語音)
使用快速語音合成器立即將生成的響應轉換爲語音,這還需要 200 毫秒才能產生高質量的音頻。
通過並行提高效率處理
這種令人印象深刻的速度的祕密在於並行處理。與順序處理組件或一次處理一項任務相比,系統同時進行轉錄、響應生成和語音合成。這種端到端的設計保證了流程的各個部分協同工作,極大地減少了完成用戶交互所需的總體時間
例如,當系統檢測到語音結束時,系統會啓動轉錄過程。當轉錄完成時,語言模型已生成響應,隨後立即開始語音合成。這種任務並行處理確保從用戶語音到 AI 響應的整體交互在 500 毫秒內完成。
結論:解鎖語音 AI 的未來
AI 語音代理 down人機交互延遲達到500ms,是無縫人機交互的重大發展。該技術的使用是通過實時轉錄、快速響應生成和語音合成,同時提供超響應的對話體驗。
這意味着,隨着整個管道開源,可以集成此技術技術融入您的項目。開發人員可以針對各種應用程序微調和定製其語音代理,包括語音助手甚至實時遊戲化身。
這不僅僅是向前邁出的一步;這是構建對話式人工智能未來的邀請。那麼,你會用它創造什麼?
以上就是未來說話:超低延遲的實時人工智能語音代理的詳細內容,更多請關注本站其它相關文章!