当前,国内外科技界迎来了语音对话模型的繁荣时代,从 GPT-4o 到 Google Gemini Live,以及 LLaSM、Mini-Omni、Qwen2-Audio、Moshi、ChatTTS、SpeechGPT2 等一众创新模型的涌现,它们共同编织了一幅人机交互的新图景,让自然流畅的语言交流成为现实,为用户带来了前所未有的互动体验。
随着语音交互技术的快速发展,2024 年成为语音 AI 领域突破性发展的一年。从 OpenAI Voice 模式到全双工(Fully duplexed)语音转语音系统,技术的进步让 Voice Agent ...