對(duì)話式 AI 的核心職責(zé)是聽(tīng)懂人類講話的內(nèi)容和情感,并以語(yǔ)音對(duì)話的方式作出回應(yīng), 然后重復(fù)這個(gè)循環(huán)。
當(dāng)前,幾乎所有的J聯(lián)對(duì)話式 AI 產(chǎn)品都普遍采用相似的架構(gòu):對(duì)話式 AI Agent 服務(wù)部署于云端,協(xié)調(diào)端到端語(yǔ)音對(duì)話(Speech-to-Speech)的交互閉環(huán),整體采用 RTC 技術(shù)實(shí)現(xiàn)超低延遲雙全工人機(jī)對(duì)話。支持行業(yè)主流 AI 模型接入,并通過(guò) LLM 函數(shù)調(diào)用或結(jié)構(gòu)化輸 出連接后端系統(tǒng)。
整個(gè)循環(huán)流程如下:
◇ 用戶設(shè)備麥克風(fēng)捕獲語(yǔ)音信號(hào),編碼后經(jīng)實(shí)時(shí)傳輸網(wǎng)絡(luò)傳輸至云端代理程序
◇ 將用戶語(yǔ)音實(shí)時(shí)轉(zhuǎn)換(ASR)為高準(zhǔn)確率的文字,作為 LLM 的輸入
◇ 文本被整合為上下文提示(Prompt),由大語(yǔ)言模型(LLM) 進(jìn)行推理生成響應(yīng)。
◇ LLM 生成的文本發(fā)送至文本轉(zhuǎn)語(yǔ)音(TTS) 模型合成音頻
◇ 合成音頻通過(guò)實(shí)時(shí)傳輸網(wǎng)絡(luò)傳回用戶設(shè)備完成交互
對(duì)話式 AI 的整個(gè)服務(wù)全部在云端運(yùn)行,包括 ASR、LLM 和 TTS。從長(zhǎng)遠(yuǎn)來(lái)看,人們期望 有更多的 AI 服務(wù)可以在端側(cè)運(yùn)行,但云端仍是未來(lái)很長(zhǎng)一段時(shí)間的Z佳方案。
◇ 對(duì)話式 AI 程序需調(diào)用高性能模型(ASR、LLM、TTS)以實(shí)現(xiàn)低延遲的復(fù)雜流程。當(dāng) 前終端設(shè)備算力不足,無(wú)法在可接受延遲內(nèi)運(yùn)行Z優(yōu)模型。
◇ 當(dāng)前,仍有大量商用場(chǎng)景用戶是需要通過(guò)電話進(jìn)行呼叫的,在此類場(chǎng)景中,服務(wù)無(wú) 法部署到用戶的終端設(shè)備上,也迫使服務(wù)集中于云端。
◇ 對(duì)話式 AI 需要跨終端使用,也導(dǎo)致云端部署成為Z高效的方案。
如果你正在開(kāi)發(fā)一個(gè)對(duì)話式 AI 產(chǎn)品或應(yīng)用,你可能已經(jīng)發(fā)現(xiàn)對(duì)話式 AI 并沒(méi)有想象中的 簡(jiǎn)單,我們會(huì)面臨并思考以下問(wèn)題:
◇ 對(duì)話式 AI 該選擇哪些大語(yǔ)言模型和 TTS?
◇ 如何降低人機(jī)對(duì)話的端到端延遲?
◇ 如何讓 AI 對(duì)話與人類一樣自然?
◇ 如何在長(zhǎng)會(huì)話中管理對(duì)話上下文?
◇ 如何將對(duì)話式 AI 集成到現(xiàn)有應(yīng)用中?
◇ 如何評(píng)估對(duì)話式 AI 的性能表現(xiàn)?
![]() |
| 商用機(jī)器人 Disinfection Robot 展廳機(jī)器人 智能垃圾站 輪式機(jī)器人底盤(pán) 迎賓機(jī)器人 移動(dòng)機(jī)器人底盤(pán) 講解機(jī)器人 紫外線消毒機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 服務(wù)機(jī)器人底盤(pán) 智能送餐機(jī)器人 霧化消毒機(jī) 機(jī)器人OEM代工廠 消毒機(jī)器人排名 智能配送機(jī)器人 圖書(shū)館機(jī)器人 導(dǎo)引機(jī)器人 移動(dòng)消毒機(jī)器人 導(dǎo)診機(jī)器人 迎賓接待機(jī)器人 前臺(tái)機(jī)器人 導(dǎo)覽機(jī)器人 酒店送物機(jī)器人 云跡科技潤(rùn)機(jī)器人 云跡酒店機(jī)器人 智能導(dǎo)診機(jī)器人 |