| 創(chuàng)澤機(jī)器人 |
| CHUANGZE ROBOT |
機(jī)器人的語音輸入輸出內(nèi)容如圖3-9所示。語音輸入過程是一種模式識 別過程,先對空氣振動引起的語音聲波進(jìn)行分析,然后抽取聲波里的音響特征,模式識別以及限定語音之間的連接關(guān)系。正確無誤地對連續(xù)的發(fā)音進(jìn)行 一個一個語音識別是一件非常困難的事情,所以只能從不是那么準(zhǔn)確的語音 序列或單詞的識別去理解人的說話內(nèi)容。因此,在機(jī)器人系統(tǒng)中所使用的語 音識別方法、韻律規(guī)則和語法規(guī)則等語言學(xué)方面的規(guī)則都是綜合了各種知識 形成的,只有這樣才能理解人說話表達(dá)的意思?梢园堰@種系統(tǒng)稱為語音理 解系統(tǒng)。但是人的說話有時不那么明確,或者表達(dá)不那么清楚,這時機(jī)器人就 要通過語音合成裝置在人說話內(nèi)容不明確或不清楚的地方提出疑問并請求解 答,或?qū)θ说恼f話內(nèi)容多次加以確認(rèn),采用這種方式構(gòu)成的系統(tǒng)稱為語音對話 系統(tǒng)。在語音對話系統(tǒng)中,雖然對人所發(fā)出的語音或單詞的識別并不十分準(zhǔn) 確,但通過對話和理解過程就能把人說話的內(nèi)容傳達(dá)給機(jī)器人。
一般來說,語音的生成過程分為三個階段:聲道內(nèi)音源的發(fā)音;到聲道出 口為止的聲波的傳遞;從聲道出口到語音接受點(diǎn)的聲波輻射。發(fā)音的音源也 有三種:通過聲帶的振動引起聲道內(nèi)呼出的氣流所產(chǎn)生具有近似周期性的斷 續(xù)氣流量的變化;當(dāng)呼出的氣流通過聲道時,由于聲道變窄而產(chǎn)生的聲壓變 化;把閉鎖的聲道突然開放而產(chǎn)生的階躍型的音壓變化。對元音而言,聲道由 咽喉、口咽和口腔組成,并具有全極點(diǎn)的傳遞函數(shù)特性,每個極點(diǎn)的頻率稱為 共振峰頻率,把這些共振峰頻率依次編號為D一共振峰頻率、第二共振峰頻 率、第三共振峰頻率等。
語音的特征有分節(jié)特征和韻律特征兩種。在語音分節(jié)特征中,可以把元 音或輔音等每個單音作為語音的一個特征單位,因此可以根據(jù)聲道的傳遞函 數(shù)和音源的種類對這些特征單位進(jìn)行描述。在語音的韻律特征中可以把語音 的抑揚(yáng)、強(qiáng)度、節(jié)奏和速度作為語音的一種特征單位。語音的抑揚(yáng)可以用振動的基頻來描述,語音的強(qiáng)度可以用音源的強(qiáng)弱來描述,而語音的節(jié)奏和速度則 可以用單音或停頓的持續(xù)時間來描述。
通過傅里葉變換對頻率函數(shù)進(jìn)行分析是一種基本的語音分析方法。這種 方法得出的結(jié)果是一種頻譜特性,包括振幅頻譜和相位頻譜,但相位特性對語 音影響不大,所以一般僅用振幅頻譜(簡稱頻譜)來表示。因為語音特征是隨 時間變化的,所以使用傅里葉變換對語音分析時,應(yīng)截取有限長度的語音信號 進(jìn)行分析。
孤立單呼語音識別系統(tǒng)的基本構(gòu)成。該圖所示系統(tǒng)只能 識別預(yù)先指定的有限個孤立單詞,這種系統(tǒng)不是進(jìn)行組成單詞的音素的識 別,而是把單詞整體作為一個單位來進(jìn)行識別。輸入系統(tǒng)的孤立單詞語音用 隨時間變化的函數(shù)來描述,通過某些數(shù)學(xué)運(yùn)算把單詞語音信號變換為語音特 征更為明確的參數(shù)序列,進(jìn)行音響分析。經(jīng)過變換后的單詞語音通常用十幾 維的向量序列來描述,即使同一說話者對同一單詞進(jìn)行發(fā)音,每次發(fā)音時的 向量序列長度也有可能不同。對單詞整體而言,向量序列長度的伸縮不是線 性變化的,元音的穩(wěn)定發(fā)音部分的長度容易引起伸縮,輔音部分和各個過渡 部分則保持相對的固有長度,因而描述單詞的整個向量序列長度的伸縮呈非 線性的。
在單呼語音識別系統(tǒng)中,被識別對象的單詞,都預(yù)先準(zhǔn)備好其標(biāo)準(zhǔn)的特征 向量序列。這些特征向量序列叫做標(biāo)準(zhǔn)模式。所謂單呼語音識別,是把經(jīng)過 變換后的輸入單詞的特征向量序列與各單詞的標(biāo)準(zhǔn)模式之間的相似性(或距 離)逐一進(jìn)行比較,Z后把相似性Z高的單詞作為識別結(jié)果進(jìn)行輸出。把被識 別單詞的特征向量序列與標(biāo)準(zhǔn)單詞模式進(jìn)行比較,計算兩者的相似性的操作 過程稱為“對照”或“匹配”。輸入的單詞和標(biāo)準(zhǔn)單詞的模式的向量序列長度一 般有差異,兩者進(jìn)行匹配時不能單純的線性伸縮把兩者湊齊,需要根據(jù)在時間 軸上的非線性特點(diǎn)采用時間規(guī)整技術(shù)進(jìn)行復(fù)雜的數(shù)學(xué)計算。
單呼語音識別系統(tǒng)有兩種類型:以特定人為前提并隨時進(jìn)行語音調(diào)整的 系統(tǒng)和以非特定人為前提且不對語音進(jìn)行特別調(diào)整的系統(tǒng)。前者叫做特定人 的單呼語音識別系統(tǒng),后者叫做非特定人的單呼語音識別系統(tǒng)。在特定人的 單呼語音識別系統(tǒng)中,大多數(shù)情況下是把特定人所說的單詞語音進(jìn)行音響分 析再變換為特征向量序列,然后原封不動地將這個特征向量序列句作為標(biāo)準(zhǔn) 模式來使用。在特定人的單呼語音識別系統(tǒng)中,選擇幾個典型的單詞特征向 量序列作為標(biāo)準(zhǔn)單詞模式,或從多個標(biāo)準(zhǔn)單詞模式中求出概率分布,Z后進(jìn)行 統(tǒng)計判別。
![]() |
| 機(jī)器人底盤 Disinfection Robot 消毒機(jī)器人 講解機(jī)器人 迎賓機(jī)器人 移動機(jī)器人底盤 商用機(jī)器人 智能垃圾站 智能服務(wù)機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 展廳機(jī)器人 服務(wù)機(jī)器人底盤 具身智能教育機(jī)器人 智能配送機(jī)器人 導(dǎo)覽機(jī)器人 |