語音識別領域已經取得了許多重大進展,但是,距離機器人與人類真正的自由交流,卻還有許多難題需要解決,其中的難題之一就是遠場語音識別。
目前,計算機將語音轉換為文字,僅限近講的情況,一旦人與麥克風相距較遠,有混響或噪聲存在的情況下,語音識別率急劇降低,特別是有混響的情況,更對語音識別提出挑戰(zhàn),這與人有著極大的不同。也就是說在有適當混響的情況下,人會感覺聲音飽滿,聽得更加清楚,而對于計算機,機器人,卻恰恰相反。還有,眾所周知的雞尾酒效應中,我們人類是具有一種聽力選擇能力的,形象的描述就是在一個雞尾酒會上,人可以將注意力集中在某一個人的談話上,而忽略周圍人的談話及背景噪聲。盡管周邊的噪聲很大,我們仍然可以聽到我們感興趣的說話內容。這種能力我們每個人都有,但要讓機器也具有這種能力,卻是非常困難的。
現(xiàn)有解決方案
近半個世紀以來,科學家一直在致力于解決這個難題。目前,解決機器聽覺系統(tǒng)的雞尾酒會效應主要有兩個研究方向。
第一種是聽覺場景分析,主要是基于音頻特征及語言模型對混在一起的語音進行分離。例如:可以利用語音信號諧波特性、短時平穩(wěn)特性、隱馬爾科夫語言模型,實現(xiàn)將混在一起的談話聲分離。但是,這種方法的缺點之一是對語音進行了一些不合理的假設,如不同人的說話聲在頻譜上是不重疊的。而且除此之外,基于語言模型的估計方法運算量又很大,難以實用。
第二種是基于麥克風陣列的方法,利用麥克風陣列設計空間濾波器,實現(xiàn)對特定方向聲源的提取,并抑制其他方向上語音,從而達到對不同位置的聲音進行分離的目的,缺點是需要多個麥克風且計算復雜。
未來解決方案
顯然,上述的現(xiàn)有兩個解決方案都不能達到令我們滿意的程度。然而,最近美國杜克大學的學者給我們帶來了新的希望。
通過將聲學材料及壓縮感知技術結合發(fā)明的一種新型器件,不僅使得單個麥克風就可以實現(xiàn)對三個混合聲源的分離,而且,其正確率可以達到96.67%。新器件與傳統(tǒng)的信號處理方法不同,它是通過設計精妙的聲學材料實現(xiàn)對不同方向的聲源進行編碼,且不需要對聲源有任何先驗知識或假設。
該新器件是由一個塑料圓盤構成,外形十分類似一個披薩。圓盤的中心放置一個麥克風,麥克風周圍由36個扇形的通道組成,每個通道都是一個聲波導,由許多蜂窩狀的結構組成。每個通道都能夠把經過它的聲波進行調制,因此,整體結構類似于一個參數(shù)可調的均衡器。
圓盤的工作原理,與你對著一個裝著水的瓶子說話時的情景很類似。由于聲波振動的影響,瓶子內部的空氣會發(fā)生共振,從而聲音某些頻率的能量會被衰減,而衰減的頻率值由瓶內水的多少決定。圓盤的每個通道都類似于一個裝著水的瓶子,通過精妙的設計每個通道中的蜂窩狀晶格的高低大小就可以實現(xiàn)對聲音不同頻率的能量進行衰減,從而達到對聲波編碼的目的。
不過,由于新器件的尺寸較大,目前還難以在實際中獲得很好的應用。但試想一下,一旦該器件可以小型化,它將取代目前通用的麥克風陣列技術。利用單個麥克風,且不需要進行復雜的計算就可以實現(xiàn)在嘈雜的環(huán)境下提取感興趣的語音,這是一件多么美妙的事情。
|