亚洲第一中文-亚洲第一中文字幕-亚洲第一综合网站-亚洲丶国产丶欧美一区二区三区-国内精品久久久久影院中国-国内精品久久影视

服務熱線:400-6787-160
音響網(Audio160.com) > 行業(yè)資訊 > (其它) > 新思路|新器件帶給遠場語音識別的新希望!
新思路|新器件帶給遠場語音識別的新希望!
更新時間:2016-7-25 14:00:57 編輯:溫情 文章來源:音響網 調整文字大小:【
[導讀] 語音識別領域已經取得了許多重大進展,但是,距離機器人與人類真正的自由交流,卻還有許多難題需要解決,其中的難題之一就是遠場語音識別。

  語音識別領域已經取得了許多重大進展,但是,距離機器人與人類真正的自由交流,卻還有許多難題需要解決,其中的難題之一就是遠場語音識別。

  目前,計算機將語音轉換為文字,僅限近講的情況,一旦人與麥克風相距較遠,有混響或噪聲存在的情況下,語音識別率急劇降低,特別是有混響的情況,更對語音識別提出挑戰(zhàn),這與人有著極大的不同。也就是說在有適當混響的情況下,人會感覺聲音飽滿,聽得更加清楚,而對于計算機,機器人,卻恰恰相反。還有,眾所周知的雞尾酒效應中,我們人類是具有一種聽力選擇能力的,形象的描述就是在一個雞尾酒會上,人可以將注意力集中在某一個人的談話上,而忽略周圍人的談話及背景噪聲。盡管周邊的噪聲很大,我們仍然可以聽到我們感興趣的說話內容。這種能力我們每個人都有,但要讓機器也具有這種能力,卻是非常困難的。

  現(xiàn)有解決方案

  近半個世紀以來,科學家一直在致力于解決這個難題。目前,解決機器聽覺系統(tǒng)的雞尾酒會效應主要有兩個研究方向。

  第一種是聽覺場景分析,主要是基于音頻特征及語言模型對混在一起的語音進行分離。例如:可以利用語音信號諧波特性、短時平穩(wěn)特性、隱馬爾科夫語言模型,實現(xiàn)將混在一起的談話聲分離。但是,這種方法的缺點之一是對語音進行了一些不合理的假設,如不同人的說話聲在頻譜上是不重疊的。而且除此之外,基于語言模型的估計方法運算量又很大,難以實用。

  第二種是基于麥克風陣列的方法,利用麥克風陣列設計空間濾波器,實現(xiàn)對特定方向聲源的提取,并抑制其他方向上語音,從而達到對不同位置的聲音進行分離的目的,缺點是需要多個麥克風且計算復雜。

  未來解決方案

  顯然,上述的現(xiàn)有兩個解決方案都不能達到令我們滿意的程度。然而,最近美國杜克大學的學者給我們帶來了新的希望。

  通過將聲學材料及壓縮感知技術結合發(fā)明的一種新型器件,不僅使得單個麥克風就可以實現(xiàn)對三個混合聲源的分離,而且,其正確率可以達到96.67%。新器件與傳統(tǒng)的信號處理方法不同,它是通過設計精妙的聲學材料實現(xiàn)對不同方向的聲源進行編碼,且不需要對聲源有任何先驗知識或假設。

  該新器件是由一個塑料圓盤構成,外形十分類似一個披薩。圓盤的中心放置一個麥克風,麥克風周圍由36個扇形的通道組成,每個通道都是一個聲波導,由許多蜂窩狀的結構組成。每個通道都能夠把經過它的聲波進行調制,因此,整體結構類似于一個參數(shù)可調的均衡器。

  圓盤的工作原理,與你對著一個裝著水的瓶子說話時的情景很類似。由于聲波振動的影響,瓶子內部的空氣會發(fā)生共振,從而聲音某些頻率的能量會被衰減,而衰減的頻率值由瓶內水的多少決定。圓盤的每個通道都類似于一個裝著水的瓶子,通過精妙的設計每個通道中的蜂窩狀晶格的高低大小就可以實現(xiàn)對聲音不同頻率的能量進行衰減,從而達到對聲波編碼的目的。

  不過,由于新器件的尺寸較大,目前還難以在實際中獲得很好的應用。但試想一下,一旦該器件可以小型化,它將取代目前通用的麥克風陣列技術。利用單個麥克風,且不需要進行復雜的計算就可以實現(xiàn)在嘈雜的環(huán)境下提取感興趣的語音,這是一件多么美妙的事情。

 網友評論
 編輯推薦
  • 2019視聽行業(yè)萬里行之走進企業(yè)武漢
  • 2019視聽行業(yè)萬里行之武漢
  • 北京InfoComm China 2019展會
  • 獨家策劃:北京IFC2019不落幕展精彩搶先看
  • dBTechnologies品牌故事:核心競爭力來自原創(chuàng)和性能
  • 精益求精,締造完美品質—George Krampera,一生追求完美聲音
  • Crest Audio(高峰)-站在創(chuàng)新的高度 俯瞰市場之所需
  • KV2 Audio:音頻行業(yè)的先行者
設為首頁 | 商務信息 | 音響資訊 | 本站動態(tài) | 付款方式 | 關于音響網 | 網站地圖 | 網站RSS | 友情鏈接
本站網絡實名:音響網 國際域名:www.tszfjx.cn 版權所有.1999-2019 深圳市中投傳媒有限公司 .
郵箱:web@audio160.com  電話:0755-26751199(十二線) 傳真:0755-86024577
在線客服:點擊這里給我發(fā)消息 點擊這里給我發(fā)消息  點擊這里給我發(fā)消息  點擊這里給我發(fā)消息   視聽學院-商家論壇群: 視聽學院-商家論壇