在虛擬會議中,通過靜音鍵可以很容易阻止人們互相交談。但在熙熙攘攘的咖啡館里,沒有按鈕可以讓你旁邊的桌子安靜下來。
定位和控制聲音的能力——例如,在擁擠的房間里,將一個人的說話與特定位置隔離開來——對研究人員來說是一個挑戰,尤其是在沒有攝像頭視覺線索的情況下。
由華盛頓大學的研究人員領導的一個團隊開發了一種可變形的智能揚聲器,它使用自動部署的麥克風將房間劃分為語音區域,并跟蹤單個揚聲器的位置。在該團隊的深度學習算法的幫助下,即使兩個相鄰的人的聲音相似,該系統也可以讓用戶將某些區域或單獨的同時對話靜音。每個直徑約一英寸,麥克風自動從充電站部署,然后返回到充電站。這允許系統在環境之間移動并自動設置。例如,在會議室會議中,可以部署這樣一個系統,而不是中央麥克風,以便更好地控制室內音頻。
該團隊于9月21日在《自然通訊》(Nature Communications)上發表了他們的研究結果。
“如果我閉上眼睛,房間里有10個人在說話,我不知道誰在說什么,也不知道他們在房間里的確切位置。這對人類大腦來說是很難處理的。到目前為止,這對技術來說也很困難,”共同主要作者Malek Itani說,“這是第一次,使用我們稱之為‘聲學群’(acoustic swarm)的機器人,我們能夠跟蹤一個房間里說話的多人的位置,并將他們的講話分開。”
以前對機器群的研究需要使用頭頂或設備上的攝像頭、投影儀或特殊表面。華盛頓大學團隊的系統是第一個僅使用聲音精確分配機器群的系統。
該團隊的原型由七個小型機器人組成,它們分布在不同大小的桌子上。當它們從充電器中移動時,每個機器人都會發出高頻聲音,就像蝙蝠導航一樣,利用這個頻率和其他傳感器來避開障礙物,四處移動而不會從桌子上掉下來。自動部署使機器人能夠以最大的精度放置自己,比人工設置它們更能精準控制聲音。這些機器人分散在盡可能遠的地方,因為距離越遠,區分和定位說話的人就越容易。現在的消費級智能揚聲器有多個麥克風,但聚集在同一個設備上,相距太近了,無法允許這個系統的靜音和活動區域。
“如果我有一個麥克風離我一英尺遠,另一個麥克風離我兩英尺遠,我的聲音會先傳到一英尺遠的麥克風。如果其他人離麥克風更近,他們的聲音會先傳到那里。”研究人員表示,“我們開發了神經網絡,利用這些延時信號來區分每個人在說什么,并跟蹤他們在空間中的位置。因此,你可以讓四個人進行兩次對話,并分離出四種聲音中的任何一種,并在房間中定位每種聲音。”
該團隊在辦公室、客廳和廚房測試了機器人,每組三到五人說話。在所有這些環境中,該系統可以在90%的情況下識別彼此相距1.6英尺(50厘米)以內的不同聲音,而無需事先了解說話者的數量。該系統平均能夠在1.82秒內處理3秒的音頻。
研究人員表示,隨著技術的進步,聲群可能會被部署在智能家居中,以更好地區分與智能揚聲器交談的人。例如,這可能只允許坐在沙發上的人,在一個“活動區”,對電視進行語音控制。
研究人員計劃最終制造出可以在房間里移動的麥克風機器人,而不是局限在桌子上。該團隊還在研究揚聲器是否能發出聲音,允許真實世界內實現靜音和活動區域,讓房間不同位置的人就能聽到不同的聲音。
當然,這項技術也會讓人聯想到隱私問題。研究人員承認麥克風可能會被誤用,所以他們設置了防范措施:麥克風是用聲音導航的,而不是像其他類似系統那樣用車載攝像頭導航。而且這些機器人很容易被看到,當它們活動時,它們的提示燈會閃爍。聲學群不像大多數智能揚聲器那樣在云端處理音頻,而是在本地處理所有音頻,作為隱私限制。盡管有些人最初的想法可能是關于監視,但該系統可以用于相反的情況,該團隊說。
“它有可能真正有益于隱私,超出了目前的智能揚聲器所允許的范圍,”Itani說。“我可以說,'不要在我的辦公桌周圍記錄任何東西',我們的系統會在我周圍3英尺處產生一個區域。這個區域中的任何內容都不會被記錄下來。或者,如果兩組在旁邊說話,一組正在進行私人對話,而另一組正在錄音,則一個對話可以處于靜音區,并且它將保持私密。”
|