【安防展覽網 科技動態】如果讓你單純聽一個人的聲音,你能聽出哪些信息?年齡?性別?還是家鄉?對于AI來說,這些都太沒難度了。近期,一項由美國麻省理工學院給出的研究表明,經過訓練的AI不僅能從聲音中獲取人們的性別、種族、年齡等信息,甚至連你長什么樣它都能聽出來!
據了解,這一能完成“聽聲辨人”操作的AI,主要依賴一個叫Speech2Face的神經網絡模型來完成訓練。該模型分為兩部分,一個是語音編碼器,負責對輸入的語音進行面部特征分析和預測;另一個是面部解碼器,對輸入的面部特征進行整合與生成。
在實際操作中,研究人員通過將一個百萬視頻剪輯而成的數據集放入模型,然后讓AI進行一段時間的自我訓練,之后只需憑借6秒鐘左右的語音,AI就能實現對人臉特征的采集和還原,并且呈現出效果不錯的圖像。
從MIT研究團隊給出的部分訓練成果,我們可以發現:Speech2Face能較好地識別出性別,對白種人和亞洲人也能較好地分辨出來,另外對30-40歲和70歲的年齡段聲音命中率稍微高一些。不過,由于AI的“聽覺”不是100%可靠,并且訓練素材不夠豐富,其也會產生不少的識別錯誤,同時對黑人聲音的辨別能力也偏弱。
雖然該技術還不是很完善,但滿足MIT初的設想已經綽綽有余。研究團隊指出,他們訓練AI這項功能并不是為了準確還原說話者模樣,而只是單純為了研究語音與相貌之間的關系,并以此來用語音生成各種可愛的卡通用戶頭像。
可能你會覺得這樣一個技術用作頭像生成有點大材小用,別擔心!因為其實類似的技術,目前其他研究機構也在積極開展中,并且有的已經投入到了一些有意義的應用場景。
比如卡內基梅隆大學曾發表過相似的研究,能夠從聲音猜測說話者的年齡、身高、體重、所處空間和環境信息。該大學研究人員認為聲音就像是人類的DNA一樣,蘊藏著豐富而獨特的信息,在各行各業中能夠獲得妙用。
他們在該技術識別和還原準確度超過60%的時候,開始正式投入社會進行應用測試。目前,美國海岸警衛隊仍在利用這項技術來識別惡意報警者,這項技術幫他們分辨出了報警者是否為惡作劇,同時縮小了調查的范圍,這讓他們每年減少了近150個惡作劇電話,節約了大量警力資源。
而據了解,卡內基梅隆大學的研究團隊終的設想,是用AI這項“聽音識人”技術來遠程確診帕金森等疾病。希望這項技術能夠打開現代醫療的創新大門,為疑難雜癥和一些絕癥提供解決思路與辦法。
除了將類似技術用于刑偵和醫療之外,現實中,相同的技術還被應用到了銀行、保險、客服、招聘等眾多場景與領域。其中,匯豐、摩根等銀行采用聲紋識別的方式來保障用戶賬戶安全;大都會人手保險公司利用AI系統來識別客戶的情緒與感受;一些保險公司用這項技術來判斷來電者的意圖;還有一些公司則將該技術用于招聘......
此外,2017年豐田汽車還曾在CES大會上,將該技術應用到了駕駛當中。AI被加載在攝像頭、傳感器、車載語音系統之上,協助判斷司機是否處于疲勞駕駛狀態,并及時作出提醒。這項技術讓司機的駕駛有更加了智能化的保障。
總而言之,不管是何種應用,AI“聽音辨人”的功能無疑是價值重大的,我們有理由相信,這項技術終會越來越多的出現在往后的生活與生產之中。不過,AI未來如果想真正成為人們的好幫手和好伙伴,眼下還需要進一步的升級與突破,發展之路還需期待!
版權與免責聲明:
凡本網注明“來源:智慧城市網”的所有作品,均為浙江興旺寶明通網絡有限公司-智慧城市網合法擁有版權或有權使用的作品,未經本網授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:智慧城市網”。違反上述聲明者,本網將追究其相關法律責任。
本網轉載并注明自其它來源(非智慧城市網)的作品,目的在于傳遞更多信息,并不代表本網贊同其觀點或和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網站或個人從本網轉載時,必須保留本網注明的作品第一來源,并自負版權等法律責任。
如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。