【安防展覽網 品牌專欄】近日,在聲紋識別競賽VoxSRC上,依圖算法奪得,等錯誤率降到0.0098、大幅超越第二名。
并且,依圖團隊(參賽隊伍名為logicworld)在使用*數據的情況下取得了優于其他團隊使用不限數據得到的結果,表明依圖聲紋識別技術已達世界前沿水平。
(競賽的任務是判斷兩段音頻是出自同一個人還是兩個不同的人,算法的輸出結果用等錯誤率(Equal Error Rate,EER)來衡量,EER越小系統性能越好)
0.0098的等錯誤率意味著什么?
首先,日常生活應用基本能夠滿足,筆記本電腦和汽車的聲紋鎖功能越來越可靠,智能硬件上的虛擬助理將不會被他人用同樣的關鍵詞喚醒,成為真正屬于你的個人助理。
在社保遠程身份驗證、反電信詐騙等公共服務領域,的聲紋識別技術也將更好地降本增效、服務民生,不需要再“居住異地,千里奔波”,更避免“九旬老人社保年審,家人抬著爬上三樓”。
聲紋識別擁有廣闊的應用前景。不僅如此,將語音識別與聲紋識別、語義理解相結合,就能知道 “是誰因為什么說了什么”,將大幅增強智能語音個性化服務,實現真正意義上的交互。
VoxSRC是由英國牛津大學、韓國互聯網巨頭Naver、斯坦福研究院和麻省理工學院聯合發起的聲紋識別競賽,被譽為“聲紋識別界的ImageNet競賽”。
本次比賽采用的數據集基于開源數據集VoxCeleb,由牛津大學團隊于 2017 年發布,后來逐漸擴充,現在是聲紋識別領域規模大、標注完備的開源數據集之一。
VoxCeleb來自YouTube名人采訪視頻,包含了7000多個來自不同種族、口音、職業和年齡的說話人,超過100萬段的說話聲,2000多小時的音頻和視頻,且基本都含有背景噪音、笑聲、說話聲重疊及其他雜音,非常考驗算法的實戰水平。同時,本次比賽測試數據不含標注,無法用來訓練或調整系統,確保了結果的公正與公平。
今年的VoxSRC吸引了來自海內外多支隊伍參與,包括約翰霍斯大學、法國國家信息與自動化研究所、清華大學、中山大學等高校和研究機構,以及平安科技、NEC等大型企業。
成立7年來,依圖在視覺感知、自然語言處理、語音識別、智能決策等多技術領域發展,這次參賽VoxSRC是依圖在語音領域的一次新嘗試。
未來,依圖將在多算法領域持續投入,推進多模態技術融合、軟硬件協同開發,將世界前沿的人工智能算法與行業場景深度結合,推動人工智能應用落地。
版權與免責聲明:
凡本網注明“來源:智慧城市網”的所有作品,均為浙江興旺寶明通網絡有限公司-智慧城市網合法擁有版權或有權使用的作品,未經本網授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:智慧城市網”。違反上述聲明者,本網將追究其相關法律責任。
本網轉載并注明自其它來源(非智慧城市網)的作品,目的在于傳遞更多信息,并不代表本網贊同其觀點或和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網站或個人從本網轉載時,必須保留本網注明的作品第一來源,并自負版權等法律責任。
如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。