国产一区二区三区97在线,国产精品免费看久久久,黄色影视网址在线播放观看视频,日韩AV女优在线观看地址

移動版

當前位置:智慧城市網資訊中心企業關注

新發產品更多
語音識別比肩專業速記員 深度學習改變對話式AI
2017年08月23日 09:19:15來源:物聯網在線點擊量:40371
導讀微軟公司近日宣布,其對話式語音識別系統的出錯率達到5.1%,創下目前為止的低水平,超過了去年微軟人工智能及研究事業部一組研究人員所實現的5.9%出錯率,達到了專業速錄員的同等水平。在此次研究中,專業速錄員具備重復收聽錄音等優勢。
  【中國安防展覽網 企業關注】微軟公司近日宣布,其對話式語音識別系統的出錯率達到5.1%,創下目前為止的低水平,超過了去年微軟人工智能及研究事業部一組研究人員所實現的5.9%出錯率,達到了專業速錄員的同等水平。在此次研究中,專業速錄員具備重復收聽錄音等優勢。
 
  “語音識別”的夢想,是真正能夠理解人類語言甚至是方言環境的系統。但幾十年來,人們并沒有一個有效的策略來創建這樣一個系統,直到人工智能技術的爆發。
 
  在過去幾年中,人們在人工智能和深度學習領域的突破,讓語音識別的探索跨了一大步。市面上玲瑯滿目的產品也反映了這種飛躍式發展,例如亞馬遜Echo、蘋果Siri 等等。本文將回顧語音識別技術領域的新進展,研究促進其迅猛發展進程的元素,并探討其未來以及我們距離可以完*這個問題還有多遠。
 
  背景:人機交互
 
  多年來,理解人類一直都是人工智能的重要任務之一。人們不僅希望機器能夠理解他們在說些什么,還希望它們能夠理解他們所要表達的意思,并基于這些信息采取特定的行動。而這一目標正是對話式人工智能(AI)的精髓。
 
  對話式AI包含有兩個主要類別:人機界面,以及人與人溝通的界面。在人機界面中,人類與機器往往通過語音或文本交互,屆時機器會理解人類 ( 盡管這種理解方式是有限的 ) 并采取相應的一些措施。圖1表明,這臺機器可以是一個私人助理 ( Siri、Alexa之類的產品 ) 或某種聊天機器人。
 
  在人與人之間的互動中,人工智能會在兩個或兩個以上進行會話、互動或提出見解的人類用戶之間構建一座橋梁 ( 參見圖2 ) 。例如,一個AI在聽取電話會議后,能夠創立出一段簡要的電話記錄摘要,并跟進相關人員。
 
  對話式AI背后:機器感知與機器識別
 
  為了理解對話式AI背后的挑戰與技術,我們必須研究人工智能的基本概念:機器感知與機器識別。
 
  機器感知是指機器能夠采用類似于人類自己憑感覺感知周圍世界來分析數據的能力;換句話說,其本質上就是為機器賦予人類的感知能力。近來很多的人工智能算法都需要使用電腦攝像頭,如目標檢測和識別,都歸屬于機器感知范疇——主要涉及視覺處理。語音識別和分析則是那些利用聽覺的機器感知技術。
 
  機器識別是在機器感知所生成的元數據之上的推理運算。機器識別包括決策制定、專家系統、行動執行以及用戶的意圖等方面。一般情況下,如果沒有機器識別,對AI的感知系統不會產生任何影響,而機器感知會提供適當的元數據信息來令其做出決策與執行行動。
 
  在對話式AI中,機器感知包括所有的語音分析技術,如識別和性能分析;機器識別則包括所有與語言理解能力相關的技術,而這也是自然語言處理 ( NLP ) 的一部分。
 
  語音識別的發展
 
  語音識別的研究和發展情況基本分為三個主要時期:
 
  • 2011年之前
 
  人們對語音識別的活躍研究已經進行了幾十年,而事實上,即使是在二十世紀50年代和60年代,人們也一直在試圖構建語音識別系統。然而,在2011年以及深度學習、大數據和云計算出現以前,這些解決方案還遠遠不足以被大規模采用以及商業使用。從本質上來說,其算法還不夠好,當時也沒有足夠的數據可以用于算法的訓練,而且無法進行高性能計算機也阻礙了研究人員運行更復雜的實驗。
 
  • 2011年-2014年
 
  深度學習產生的個重大影響發生在2011年,當時有一個研究小組一同創造了個基于深度學習的語音識別系統,而這個研究小組成員包括來自微軟的研究人員、李登(Li Deng)、董玉(Dong Yu)和亞歷克斯·阿賽羅(Alex Acero),以及杰弗里·希爾頓(Geoffrey Hinton)和他的學生喬治·達爾(George Dahl)。效果很即時:其相對錯誤率降低了25%以上。而這個系統也是深度學習領域進行大規模發展和改進的切入點。
 
  此后,在有了更多數據、云計算可用后,蘋果(Siri)、亞馬遜 (Alexa) 和谷歌這類的大公司均采用了深度學習技術,而且對其產品性能有著顯著的改善,并將其產品發布到了市場上。
 
  • 2015至今
 
  在2014年底,遞歸神經網絡獲得了更多的關注。與此同時,遞歸神經網絡與注意力模型、記憶網絡以及其他技術一起,掀起了這個領域發展的第三次浪潮。如今,幾乎每一種算法或者解決方案都采用了某種類型的神經模型,而且實際上,幾乎所有的關于語音的研究都已轉向深度學習。
 
  語音識別領域,神經模型的新進展
 
  過去六年中,語音識別在此前40多年的基礎上創造了更多的突破。這種非凡的新進展主要歸功于神經網絡。要理解深度學習所帶來的影響以及它所扮演的角色,我們首先需要理解語音識別是如何工作的。
 
  盡管近50年來語音識別一直屬于熱門研究領域,然而構建能夠理解人類語言的及其仍舊是人工智能具挑戰性的問題之一,要實現這一目標非常困難。語音識別由不少明確的任務組成:給出某種制定的人類語言,然后嘗試將其語音轉換成文字。然而,機器所識別的語音中可能包括一部分噪音,所以就要求其能夠從噪聲中提取出與對話相關的部分并將其轉換成有意義的文字。
 
  語音識別系統的基本構造塊
 
  語音識別基本分為三個主要部分:
 
  • 信號位準:信號為準的目的是提取語音信號并增強信號(如果有必要的話),或是進行適當的預處理、清理和特征提取。這非常類似于每一項機器學習任務,換句話說,如果給定一些數據,我們需要做適當的數據預處理和特征提取。
 
  • 噪音位準:噪音位準的目的在于將不同的特征劃分成不同的聲音。換句話說,聲音本身并不能提供出一個足夠的標準,而有時我們將次于原聲的聲音稱為聲學標準。
 
  • 語言位準:因為我們假設這些聲音都是人類所產生而且是有意義的,因此我們可以把這些聲音組合成詞語,然后把這些詞語組合成句子。在語言位準中,這些技術通常屬于不同類型的NLP技術。
 
  基于深度學習的改進
 
  深入學習對語音識別領域產生了巨大的影響。其影響非常深遠,即使在今天,幾乎每一個語音識別領域的解決方案都可能包含有一個或多個基于神經模型的嵌入算法。
 
  通常而言,人們對語音識別系統的評價都基于一個名為配電盤(SWBD)的行業標準。SWBD是一個語音語料庫,整合了電話中的即興對話,包含音頻和人聲的副本。
 
  語音識別系統的評估標準主要基于其誤字率(WER),誤字率是指語音識別系統識別錯誤的單詞有多少。圖3展示了從2008年到2017的誤字率改進情況。
 
  從2008年到2011年,誤字率一直都處于一個穩定的狀態,位于23%至24%之間;而深度學習從2011年開始出現時起,誤字率從23.6%降低至5.5%。這一重大發展對語音識別開發而言是一種變革,其誤字率的改進相對提高了近77%。誤字率的改善也產生了廣泛應用,例如蘋果Siri、亞馬遜 Alexa、微軟 Cortana 和 Google Now,這些應用也可以通過語音識別激活各種家居,如亞馬遜Echo 和 Google Home。
 
  秘密武器
 
  那么,系統產生如此大幅度改善的原因是什么呢?是不是有什么技術可以使得誤字率從23.6%減少到了5.5%呢?遺憾的是,并沒有其他單獨的技術、方法。
 
  然而,深入學習和語音識別息息相關,構造出了一個可以涉及各種不同技術和方法的先進系統。
 
  例如,在信號位準中,有著不同的基于神經模型從信號中提取和增強語音本身的技術 (圖4) 。同時,還有能夠用更加復雜的基于神經模型的方法取代經典特征提取方法的技術。
 
  聲音和語言位準中也包含有各種各樣不同的深度學習技術,無論是聲音等級分類還是語言等級分類,都采用了不同類型基于神經模型的架構(見圖5)。
 
  總而言之,建立一個先進的系統并不是一項容易的工作,而實現將所有涉及的這些不同技術集成為一個系統的過程也不輕松。
 
  前沿研究
 
  近來在語音識別領域有這么多的突破,那么我們自然要問,語音識別接下來的突破口在哪?未來聚焦的研究點或將從以下三個主要領域展開:算法、數據和可擴展性。
 
  算法
 
  隨著亞馬遜Echo 與 Google Home 的成功,許多公司正在發布能夠識別理解語音的智能揚聲器和家庭設備。然而,這些設備的推出又帶來了一個新問題:用戶說話時往往距離麥克風不是很近,例如用戶用手機對話時的狀態。而處理遠距離語音識別又是一個具有挑戰性的問題,很多研究小組也正在積極研究這個問題。如今,創新的深度學習和信號處理技術已經可以提高語音識別的質量了。
 
  數據
 
  語音識別系統的關鍵問題之一是缺乏現實生活的數據。例如,很難獲得高質量的遠程通話數據。但是,有很多來自其他來源的數據可用。一個問題是:我們可以創建合適的合成器來生成培訓用的數據嗎?今天,生成合成數據并培訓系統正在受到重視。
 
  為了訓練語音識別系統,我們需要同時具備音頻和轉錄的數據集。人工轉錄是繁瑣的工作,有時會導致大量音頻的問題。因此,就有了對半監督培訓的積極研究,并為識別者建立了適當程度的信心。
 
  由于深度學習與語音識別相結合,因此對CPU和內存的占用量不容小覷。隨著用戶大量采用語音識別系統,構建經濟的云解決方案是一個具有挑戰性的重要問題。對如何降低計算成本并開發更有效的解決方案的研究一直在進行。今天,大多數語音識別系統都是基于云的,并且具有必須解決的兩個具體問題:延遲和持續連接。延遲是需要立即響應的設備(如機器人)的關鍵問題。在長時間監聽的系統中,由于帶寬成本,持續連接是一個問題。因此,還需要對邊緣語音識別的研究,它必須保持基于云的系統的質量。
 
  解決語音識別問題
 
  近年來,語音識別的表現和應用出現了巨大的飛躍。我們離完*這個問題還有多遠?答案也許五年、也許十年,但仍然有一些挑戰性的問題需要時間來解決。
 
  個問題是對噪音的敏感性問題。一個語音識別系統在非常接近麥克風而且不嘈雜的環境中運行得很好——然而,如果說話的聲音比較遠或者環境很嘈雜能迅速降低系統的效能。
 
  第二個必須解決的問題是語言擴展:世界上大約有7000種語言,絕大多數語音識別系統能夠支持的語言數量大約是八十種。擴展系統帶來了巨大的挑戰。此外,我們缺少許多語言的數據,而且匱乏數據資源則難以創建語音識別系統。
 
  結論
 
  深度學習在語音識別和對話式AI領域刻下了深深的印記。而鑒于該技術近獲得的突破,我們真的正處于一場革命的邊緣。
 
  而大的問題在于,我們是否準備贏得語音識別領域的技術挑戰,并像其他商品化技術一樣開始運用它呢?或者說,是否還有另一個新的解決方案正等待著我們去發現?畢竟,語音識別的新進展只是未來科技藍圖的一小塊:語言理解本身就是一個復雜而且或許更加強大的一個領域。
 
  原標題 語音識別的前世今生 | 深度學習徹底改變對話式人工智能
關鍵詞 語音識別人工智能語音識別
相關閱讀更多
版權與免責聲明:

凡本網注明“來源:智慧城市網”的所有作品,均為浙江興旺寶明通網絡有限公司-智慧城市網合法擁有版權或有權使用的作品,未經本網授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:智慧城市網”。違反上述聲明者,本網將追究其相關法律責任。

本網轉載并注明自其它來源(非智慧城市網)的作品,目的在于傳遞更多信息,并不代表本網贊同其觀點或和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網站或個人從本網轉載時,必須保留本網注明的作品第一來源,并自負版權等法律責任。

如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。

正在閱讀:語音識別比肩專業速記員 深度學習改變對話式AI
我要投稿
  • 投稿請發送郵件至:(郵件標題請備注“投稿”)afzhan@foxmail.com
  • 聯系電話0571-87756384
智慧城市行業“互聯網+”服務平臺
智慧城市網APP

功能豐富 實時交流

智慧城市網小程序

訂閱獲取更多服務

微信公眾號

關注我們

抖音

智慧城市網

抖音號:afzhan

打開抖音 搜索頁掃一掃
i

視頻號

AF智慧城市網

視頻號ID:sphF7DOyrojJnp8

打開微信掃碼關注視頻號

小紅書

智慧城市

小紅書ID:2537047074

打開小紅書 掃一掃關注
反饋