【中國安防展覽網 企業關注】中國團隊在世界計算機視覺領域比賽中刷新谷歌、微軟保持的紀錄奪得分組,但離破解計算機視覺識別難題仍有很大差距。
日前結束的世界計算機視覺領域比賽———“ImageNet大規模視覺識別挑戰賽”上傳來消息,來自中國的自動駕駛公司Momenta研發團隊和來自中國的360人工智能團隊分別奪得分類組和檢測組,并且刷新此前由谷歌、微軟和牛津大學等保持數年的世界紀錄。在此次參賽的27支隊伍中,超半數來自中國,且表現出色的團隊也都來自中國。
據預測,未來30年,智能機器人數量將超過*總數,人們需要考慮如何與沒有屏幕的設備打交道,因此,聽覺和視覺識別的地位突飛猛進,被業界認為是開啟人工智能時代的兩把鑰匙。從中國團隊在世界計算機視覺識別大賽上的突出表現來看,在這一入口我們有了很大的提升,但是離真正破解計算機視覺識別難題仍有很大差距。
“機器識圖”已超越人類,錯誤率小于5%
ImageNet大規模視覺識別挑戰賽分為兩大類別:分類和檢測。分類是讓機器標注一張圖片里有什么,檢測就是讓機器把圖片中的內容全部標注出來。“如果一張圖中既有貓又有狗,機器給這張照片標注了貓,在分類組里就是對的,在檢測組就是錯的。”大賽參與團隊之一、七牛云人工智能實驗室發起人和負責人彭垚表示。
美國斯坦福大學計算機系終身教授、人工智能實驗室與視覺實驗室主任李飛飛是ImageNet的創始人之一。2009年,他們建成一個含有1500萬張照片、涵蓋2.2萬種物品的數據庫。2010年開始,ImageNet設立競賽規則,邀請*的計算機科學研究者參加競賽,比較算法識別特定圖像的錯誤率。
在2015年的比賽中,計算機看圖錯誤率的百分比已經低至個位數。業界認為,從這一刻起計算機的識圖能力已超越了人類。今年該類別的更是把錯誤率降低到2.25%,去年的成績是錯誤率2.99%。和分類相比,檢測的難度要大得多。今年隊對圖片的檢測中,識別度為73.1%,較之去年隊的66.3%有顯著提高。
“現在好的機器能在一張圖片中識別出1000多件物品,而且對于不認識的物品,也能大致猜出它是什么。”中科院上海微系統與信息技術研究所仿生視覺系統實驗室主任張曉林說。不過,由于大部分圖片都不需要視覺人工智能雙眼處理這么大的信息量,且機器不會疲勞、工作穩定,因此在疑犯追蹤、掃黃等特定應用場景中,機器檢測圖片的準確率已超過人類。
視頻識別成熱點研究方向,準確率尚不足10%
隨著機器識圖準確率的不斷提高,科學家開始接受更高難度挑戰:視頻識別。相比圖片,視頻應用場景更多。近年來,在安全視頻監控領域,人工智能已經可以從海量監控視頻中找到可疑物品或人員,而不是通過偵查人員不眠不休地盯著屏幕看。
視頻識別的基礎同樣是2012年發布、如今大紅大紫的“深度卷積神經網絡算法”,因為視頻在本質上就是若干幀圖像的連續播放,只是視頻識別的計算量比圖像識別大多了。一輛行進中的公交車,機器除了要記得公交車的形狀,還要掌握其運動軌跡特征。這樣才可以對視頻中提取的多張照片進行比對,準確率也就更高了。
視頻識別的難度在于機器對視覺語言的理解,比如機器很難判定人們正在舉行婚禮還是開派對。彭垚說,現在他們的團隊就嘗試通過多線索學習來突破困境,比如把字幕、聲音等場景要素都考慮進去,當機器能“聽”到婚禮進行曲時,是婚禮視頻的可能性就更高了。
“視頻識別現在還處于非常初級的階段,就谷歌發布的數據集對業內主流算法的評測來看,準確率不足10%。”彭垚說。不過,視頻識別的前景又是如此之廣,以至于越來越多人工智能視覺大賽都開始將此作為競賽內容。今年之后,ImageNet也將由WebVision競賽接手,其中視頻識別是很重要的比賽項目。
目標:讓機器看著人臉,讀懂人心
盡管“智慧”的機器已經可以將一段視頻畫面轉化為“他笑了,他哭了”的文字,不過張曉林表示,以它們現在的“智商”,還無法理解笑和哭的含義。
“當前的圖像處理還是道數學題。”張曉林說,所謂數學題,就是把每一個像素轉化為計算機的0和1,利用數學的歸納、概率、統計去算出結論。然而事實上,大腦不需要如此大量的計算,它會過濾掉很多東西,只保留它所關注的。
科學家們正在從兩方面去征服這座“高山”,一類科學家從計算機領域,他們不斷積累數據,加快硬件的傳輸速度、分辨率和穩定性,增強計算機的運算能力。而另一條路,則是從理解語言本身出發。大腦中的布諾卡氏區是語義產生的地方,韋尼克區是解析語義的地方,張曉林所帶領的團隊希望從這兩處得出大腦是如何處理語言的,從而讓機器能夠主動發現并抓取信息。但是,“終的目標還是要讓機器看著你的臉,讀懂你的心。”張曉林說。
原標題 沈湫莎:人工智能何時才能讀懂人心