【中國安防展覽網(wǎng) 媒體導讀】雖然人臉識別有眾多其他識別技術(shù)*的優(yōu)點,它仍然被認為是生物識別領(lǐng)域以及人工智能領(lǐng)域困難的問題之一。我們每個人的臉部在不同表情下會產(chǎn)生外形變化,目前還無法做到一些科幻電影中那樣神奇。人臉識別技術(shù)可以識別你,但它會記住你嗎?
話說想隨便談個戀愛,總共分幾步?這是標準的形而上哲學問題,有些單身狗黃金會員甚至能告訴你答案是負無窮。但如果就考慮正常人的一般情況,那步可能是從搭訕開始算。但如果你想跟人工智能談個戀愛,那情況可能就要復雜一點了。畢竟搭訕的前提是他能記住你才行,但就算他能記住你,也要把你和桌椅板凳、蘿卜青菜分開才行。
茫茫人海中一眼認出你 LSTM讓你和AI談戀愛
今天要討論的技術(shù),就是負責這塊工作的——當然談戀愛啥的還有點遠——如何讓AI記住某件事的同時,將這件事從與萬事萬物的記憶中區(qū)分出來。這個精神網(wǎng)絡(luò)技術(shù)的名字叫做LSTM(Long Short-Term Memory)長短期記憶網(wǎng)絡(luò),可以說是個相當酷的名字。
這項技術(shù)雖然在1997年就被提出,但隨著整體AI技術(shù)環(huán)境的成熟和改進方式的完善,LSTM在近段時間開始火爆了起來。包括谷歌翻譯等產(chǎn)品中都開始應(yīng)用這項技術(shù)。
今天就來科普下這個“讓人工智能在人群中認出你”的技術(shù)。雖然LSTM的技術(shù)進程推進比不上很多算法與精神網(wǎng)絡(luò),但它展示的未來可能與人文內(nèi)涵卻帶來更加豐富的意味。
從呱呱墜地到情竇初開:LSTM解決了什么問題?
想要了解LSTM,必須先要弄懂另一個名詞:循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。腦極體在討論很多機器學習算法與應(yīng)用時都會提到RNN,主要就是因為它解決了機器學習中一個重要的問題:記憶。
所謂循環(huán)神經(jīng)網(wǎng)絡(luò),簡單來說是在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)上加入了”循環(huán)“功能。開始的神經(jīng)網(wǎng)絡(luò),每層計算之間的結(jié)果是不相聯(lián)系的,這樣留下的問題是機器學習系統(tǒng)沒有記憶能力。
而RNN的根本出發(fā)點,就是將不同層精神網(wǎng)絡(luò)之間的輸入、運算與輸出進行聯(lián)系。讓神經(jīng)網(wǎng)絡(luò)產(chǎn)生記憶能力。
賦予機器學習記憶能力,有很多直接使用場景。比如說在機器翻譯當中,使用RNN技術(shù)可以帶來聯(lián)系上下文的能力,讓翻譯結(jié)果準確貼合語境。
但是RNN還是存在著巨大的缺陷,那就是它不知道如何選擇該記憶什么忘記什么。這就導致了機器學習系統(tǒng)把所有信息都記了下來。這樣首先給運算能力增加了大量負荷,其次也讓神經(jīng)網(wǎng)絡(luò)難以判定比較遙遠信息的對應(yīng)性。這在AI界被稱為RNN的”長序依賴“問題。
舉例來說,用RNN協(xié)助進行翻譯,它會記住連續(xù)語句中的吃飯、喝水等動作。但如果主人公在前幾段舉起了酒杯,這一段開始喝酒,那它就徹底分不清了....
針對這些問題,從業(yè)者發(fā)明了LSTM,所謂長短期記憶網(wǎng)絡(luò),就是來區(qū)分哪些記憶要歸位長期記憶,哪些記憶只需要短期儲存。這樣就可以在循環(huán)記憶網(wǎng)絡(luò)中記住關(guān)鍵信息的同時減輕運算工作量。所以LSTM是一種特殊的RNN。
回到談戀愛的話題,RNN就像一個呱呱墜地的嬰兒,雖然有了記憶,但無法區(qū)別記憶,不知道該記住什么。而LSTM就像情竇初開的少年,他已經(jīng)能記住女孩的名字、愛好、容貌,并將這些東西聯(lián)系起來,推斷出自己注定是備胎的悲慘現(xiàn)實……
三重門:LSTM的工作原理
不妨簡單解釋一下LSTM的工作原理。LSTM區(qū)別于RNN的地方,主要就在于它在算法中加入了一個判斷信息有用與否的”處理器“,這個處理器作用的結(jié)構(gòu)被稱為cell。
一個cell當中被放置了三扇門,分別叫做輸入門、遺忘門和輸出門。一個信息進入LSTM的網(wǎng)絡(luò)當中,可以根據(jù)規(guī)則來判斷是否有用。只有符合算法認證的信息才會留下,不符的信息則通過遺忘門被遺忘。
說起來無非就是一進二出的工作原理,卻可以在反復運算下解決神經(jīng)網(wǎng)絡(luò)中長期存在的大問題。目前已經(jīng)證明,LSTM是解決長序依賴問題的有效技術(shù),并且這種技術(shù)的普適性非常高,導致帶來的可能性變化非常多。各研究者根據(jù)LSTM紛紛提出了自己的變量版本,這就讓LSTM可以處理千變?nèi)f化的垂直問題。
LSTM的應(yīng)用空間
LSTM雖然沒有多么復雜,但應(yīng)用率卻非常高。例如這項技術(shù)已經(jīng)被證明有效的應(yīng)用環(huán)境就是在文本理解與翻譯領(lǐng)域。
LSTM的直接價值體現(xiàn),就是根據(jù)上下文之間的關(guān)鍵信息,來推斷后序文本當中出現(xiàn)的主體定義。這就讓機器翻譯更有可能處理較長的文本甚至整個故事。
對于“機器學習+文本”來說,理解、翻譯和新的文本生成永遠是捆在一起的鐵三角。LSTM可以幫助理解上下文這種人類特有的表達方式,當然也有助于AI學習從人類文本中梳理邏輯和脈絡(luò)。而以此為契機反向生成有語境、有邏輯、有伏筆的新文本,也是LSTM直接的應(yīng)用場景之一。
同樣,上下文不僅是在文本當中才有。比如在視頻當中,就也會出現(xiàn)前后故事聯(lián)系的情況,甚至更復雜一點出現(xiàn)通過圖像來進行的上下文聯(lián)系。比如一件衣服穿在不同人物身上的意義;反復出現(xiàn)的關(guān)鍵道具;甚至天氣對劇情的推動作用。
目前已經(jīng)有通過LSTM變體技術(shù)來解讀電視劇的實驗。而更廣闊的應(yīng)用空間,是通過LSTM來對監(jiān)控視頻進行記憶推理。比如在全市的視頻監(jiān)控數(shù)據(jù)中尋找被偷錢包的下落等等,說不定都很快可以實現(xiàn)。
同樣,在NLP自然語言處理當中,LSTM也可以有巨大的應(yīng)用價值。比如選擇記憶人的語言習慣、口音、發(fā)音方式等等,可以幫助AI理解人類真實語言,降低對語言準確性的要求。另外通過LSTM也可以幫助AI來理解人類的大段語音命令,從而讓人類對AI下達負責命令成為可能。
未來狂想:當機器開始選擇性記憶
讓人工智能選擇性地記住點什么,是一件腦洞大開的事。
這很容易理解,要知道眾多科幻片里毀天滅地的人工智能都是從有選擇性記憶開始的——當然他們不約而同先記住人類很壞就不知道為什么了。
由于針對長短期記憶的訓練數(shù)據(jù)缺失非常嚴重,LSTM的進化速度還比較緩慢。尤其是更加抽象的非文本材料信息訓練十分匱乏,也較少行之有效的訓練方式。但如果補完了這一環(huán),那帶來的想象沖撞可謂*。
這里列舉一下LSTM技術(shù)帶來的兩條比較有可能的進化線。他們都是由LSTM指向的選擇記憶能力作為來說,卻很容易推導到我們十分懼怕也十分向往的人工智能能力當中。
猜想1:長短期記憶——選擇記憶——的推理能力——預言能力。
解釋:通過大量的選擇記憶訓練,AI可以理解到事物之間有怎樣的長序聯(lián)系。甚至是信息距離非常遙遠的兩個事物之間是如何關(guān)聯(lián)的。而這指向的也就是機器的推理能力。隨著一些論文的發(fā)表,近機器推理又成為了AI圈的熱門話題。機器可以具備推理能力近乎是確定的了,而可以利用無限多數(shù)據(jù)的AI,是否可以將推理能力做到,達到人類夢寐以求的預言未來能力呢?
再往下想,能夠預言未來的AI會如何看待人類的現(xiàn)在,以及AI與人類的關(guān)系呢?真是細思恐極。
猜想2:長短期記憶——選擇記憶——選擇性專注——機器價值觀
很多科學家都認為,在循環(huán)神經(jīng)網(wǎng)絡(luò)這條線上,LSTM帶來了選擇記憶能力之后,下一步就是訓練機器如何選擇性的把運算能力專注在某件事上。而可以自行判斷專注目標、專注時長以及專注目的的AI,是否可以說是有了自己的價值觀呢?
畢竟人類的所謂價值觀,說穿了也無非就是在什么東西上浪費多少記憶、思考和時間而已。有了自己價值判斷的AI,當然也是人類一邊期待一邊懼怕的。
這樣看來,LSTM技術(shù)可以幫助人工智能在人群之中記住你,也不一定準是好事。畢竟即使你想跟可愛的AI談個戀愛,人家說不定是想動動手指滅了你。但無論如何,AI的記憶,已經(jīng)是一道關(guān)不上的閘門了。
原標題 如何讓AI在人群中認出你,LSTM正在給出答案