【中國安防展覽網(wǎng) 科技動態(tài)】任何一個圍觀過李世石與谷歌圍棋AlphaGo人機“世紀大戰(zhàn)”的人,可能都不會對下圖感到陌生。
那位坐在李世石對面代替AlphaGo落子的眼鏡男,并非普通的工作人員,而是AlphaGo的核心作者之——Aja Huang (黃士杰),同時也是DeepMind近20人團隊中一位圍棋高手。在電腦面前,他親手編寫出了AlphaGo的程序;在電腦之外,他又手起子落,成為AlphaGo的“人肉臂”,與李世石當面對弈。
黃士杰和AlphaGo一起走過了一段光輝的歷程,如今,也到了謝幕之刻。凌晨,黃士杰在Facebook上發(fā)帖宣布,他本人將正式從AlphaGo團隊離開,轉(zhuǎn)到DeepMind其他項目的研究中去。其實也間接宣布了AlphaGo項目的正式結(jié)束。
的謝幕!早在今年5月戰(zhàn)勝世界圍棋人柯潔后,DeepMind就曾宣布,從今往后AlphaGo項目將不會再繼續(xù)開發(fā),AlphaGo也不會再參加競技比賽了。
不過在AlphaGo正式退役前,谷歌DeepMind還將做以下幾件事:1.公布50盤AlphaGo自我對弈棋譜,其中包含許多全新的思路及策略;2.發(fā)表后一篇跟AlphaGo有關(guān)的論文;3.上線一款基于AlphaGo的圍棋教學軟件AlphaGo Teach。
隨后,DeepMind一一兌現(xiàn)了承諾。
件事:5月28日,中國圍棋峰會在浙江落幕,賽后Deepmind就在公布了50盤AlphaGo自我對戰(zhàn)的慢棋棋局。
第二件事:10月19日,Deepmind在Nature上發(fā)布了名為《Mastering the game of Go without human knowledge》(不使用人類知識掌握圍棋)的論文,展示了他們更強大的新版本圍棋程序“AlphaGo Zero”
第三件事:就在兩天前的12月11日,黃士杰在朋友圈里公布,AlphaGo教學工具上線了,任何人都可以登陸AlphaGo Teach,和聶衛(wèi)平口中“圍棋20段”的阿老師一起學習。
目前看來,這三件事情都已經(jīng)全部完成,AlphaGo項目迎來謝幕!是多么寂寞!周星馳的電影讓一句略帶調(diào)侃的“是多么寂寞”火遍大江南北,但是把這句話安在AlphaGo“家族”身上,卻絲毫不顯突兀。
我們來看一下AlphaGo“家族”的輝煌戰(zhàn)績:
1.擊敗樊麾
2015年10月,AlphaGo擊敗樊麾,成為個無需讓子即可在19路棋盤上擊敗圍棋職業(yè)棋手的電腦圍棋程序,寫下了歷史,相關(guān)成果在2016年1月發(fā)表于Nature
2.擊敗李世石
2016年3月,AlphaGo在一場五番棋比賽中4:1擊敗職業(yè)棋手李世石,成為個不借助讓子而擊敗圍棋職業(yè)九段棋手的電腦圍棋程序,再創(chuàng)歷史。五局賽后韓國棋院授予AlphaGo有史以來位名譽職業(yè)九段
3.排名短暫超越柯潔
2016年7月18日,AlphaGo在Go Ratings網(wǎng)站的排名升至世界。但幾天之后被柯潔反超。
4.Alpha Go化名“Master” 60連勝
2016年的倒數(shù)第三天,一個用戶名為“Master”的圍棋用戶,連續(xù)在圍棋平臺大開殺戒,“斬殺”包括柯潔、樸廷桓、井山裕太、陳耀燁、申真谞、常昊、古力等各路圍棋高手,終以以60連勝告終。柯潔連輸三場,期間還因為急性腸胃炎住院……在第59場時候,“Master”自報家門:“我是AlphaGo的黃博士”。
5.AlphaGo大敗柯潔,柯潔落淚哽咽
2017年5月27日,烏鎮(zhèn)圍棋峰會,柯潔總比分 0:3 敗于AlphaGo。比賽中,柯潔在局面不利時長時間離開,回來后又淚灑現(xiàn)場。賽后柯潔一度哽咽稱:它太我很痛苦,看不到任何勝利的希望。
6.AlphaGo Zero橫空出世 自學21天虐Master
2017年10月,DeepMind新版AlphaGo論文介紹了迄今強新的版本AlphaGo Zero:使用純強化學習,將價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)整合為一個架構(gòu),3天訓練后就以100比0擊敗了上一版本的AlphaGo。
7.AlphaZero的增強學習算法橫掃所有棋類
2017年12月7日,DeepMind團隊在發(fā)布的一篇論文中提到了一項名為AlphaZero的增強學習算法,能夠在不改變算法的前提下,同時在圍棋、象棋、日本將棋上達到世界水平。
可以說,此后人類在圍棋上打贏AI的可能性已經(jīng)接近0,AlphaGo即便再怎么發(fā)展,能夠進一步達到的突破已經(jīng)很有限了。因此,AlphaGo項目開始陸續(xù)關(guān)停,該發(fā)論文發(fā)論文,該發(fā)教學工具發(fā)教學工具。
DeepMind的下一步?
雖然AlphaGo項目即將退役,但是DeepMind卻還有著更光明、更廣闊的未來。在今年5月宣布AlphaGo即將退役時,DeepMind也初步披露了AlphaGo團隊的下一步計劃――研發(fā)出應用領(lǐng)域更廣泛的算法,包括找到新的疾病治療方法、顯著降低能源消耗、發(fā)明革命性的新材料等。
星際爭霸
早在2016年3月AlphaGo挑戰(zhàn)圍棋成功之后,就傳出DeepMind團隊的下一步計劃——在游戲《星際爭霸2》上打敗人類。
人工智能研究算法很喜歡用計算機游戲。一是研究目標清楚,游戲目標定義得很完善,科研有時重要的是提出問題。二是近流行的深度學習需要極多的訓練樣本,人類的線上高水平比賽很多能夠提供足夠的樣本。三是問題足夠難,進展如何通過人機對戰(zhàn)、線上測試一清二楚,而不是研究者自說自話。
圍棋是“完全信息博弈”(局面擺明,理論上有確定結(jié)論)游戲里復雜的一個,又很有藝術(shù)性。在圍棋上戰(zhàn)勝人類,就實現(xiàn)了Deepmind負責人哈薩比斯的說法,機器自我對弈不斷自我學習的方法可以解決一切基于推理的棋類游戲。
這個自學習的框架,能否在“非完全信息博弈”上打敗人類,令人非常有興趣,同時又極有學術(shù)價值。星際爭霸是一個很合適的測試對象。星際爭霸常見的是兩個玩家對戰(zhàn),各自從一個基地開始發(fā)展,沒有兵力在附近就看不見對方的動作,對方在干什么自己不知道,因此是“非完全信息博弈”。
不過到目前為止,人工智能對《星際爭霸》的探索還處在非常早期的階段,不僅需要訓練各種“常識”,而且在面臨突發(fā)情況時的應變能力也有所不足。
醫(yī)療
DeepMind已經(jīng)與英國國家醫(yī)療服務體系(National Health Service)達成合作,并啟動“深度思維健康”(DeepMind Health)項目。該項目意圖通過專業(yè)的技術(shù)支持來幫助臨床醫(yī)生,為他們的病人提供盡可能好的醫(yī)療服務:1.幫助醫(yī)生監(jiān)測急性腎損傷病癥;2.使用機器學習技術(shù)幫助醫(yī)生判斷患者的視力情況。此外,DeepMind團隊還推出了血液測試的AKI報警平臺Streams。
11月27日,黃士杰還在Facebook轉(zhuǎn)發(fā)了一則關(guān)于DeepMind將與一些的研究機構(gòu)共同投入診斷乳腺癌的AI研究消息。DeepMind將利用新的機器學習技術(shù),希望能夠快速、準確地檢測出癌癥的跡象,幫助醫(yī)生盡早發(fā)現(xiàn)癌癥,以便更早的有效治療。
能源
在節(jié)能方面,DeepMind還與谷歌的數(shù)據(jù)中心團隊合作,運用類似AlphaGo的技術(shù)開發(fā)了了管理制冷系統(tǒng)的新方法,使建筑節(jié)能到達了15%。如果把這些技術(shù)應用在其他更大型的工業(yè)系統(tǒng)上,就會節(jié)省更多的能源開支。
所以,的AlphaGo已經(jīng)退休,但他背后的技術(shù)永存,并將可能在未來造福更多的人類。別了,AlphaGo!感謝所有曾經(jīng)為這項偉大的技術(shù)付出努力之人!(原標題:再見,AlphaGo!是多么寂寞!)