導(dǎo)語:為何說AlphaGo戰(zhàn)勝李世石是個大事件? AlphaGo取得的經(jīng)驗可以在多個領(lǐng)域中得到應(yīng)用。
谷歌DeepMind人工智能AlphaGo兩度戰(zhàn)勝了傳奇圍棋選手李世石。這是人工智能(AI)歷史上的重大時刻?!拔曳浅3泽@,”李世石說道?!拔覜]想到會輸。我沒有想到AlphaGo能下得如此完美?!?/p>
然而,AlphaGo的勝利為什么會引起如此多的關(guān)注?想要真正理解該問題,就要先了解圍棋的特性和DeepMind團隊如何去破解圍棋中的各個難點。
圍棋起源于中國,是一項擁有3000年歷史的抽象棋類游戲。圍棋盤由19條橫線19條豎線組成,棋手通過落子圍住對手的棋子來獲勝。雖然規(guī)則不多,但變化多端的棋路讓其變得非常深奧,因為任何細(xì)微的變化都有可能引起戰(zhàn)局的突變。
去年AlphaGo與歐洲冠軍樊麾之戰(zhàn)裁判托比·萬寧(Toby Manning)表示:“圍棋是世界上最為復(fù)雜的智力游戲之一。它的規(guī)則非常簡單,但這些規(guī)則卻導(dǎo)致了棋局的復(fù)雜性?!蓖斜冗€引述了20世紀(jì)傳奇國際象棋和圍棋選手愛德華·拉斯克(Edward Lasker)的話:“國際象棋中有許多巴洛克式規(guī)則(意為華而不實),它們都是人們故意添加的,而圍棋則不同,它的規(guī)則簡單巧妙,有機統(tǒng)一,邏輯嚴(yán)密,如果宇宙中還有其他智慧生物,我想他們也會愛上圍棋?!?br/>
正是因為圍棋超凡的復(fù)雜性,棋手需要經(jīng)過多年的訓(xùn)練,磨練自己的直覺并學(xué)習(xí)識破各種棋路,才能成為高手。“圍棋一開始吸引你的是,它的規(guī)則簡單易懂。它的復(fù)雜性又能讓你不會感到厭倦,樂在其中,”韓國圍棋協(xié)會高秘書長Lee Ha-jin說道?!凹词鼓阋呀?jīng)是多年的老手,你依然會發(fā)現(xiàn)自己還有許多新東西可學(xué),你只希望變得更好,再更好?!?br/>
我采訪過的每位圍棋選手對這項運動的評價都如出一轍:圍棋的魅力就在于簡單規(guī)則背后的無窮變化。這些復(fù)雜的變化正是計算機程序難以掌握的地方。計算機只能通過觀察棋盤獲得有限的數(shù)據(jù),下好每一步棋都需要大量直覺。
加拿大阿爾伯塔大學(xué)計算機科學(xué)家喬納森·謝弗(Jonathan Schaeffer)說:”國際象棋和西洋棋與圍棋不同,它們不需要選手對棋局做復(fù)雜的形勢評估,只需一點經(jīng)驗,你就知道下一步該怎么走,衡量各個棋子的價值是選手最重要的任務(wù)——如果在國際象棋中多出一個’車’,那你就基本勝券在握了。但這種方法在圍棋中都行不通。從人類的角度來看,圍棋的棋路過于復(fù)雜多變,難以為其編程。直到AlphaGo之前,沒有能創(chuàng)建出有效的評估函數(shù)系統(tǒng)。”
那么DeepMind是如何做到的呢?它使用了深度學(xué)習(xí)和類神經(jīng)網(wǎng)絡(luò)技術(shù)來學(xué)會下圍棋。就像Google Photos能幫你從無數(shù)圖片中找出貓咪一樣,其背后是該應(yīng)用對大量貓咪圖片進(jìn)行了像素級的分析。而AlphaGo的智能則來自對人類棋手比賽中數(shù)百萬棋局和落子的學(xué)習(xí)。
讓AlphaGo的棋力有了長足進(jìn)步的原因是,DeepMind對它曾經(jīng)練習(xí)過的棋局進(jìn)行改進(jìn),讓它再次練習(xí),如此反復(fù)好幾百萬次,AlphaGo棋力不斷強化和增進(jìn)。這種方法讓AlphaGo形成“策略網(wǎng)絡(luò)”,幫助其預(yù)測對手的下一步棋,進(jìn)而又形成了“價值網(wǎng)絡(luò)”,讓AlphaGo學(xué)會了確定和評估棋局。在棋局中,AlphaGo已經(jīng)可以快速分析各種可能性,提前考慮后面幾步的落子和排兵布陣了。上述兩個神經(jīng)網(wǎng)絡(luò)讓AlphaGo省去了很多工作:策略網(wǎng)絡(luò)減小了搜索范圍,價值網(wǎng)絡(luò)讓其不用自己在“心里”走完所有步驟就能得出結(jié)論。
這一增強版的學(xué)習(xí)系統(tǒng)讓AlphaGo變得更像人類,比純粹依靠運算能力搜索最佳走棋而戰(zhàn)勝國際象棋大師卡斯帕羅夫的IBM深藍(lán)電腦更加智能,深藍(lán)所采用的方法用在圍棋上根本行不通。這也是DeepMind不會在比賽間歇對AlphaGo進(jìn)行調(diào)整的原因。AlphaGo只通過自學(xué)來提高棋力,單場比賽不會對自學(xué)效果產(chǎn)生多大影響。
DeepMind公司創(chuàng)始人戴密斯·哈薩比斯(Demis Hassabis)稱,自從去年10月打敗歐洲冠軍樊麾以來AlphaGo的棋力有了進(jìn)步,但由于其能力已經(jīng)達(dá)到邊際效益遞減點,DeepMind也就沒有再對硬件進(jìn)行投資,所以AlphaGo的運算能力幾乎沒有變化。
不過深藍(lán)電腦的開發(fā)人員認(rèn)為AlphaGo在國際象棋上并不一定是世界最強。IBM研發(fā)工程師穆雷·坎貝爾(Murray Campbell)說道:“我相信DeepMind可以開發(fā)出戰(zhàn)勝所有國際象棋大師的程序。不過我不認(rèn)為AlphaGo可以在所有棋類比賽中站上世界之巔。為什么這么說呢?因為國際象棋在對搜索能力的要求上與圍棋有著本質(zhì)上的不同,搜索能力是深藍(lán)戰(zhàn)勝人類的重要因素。雖說圍棋上電腦也需要深度搜索來輔助,但圍棋更重視直覺和對棋局形勢的判斷與預(yù)估。而對國際象棋來說,除了搜索和編程,就別無他法了?!?br/>
不過DeepMind公司可不這么想,他們認(rèn)為在AlphaGo上取得的經(jīng)驗可以在多個領(lǐng)域中得到應(yīng)用。哈薩比斯曾講述過深藍(lán)電腦上的AI與AlphaGo的不同,他認(rèn)為前者是狹義AI,后者是常規(guī)AI,區(qū)別在于后者更加靈活,適應(yīng)性也更強。DeepMind相信,其機器學(xué)習(xí)技術(shù)將會被應(yīng)用于機器人學(xué)、智能手機助手系統(tǒng)和醫(yī)療制度。上個月,DeepMind宣布與英國國民健康服務(wù)達(dá)成了一項協(xié)議。
其實無論隨后三場比賽結(jié)果如何,AlphaGo都已經(jīng)創(chuàng)造了歷史。上周在被問及李世石被打敗對圍棋意味著什么時,Lee Ha-jin說:“圍棋曾經(jīng)是唯一一項沒有被計算機打敗的棋類運動,我們一直以此為榮,但現(xiàn)在我們再也不能這樣說了,所以感到有點失望?!?br/>
不過AlphaGo的勝利也會從另一個角度推動該項運動的發(fā)展。美國圍棋協(xié)會成員對AlphaGo的棋力感到十分震驚,他們認(rèn)為AlphaGo有時落子的方式有些一反常規(guī),如果自己這樣下棋,肯定會被老師罵。
“我們當(dāng)然非常震驚,”美國圍棋協(xié)會運營副總裁杰克遜表示?!皹I(yè)內(nèi)一直有所謂正統(tǒng)的落子套路,AlphaGo這樣不按套路出牌能給我們帶來什么啟示呢?難道它要引發(fā)業(yè)界大地震?難道我們此前辛苦訓(xùn)練學(xué)會的那些技能都是錯誤的嗎?”(來源:騰訊科技)