台中通馬桶價格台中清化糞池廠商精選～網路評比推薦－黑石的超值清單

為什麼柯潔一局都贏不瞭？ AlphaGo訓練量遠超對手

文|李李南戈

5 月 23 至 27 日，曾戰勝圍棋世界冠軍李世石的谷歌人工智能 AlphaGo，在浙江烏鎮挑戰目前世界排名第一的人類棋手柯潔九段。

今天下午，柯潔首戰告負，輸四分之一子。

在人類棋手之間，這種結果說明雙方棋藝基本旗鼓相當。所以有人據此認為，柯潔隻是惜敗。

事實上，柯潔遠非惜敗，而是 AlphaGo 完全掌控瞭棋局，在確保勝利的同時，不冒無謂的風險。

在這場人機大戰開賽前，前谷歌大中華區總裁李開復就公開表示：柯潔必敗毫無懸念。

不僅科技界人士這麼認為，概率也顯示柯潔幾無勝算。根據國際職業圍棋 Elo 等級分制度排名，可算出 AlphaGo 每盤的獲勝概率為 99.37% 。說這是一場起重機與舉重選手的比賽並不為過。

▍2016 年 7 月 18 日，AlphaGo 超越柯潔成為 Elo 排名第一（左側排名），之後不久就被柯潔反超（右側排名）。2017 年 2 月初，Go Ratings 網站刪除瞭 AlphaGo、DeepZenGo 等圍棋人工智能在該網站上的所有信息，目前世界排名第一的柯潔 Elo 3620/ 數據來自：gorating.org

▍AlphaGo 開發團隊主管 David Silver 使用 Elo 算法評估 AlphaGo 的 Elo 為 4500。對陣柯潔，AlphaGo 的勝率 P（A） = 1/（1+10^（（3620-4500）/400））/ 圖片來自：Advanced Study Room

從擊敗樊麾二段（Elo 3000 左右），到擊敗李世石九段（Elo 3500 左右），AlphaGo 隻用瞭五個月。相比之下，從 Elo 3300 到 3600，天才棋手柯潔走瞭將近五年。

▍柯潔的 Elo 上升路徑/ 圖片來自 goratings.org

2016 年底，AlphaGo 化名“Master”橫掃圍棋網戰平臺時，即已強大到讓柯潔感嘆“人類幾千年來總結的棋譜都是錯的”。

AlphaGo 為什麼這麼厲害？它到底是怎麼下棋的？人類頂尖圍棋高手在人工智能面前的集體潰敗，意味著什麼？

寡不敵眾的世界冠軍

早在 20 世紀 50 年代，計算機科學傢就開始研究讓人工智能與人類下棋瞭。棋盤遊戲是人類智力的博弈，如果能達到頂尖棋手的水平、甚至超過他們，便可證明人工智能變得更聰明、更有靈活性。

人類下棋，是經驗、理性與靈感的結合。

昭和棋聖吳清源就將決定圍棋勝負的三個要素歸納為：實力、氣力和運氣。

以此標準，人工智能“先天不足”，隻有理性，靠什麼與人對弈？

一言以蔽之：搜索。

早在 1952 年，人工智能就通過窮舉所有可能性的”暴力搜索“，在井字棋這樣的小型棋類遊戲中戰無不勝。

▍在谷歌搜索框中輸入“tic-tac-to住宅化糞池清理e”，就能跟電腦下井字棋/ 圖片來源：theverge.com

下面這幅樹狀圖，展示瞭井字棋遊戲中可能出現的部分棋盤情況。

人工智能要做的，就是沿著這棵“遊戲樹”一步步往下搜索，在所有可能出現的棋盤局面中，根據最有利於己方的終局結果，向前回溯至當前節點，決定下一步應該怎麼走。

但對棋盤更大、可能性更多的遊戲，暴力搜索就行不通瞭，因為棋局的可能性遠超人工智能的運算能力，純靠搜索不可能下贏頂尖棋手。

國際象棋和圍棋一度被認為是“人類智慧的最後堡壘”，原因就在於此。

▍國際象棋的棋盤為 8x8 的網格，在對陣雙方各走三步以後，可能出現的棋局就超過九百萬種

要在這類遊戲中戰勝人類，人工智能必須在暴力搜索的基礎上優化改進。

取得突破的是 1997 年 IBM 開發的人工智能深藍，它戰勝瞭國際象棋世界冠軍卡斯帕羅夫。這是歷史上人工智能首次在正式比賽中，下贏國際象棋頂尖棋手。

相較用於井字棋的暴力搜索，深藍的改進主要在兩個方面：

一，優先搜索勝率最大的棋局，以便能預測更多步以後的棋盤情況；二，即便如此，也無法像井字棋那樣搜索到最終局，這時就要評估當前棋局做出評估，判斷下一步怎麼走，未來勝率更大。

不論是搜索還是評估，深藍的算法都包含瞭大量的人類智慧。深藍僅評估算法就有 8000 多個部分，很多是為特定棋局專門設計的。為完善算法，提高勝率，IBM 還專門請來包括國際象棋特級大師喬爾·本傑明在內的多位頂尖棋手做參謀。

因此，與其說深藍戰勝瞭人類，不如說超級計算機+科學傢+一群頂尖棋手，戰勝瞭一個卡斯帕羅夫。

▍卡斯帕羅夫與深藍對弈/ 圖片來源：theverge.com

但是，深藍這種人工調試算法的策略，在圍棋上卻難以取得相同戰績。

這是因為，圍棋的可能性和變數都遠超國際象棋，即使最頂尖的圍棋選手，也很難用有邏輯的語言清晰闡釋自己的下棋策略，更不用說把這種策略轉化為計算機能夠理解執行的編程語言。

人工智能的勝利

圍棋的棋盤為 19x19 的網格，比國際象棋大，可能的下法（10^174）超過已知宇宙中所有原子數目的總和（10^80）。巨大的變數和可能性，讓圍棋棋道幾乎成為一門玄各級學校抽化糞池學。

AlphaGo 下圍棋的策略，與按人類預設劇本下棋的深藍不同，其下棋算法沒有經過人工調試，全部是靠自己“學會”的。

▍AlphaGo 的“遊戲樹”/ 圖片來源：Nature

AlphaGo 怎麼“學”？答案是人工神經網絡。

人工神經網絡是一種計算模型，可以在海量數據中找出規律。近年來，人工神經網絡在人臉識別、機器翻譯等領域被廣泛應用。

▍如果人臉識別技術大規模應用，丁義珍就跑不瞭瞭

▍與人類神經網絡類似，人工神經網絡的基本單位是神經元。一個神經元可以接收多個輸入，在計算後可以產生一個輸出。一個神經網絡有若幹層，每一層由成百上千個神經元組成。A：生物神經元，B：人工神經元（左側箭頭代表多個輸入，右側箭頭代表一個產生的輸出），C：突觸，D：人工神經網絡/ 圖片來源：InTechOpen

AlphaGo 使用瞭兩種人工神經網絡，一個是預測網絡（policy network），一個是評估網絡（value network）。預測網絡用來預測對手下一步可能怎麼走，評估網絡則用來評估給定棋局下己方的獲勝概率。

▍人工神經網絡要用海量數據訓練。AlphaGo 輸入瞭至少三千萬種棋局，自我博弈超過一百萬次。在與李世石對決前，AlphaGo 預測對手的準確率達到 57%——超過半數的情況下，AlphaGo 能猜中對手下一步會怎麼走/ 圖片來源：Nature

相比深藍，AlphaGo 采取的策略效率更高，戰績更輝煌。借助遠勝於深藍的計算能力和搜索策略，AlphaGo 搜索的深度與廣度均大幅提高；深藍要靠人工調試的算法才能戰勝卡斯帕羅夫，AlphaGo 的下棋策略，卻完全是靠自己在海量數據中摸索出來的。

這是真正的人工智能對職業棋手的勝利。

▍AlphaGo 的研發團隊中僅有黃世傑博士（業餘四段）一人會下圍棋。在與李世石的對決中，黃博士代為執子。

理解瞭 AlphaGo 怎麼下棋，就不難理解為什麼柯潔必輸。

首先，AlphaGo 的訓練量、所見棋局和進步速度都遠超柯潔。

AlphaGo 見過、下過的棋，以百萬計。柯潔的訓練量，我們做最樂觀的粗略估算，也難以超過五萬局。

▍根據啟蒙老師李守勝的說法，“柯潔可以說還在娘胎裡的時候，就是聽著圍棋聲長大的”。我們假設 1997 年出生的柯潔，從負一歲就開始下棋，每天 24 小時不眠不休，每局 4 小時，在整整 21 年中，也隻能下不到 5 萬局。

需要指出的是，人類對棋譜的利用率遠超人工智能。職業棋手通過幾十局棋譜，就能大致摸清對手棋路。人工智能卻需要至少數以萬計的棋譜，才有可能發現其中規律。

而且，並非數據“喂”得越多，下棋水平越高。輸入海量數據後，人工智能仍不得法的情況也很常見。

不過，一旦找到瞭規律，人工智能就進步神速。AlphaGo 隻用兩年，就從零起步登頂世界第一，手下敗將包括李世石、聶衛平、柯潔。

這次與柯潔對弈的 AlphaGo，也不同於去年大戰李世石的版本。

AlphaGo 有分佈式版與單機版兩個版本，去年與李世石對決，AlphaGo 還需動用分佈式版全力以赴，今次隻需單機版就能輕取棋藝更高的柯潔。兩個版本的計算能力差距懸殊，單機版運行在 48 個CPU 和 8 個 GPU 上，分佈式版運行在 1202 個 CPU 和 176 個 GPU 上。

或者說，對李世石是群毆，對柯潔是單挑。

▍2017 年初，AlphaGo 化名 Master，在在線快棋對決中，橫掃中日韓頂尖棋手，獲 60 勝 0 負 1 平。唯一一次平局是因為對手掉線，比賽不得不提前終止。擊敗聶衛平後，代為執子的黃世傑博士在對話框中敲出“謝謝聶老師”。

柯潔有沒有可能通過研究 AlphaGo 的棋譜找到對手的弱點呢？

可能性非常小。時至今日，AlphaGo 的圍棋下法已經超出瞭人類經驗和理解力范疇。理論上，大傢都知道，AlphaGo 是按概率下棋。但實戰中，棋手猜不出 AlphaGo 下一步會怎麼走，AlphaGo 卻不僅猜得中，還算得出各種下法勝算幾何。

數千年來，人類學習圍棋的方式更多是依靠經驗。這種經驗可能來自前人棋譜，也可能來自長年累月的對弈訓練出的“直覺”。

這種經驗，既成就瞭柯潔台中通馬桶價格，也束縛瞭柯潔。它讓柯潔可以站在前人的肩膀上往更高處攀登，但也局限瞭他對圍棋的理解和創新。

當看到 AlphaGo 下出棋論上的“臭棋”，卻所向披靡時，柯潔便會發出文章開頭那樣的驚嘆，認為人類幾千年來在圍棋上的所有積累都化為烏有瞭。

盡管柯潔試圖跳出這種局限，但不論他研究 AlphaGo 的棋譜，還是和其他人工智能下棋，在 AlphaGo 強大的運算和預測能力面前，這樣的努力都無異於大海撈針。

AlphaGo 的勝利，雖然難免給柯潔個人造成不快，但對更多人來說，體現的是意義非凡的技術進步。

如果把“尋找圍棋的至高真理”看做一個懸疑千年未解的難題，將職業棋手和人工智能看做人類解決這個難題的不同嘗試，AlphaGo 的勝利顯然意義非凡，仿佛一百年前拖拉機的成功問世。

▍拖拉機的發明，讓人類有瞭比馬更高效的生產工具。上圖顯示瞭拖拉機出現後，美國農場 1910 年到 1960 年，拖拉機和馬、騾子數量的增減對比。藍色代表拖拉機，紅色代表馬和騾子/ 圖片來源：Economic History Association

計算機科學傢開發 AlphaGo，並不是為瞭給人類創造修身養性的工具，而是像谷歌研究總監彼得·諾維格所說，希望用人工智能解決人類自己也不知道如何解決的問題。

圍棋是對抗類、回合制、無隨機性的完全信息遊戲，AlphaGo 的算法可以為具備同樣條件的場景，提供解決問題的參考方案。

▍圍棋的“無隨機性”是指對手可以落棋的位置、手中的棋，以及開局以來到現在為止的所有棋盤信息都是已知的。撲克屬於非完全信息遊戲，有隨機性，因為其他玩傢手中的牌是未知的。

未來十年，如果具備精準決策能力的人工智能獲得大范圍的應用，金融、醫療、法律、交通、公共安全等領域都將發生翻天覆地的變化。

一年多來人類高手們的接連慘敗，也許隻是一個偉大故事的開頭。

cac608o6e2

黑石的超值清單

cac608o6e2 發表在痞客邦留言(0) 人氣()

E-mail轉寄

黑石的超值清單

黑石的超值清單

台中通馬桶價格台中清化糞池廠商精選～網路評比推薦

歷史上的今天

留言列表

站方公告

活動快報

LG 20...

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

黑石的超值清單

黑石的超值清單

台中通馬桶價格 台中清化糞池廠商精選～網路評比推薦

歷史上的今天

留言列表

站方公告

活動快報

LG 20...

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

台中通馬桶價格台中清化糞池廠商精選～網路評比推薦