當前位置:首頁 » 入門技巧 » alphago

alphago

發布時間: 2021-07-31 21:49:41

『壹』 AlphaGo英文怎麼讀

AlphaGo英文怎麼讀Alphago。

『貳』 AlphaGo用的什麼CPU

AlphaGo的配置是可變的,最低配置是48個CPU加一個GPU,這種配置下由於計算能力太弱,所以它的圍棋能力很弱,最高配置是1920個CPU加280個GPU。和李世石下棋的就是這個配置。

部分媒體翻譯有誤,說和李世石對戰的AlphaGo是單機版,實際上不是這樣,和李對戰的AlphaGo連接的是谷歌的內網,把當前戰況發送到谷歌的計算中心,通過計算後,決定要怎麼走,再發送回來。
最高配置的AlphaGo的計算能力大概相當於天河二號超級計算機的計算能力的十分之一。

至於具體是哪一款,官方沒有說,我猜是英特爾的至強E7,因為谷歌也是美國公司,完全可以買到英特爾的E7,不像我們的天河二號,想買E7,美國不讓賣,只能買到E5,還不是最強的E5。
實際上從計算能力的對比也可以看出來,天河二號用了3.2萬個E5,計算能力僅為AlphaGo的10倍,如果AlphaGo也用E5,應該是沒有這么強,所以應該是18核36線程版的E7,而天河二號用的是12核24線程的E5。換算一下差不多,18核的E7性能相當於12核E5的1.5倍,1920個18核E7,相當於2880個12核E5,性能相當於使用了3.2萬個12核E5的天河二號的十分之一,這數字就對上了。

至於AlphaGo的GPU用的可能是英偉達的特斯拉,用於加速運算,由於同配置下的GPU的浮點計算能力比CPU強大得多,在部分需要大量浮點計算的場景調用GPU輔助運算,可以大大提高效率。從AlphaGo的規模來看,總功耗預計會在2000KW左右,也就是下一個小時的棋,要消耗2000度電。

『叄』 阿爾法狗什麼意思

阿爾法狗是第一個擊敗人類職業圍棋選手、第一個戰勝圍棋世界冠軍的人工智慧機器人。其英文名為AlphaGo,音譯中文後戲稱為阿爾法狗。

阿爾法狗其主要工作原理是「深度學習」。「深度學習」是指多層的人工神經網路和訓練它的方法。一層神經網路會把大量矩陣數字作為輸入,通過非線性激活方法取權重,再產生另一個數據集合作為輸出。

(3)alphago擴展閱讀:

2016年3月,阿爾法圍棋與圍棋世界冠軍、職業九段棋手李世石進行圍棋人機大戰,以4比1的總比分獲勝;2016年末2017年初,該程序在中國棋類網站上以「大師」(Master)為注冊帳號與中日韓數十位圍棋高手進行快棋對決,連續60局無一敗績;

2017年5月,在中國烏鎮圍棋峰會上,它與排名世界第一的世界圍棋冠軍柯潔對戰,以3比0的總比分獲勝。圍棋界公認阿爾法圍棋的棋力已經超過人類職業圍棋頂尖水平,在GoRatings網站公布的世界職業圍棋排名中,其等級分曾超過排名人類第一的棋手柯潔。

『肆』 阿爾法狗神之三十七手是什麼意思這是什麼梗,還說李世石也脫帽致敬

阿爾法狗在第三十七手棋時下的很特別,它的黑子落在O10的位置上,觀眾和講解員都以為阿爾法狗出現了錯誤,但因為這神之三十七手棋,卻為阿爾法狗帶來了最終的勝利

『伍』 AlphaGo是什麼 谷歌AlphaGo全解讀

AlphaGo一般指阿爾法圍棋
阿爾法圍棋(AlphaGo)是第一個擊敗人類職業圍棋選手、第一個戰勝圍棋世界冠軍的人工智慧程序。
其主要工作原理是「深度學習」。
阿爾法圍棋(AlphaGo)是一款圍棋人工智慧程序。其主要工作原理是「深度學習」。「深度學習」是指多層的人工神經網路和訓練它的方法。一層神經網路會把大量矩陣數字作為輸入,通過非線性激活方法取權重,再產生另一個數據集合作為輸出。這就像生物神經大腦的工作機理一樣,通過合適的矩陣數量,多層組織鏈接一起,形成神經網路「大腦」進行精準復雜的處理,就像人們識別物體標注圖片一樣。

『陸』 AlphaGo 是什麼語言開發的

Android以Java為編程語言,使介面到功能,都有層出不窮的變化,其中Activity等同於J2ME的MIDlet,一個 Activity 類(class)負責創建視窗(window),一個活動中的Activity就是在 foreground(前景)模式,背景運行的程序叫做Service。兩者之間通過由ServiceConnection和AIDL連結,達到復數程序同時運行的效果。如果運行中的 Activity 全部畫面被其他 Activity 取代時,該 Activity 便被停止(stopped),甚至被系統清除(kill)。
1、Unix/Linux平台技術:基本命令,Linux下的開發環境
2、企業級資料庫技術:SQL語言、SQL語句調優、Oracle資料庫技術
3、Java 語言核心技術:Java語言基礎、Java面向對象編程、JDK核心API、Java集合框架、Java網路編 程、JavaI/O編程、Java多線程編程、Java異常機制、Java安全、JDBC、XML
4、軟體工程和設計模式:軟體工程概述、配置管理及SVN、UML、基本設計模式
5、Android應用開發基礎:Android開發平台、Eclipse+ADT開發環境、AVD及感測模擬器調試、Android核心組件、Android常用組件、Android高級組件、文件及網路訪問、SQLite資料庫編程、後台服務編程
6、互聯網核心技術: HTML、CSS、JavaScript、JQuery、Ajax應用
7、Android高級應用開發:音頻\視頻\攝像頭、互聯網應用、GPS和位置服務、Google Map、2D\3D繪制、感測器開發、游戲開發、電話及SMS服務、網路\Bluetooth\Wi-Fi等。
8、Android系統級開發:移植、驅動、NDK(C方向)。
9、JavaEE核心技術:Servlet核心技術、JSP核心技術、Struts、Spring、Hibernate框架。

『柒』 如何評價AlphaGo 最新版本 AlphaGo Zero

AlphaGo這個系統主要由幾個部分組成:
走棋網路(Policy Network),給定當前局面,預測/采樣下一步的走棋。
快速走子(Fast rollout),目標和1一樣,但在適當犧牲走棋質量的條件下,速度要比1快1000倍。
估值網路(Value Network),給定當前局面,估計是白勝還是黑勝。
蒙特卡羅樹搜索(Monte Carlo Tree Search,MCTS),把以上這三個部分連起來,形成一個完整的系統。
我們的DarkForest和AlphaGo同樣是用4搭建的系統。DarkForest較AlphaGo而言,在訓練時加強了1,而少了2和3,然後以開源軟體Pachi的預設策略 (default policy)部分替代了2的功能。以下介紹下各部分。
1、走棋網路
走棋網路把當前局面作為輸入,預測/采樣下一步的走棋。它的預測不只給出最強的一手,而是對棋盤上所有可能的下一著給一個分數。棋盤上有361個點,它就給出361個數,好招的分數比壞招要高。
DarkForest在這部分有創新,通過在訓練時預測三步而非一步,提高了策略輸出的質量,和他們在使用增強學習進行自我對局後得到的走棋網路(RL network)的效果相當。當然,他們並沒有在最後的系統中使用增強學習後的網路,而是用了直接通過訓練學習到的網路(SL network),理由是RL network輸出的走棋缺乏變化,對搜索不利。

有意思的是在AlphaGo為了速度上的考慮,只用了寬度為192的網路,而並沒有使用最好的寬度為384的網路(見圖2(a)),所以要是GPU更快一點(或者更多一點),AlphaGo肯定是會變得更強的。
所謂的0.1秒走一步,就是純粹用這樣的網路,下出有最高置信度的合法著法。這種做法一點也沒有做搜索,但是大局觀非常強,不會陷入局部戰斗中,說它建模了「棋感」一點也沒有錯。我們把DarkForest的走棋網路直接放上KGS就有3d的水平,讓所有人都驚嘆了下。
可以說,這一波圍棋AI的突破,主要得益於走棋網路的突破。這個在以前是不可想像的,以前用的是基於規則,或者基於局部形狀再加上簡單線性分類器訓練的走子生成法,需要慢慢調參數年,才有進步。
當然,只用走棋網路問題也很多,就我們在DarkForest上看到的來說,會不顧大小無謂爭劫,會無謂脫先,不顧局部死活,對殺出錯,等等。有點像高手不經認真思考的隨手棋。因為走棋網路沒有價值判斷功能,只是憑「直覺」在下棋,只有在加了搜索之後,電腦才有價值判斷的能力。
2、快速走子
那有了走棋網路,為什麼還要做快速走子呢?有兩個原因,首先走棋網路的運行速度是比較慢的,AlphaGo說是3毫秒,我們這里也差不多,而快速走子能做到幾微秒級別,差了1000倍。所以在走棋網路沒有返回的時候讓CPU不閑著先搜索起來是很重要的,等到網路返回更好的著法後,再更新對應的著法信息。
其次,快速走子可以用來評估盤面。由於天文數字般的可能局面數,圍棋的搜索是毫無希望走到底的,搜索到一定程度就要對現有局面做個估分。在沒有估值網路的時候,不像國象可以通過算棋子的分數來對盤面做比較精確的估值,圍棋盤面的估計得要通過模擬走子來進行,從當前盤面一路走到底,不考慮岔路地算出勝負,然後把勝負值作為當前盤面價值的一個估計。
這里有個需要權衡的地方:在同等時間下,模擬走子的質量高,單次估值精度高但走子速度慢;模擬走子速度快乃至使用隨機走子,雖然單次估值精度低,但可以多模擬幾次算平均值,效果未必不好。所以說,如果有一個質量高又速度快的走子策略,那對於棋力的提高是非常有幫助的。
為了達到這個目標,神經網路的模型就顯得太慢,還是要用傳統的局部特徵匹配(local pattern matching)加線性回歸(logistic regression)的方法,這辦法雖然不新但非常好使,幾乎所有的廣告推薦,競價排名,新聞排序,都是用的它。
與更為傳統的基於規則的方案相比,它在吸納了眾多高手對局之後就具備了用梯度下降法自動調參的能力,所以性能提高起來會更快更省心。AlphaGo用這個辦法達到了2微秒的走子速度和24.2%的走子准確率。24.2%的意思是說它的最好預測和圍棋高手的下子有0.242的概率是重合的,相比之下,走棋網路在GPU上用2毫秒能達到57%的准確率。這里,我們就看到了走子速度和精度的權衡。

和訓練深度學習模型不同,快速走子用到了局部特徵匹配,自然需要一些圍棋的領域知識來選擇局部特徵。對此AlphaGo只提供了局部特徵的數目(見Extended Table 4),而沒有說明特徵的具體細節。我最近也實驗了他們的辦法,達到了25.1%的准確率和4-5微秒的走子速度,然而全系統整合下來並沒有復現他們的水平。
我感覺上24.2%並不能完全概括他們快速走子的棋力,因為只要走錯關鍵的一步,局面判斷就完全錯誤了;而圖2(b)更能體現他們快速走子對盤面形勢估計的精確度,要能達到他們圖2(b)這樣的水準,比簡單地匹配24.2%要做更多的工作,而他們並未在文章中強調這一點。

在AlphaGo有了快速走子之後,不需要走棋網路和估值網路,不藉助任何深度學習和GPU的幫助,不使用增強學習,在單機上就已經達到了3d的水平(見Extended Table 7倒數第二行),這是相當厲害的了。任何使用傳統方法在單機上達到這個水平的圍棋程序,都需要花費數年的時間。在AlphaGo之前,Aja Huang曾經自己寫過非常不錯的圍棋程序,在這方面相信是有很多的積累的。
3、估值網路

AlphaGo的估值網路可以說是錦上添花的部分,從Fig 2(b)和Extended Table 7來看,沒有它AlphaGo也不會變得太弱,至少還是會在7d-8d的水平。少了估值網路,等級分少了480分,但是少了走棋網路,等級分就會少掉800至1000分。特別有意思的是,如果只用估值網路來評估局面(2177),那其效果還不及只用快速走子(2416),只有將兩個合起來才有更大的提高。
我的猜測是,估值網路和快速走子對盤面估計是互補的,在棋局一開始時,大家下得比較和氣,估值網路會比較重要;但在有復雜的死活或是對殺時,通過快速走子來估計盤面就變得更重要了。考慮到估值網路是整個系統中最難訓練的部分(需要三千萬局自我對局),我猜測它是最晚做出來並且最有可能能進一步提高的。
關於估值網路訓練數據的生成,值得注意的是文章中的附錄小字部分。與走棋網路不同,每一盤棋只取一個樣本來訓練以避免過擬合,不然對同一對局而言輸入稍有不同而輸出都相同,對訓練是非常不利的。這就是為什麼需要三千萬局,而非三千萬個盤面的原因。對於每局自我對局,取樣本是很有講究的,先用SL network保證走棋的多樣性,然後隨機走子,取盤面,然後用更精確的RL network走到底以得到最正確的勝負估計。當然這樣做的效果比用單一網路相比好多少,我不好說。
一個讓我吃驚的地方是,他們完全沒有做任何局部死活/對殺分析,純粹是用暴力訓練法訓練出一個相當不錯的估值網路。這在一定程度上說明深度卷積網路(DCNN)有自動將問題分解成子問題,並分別解決的能力。
另外,我猜測他們在取訓練樣本時,判定最終勝負用的是中國規則。所以說三月和李世石對局的時候也要求用中國規則,不然如果換成別的規則,就需要重新訓練估值網路(雖然我估計結果差距不會太大)。至於為什麼一開始就用的中國規則,我的猜測是編程非常方便(我在寫DarkForest的時候也是這樣覺得的)。
4、蒙特卡羅樹搜索
這部分基本用的是傳統方法,沒有太多可以評論的,他們用的是帶先驗的UCT,即先考慮DCNN認為比較好的著法,然後等到每個著法探索次數多了,選擇更相信探索得來的勝率值。而DarkForest則直接選了DCNN推薦的前3或是前5的著法進行搜索。我初步試驗下來效果差不多,當然他們的辦法更靈活些,在允許使用大量搜索次數的情況下,他們的辦法可以找到一些DCNN認為不好但卻對局面至關重要的著法。
一個有趣的地方是在每次搜索到葉子節點時,沒有立即展開葉子節點,而是等到訪問次數到達一定數目(40)才展開,這樣避免產生太多的分支,分散搜索的注意力,也能節省GPU的寶貴資源,同時在展開時,對葉節點的盤面估值會更准確些。除此之外,他們也用了一些技巧,以在搜索一開始時,避免多個線程同時搜索一路變化,這部分我們在DarkForest中也注意到了,並且做了改進。
5、總結
總的來說,這整篇文章是一個系統性的工作,而不是一兩個小點有了突破就能達到的勝利。在成功背後,是作者們,特別是兩位第一作者David Silver和Aja Huang,在博士階段及畢業以後五年以上的積累,非一朝一夕所能完成的。他們能做出AlphaGo並享有現在的榮譽,是實至名歸的。
從以上分析也可以看出,與之前的圍棋系統相比,AlphaGo較少依賴圍棋的領域知識,但還遠未達到通用系統的程度。職業棋手可以在看過了寥寥幾局之後明白對手的風格並採取相應策略,一位資深游戲玩家也可以在玩一個新游戲幾次後很快上手,但到目前為止,人工智慧系統要達到人類水平,還是需要大量樣本的訓練的。可以說,沒有千年來眾多棋手在圍棋上的積累,就沒有圍棋AI的今天。

『捌』 alphago 用到 什麼 演算法

AlphaGo依靠精確的專家評估系統(value network)、基於海量數據的深度神經網路(policy network),及傳統的人工智慧方法蒙特卡洛樹搜索的組合,以及可以通過左右互搏提高自己的水平,這個真的是有的恐怖了有木有。李世石九段固然厲害,可人類畢竟是動物,機器軟體程序是無休止的工作,這一點也是客觀因素了。圍棋九段李世石目前已經一比三了落後alphago了,還有一場15日今天的比賽可以關注一下(比賽規定即使是在分出勝負的情況下,也要下滿五局)。

『玖』 谷歌機器人alphago長什麼樣

alphago只是一套智能程序而已,只不過這個程序比以往類似的圍棋程序都要智能一些,直播的時候可以看到李世石的對面坐了一個人,這個人起到了上傳下達的作用,怎麼說,就是電腦怎麼落子他就在盤面上怎麼落子,李世石怎麼落子他就在電腦上怎麼落子。

『拾』 AlphaGo 為什麼能戰勝人類

因為它有更大的儲存空間,和快速准確的計算能力。
它他儲存了近幾十年人類棋手的各種圍棋下法,它能根據當前的情況快速的搜索最適合的下法。而人類就算背熟了所有的圍棋下法,在比賽的時候,也會因身體或其他因素不能准確的找出適合的答案。所以阿法狗能夠戰勝人類棋手就不奇怪了。
但人類擁有創造能力,可以創造一種全新的方法,這是人工智慧還無法達到的。所以,還不用擔心人工智慧能超越人類。