国产高潮人妖99视频_国产精品九九九国产盗摄蜜臀_国产一区二区天天看片_国产精品无码AV无码_不卡的av帝国在线一区二区

您當(dāng)前位置: 唯學(xué)網(wǎng) » 棋類 » 棋類教育新聞 »

一個(gè)算法通吃三大棋類

一個(gè)算法通吃三大棋類

唯學(xué)網(wǎng) • 教育培訓(xùn)

2022-6-20 15:09

唯學(xué)網(wǎng) • 中國(guó)教育電子商務(wù)平臺(tái)

加入收藏

一個(gè)算法通吃三大棋類

2017年末,AlphaZero誕生——一個(gè)可以自學(xué)國(guó)際象棋,將棋(日本象棋)和圍棋的獨(dú)立系統(tǒng)。而它也在比賽中擊敗了三種游戲各自的世界冠軍程序。來(lái)自國(guó)際象棋界的看法認(rèn)為,他們?cè)贏lphaZero的棋藝中看到了一種突破性的,變化多端的 “非傳統(tǒng)”游戲風(fēng)格,這不同于之前的任何國(guó)際象棋程序。

本文是對(duì)AlphaZero的全面評(píng)估,該評(píng)估發(fā)表在科學(xué)(Science)雜志上確認(rèn)并更新了一些初步成果。評(píng)估描述了AlphaZero的訓(xùn)練方法:盡管AlphaZero是從隨機(jī)游戲中開(kāi)始訓(xùn)練,沒(méi)有內(nèi)置的專業(yè)知識(shí),只知道游戲的基本規(guī)則,它卻可以快速學(xué)習(xí)每種游戲,直到成為最強(qiáng)玩家。

前世界國(guó)際象棋冠軍Garry Kasparov說(shuō)道:“我無(wú)法掩飾自己的滿足感,它的棋法變化多端,跟我很像!”

這種從零開(kāi)始學(xué)習(xí)游戲的能力,完全不受人類游戲規(guī)范的約束,產(chǎn)生了一種獨(dú)特的,非正統(tǒng)的,極具創(chuàng)造力和變化的游戲風(fēng)格。國(guó)際象棋大師Matthew Sadler和女子國(guó)際大師Natasha Regan在他們即將出版的書(shū)籍Game Changer(New in Chess,2019年1月)中分析了上千次的AlphaZero國(guó)際象棋比賽,他們認(rèn)為AlphaZero的風(fēng)格不同于任何傳統(tǒng)的國(guó)際象棋。Matthew 說(shuō):“這就像發(fā)現(xiàn)了過(guò)去一些偉大棋手的秘籍一樣”。

傳統(tǒng)的國(guó)際象棋程序——包括世界計(jì)算機(jī)國(guó)際象棋冠軍Stockfish和IBM突破性的“深藍(lán)”依賴于數(shù)千個(gè)由高手玩家制作的規(guī)則和啟發(fā)式方法,這些方法試圖考慮到每盤(pán)棋局中所有可能發(fā)生的情況。將棋游戲的程序也是針對(duì)于它自身專用的,并且使用了與國(guó)際象棋程序類似的搜索引擎和算法。

而AlphaZero則采用了一種完全不同的方法,用深度神經(jīng)網(wǎng)絡(luò)和通用算法取代了這些人工制定的規(guī)則,除了游戲的基本規(guī)則之外,AlphaZero對(duì)其它一無(wú)所知。

為了學(xué)習(xí)一種游戲,未經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)通過(guò)強(qiáng)化學(xué)習(xí))的反復(fù)試錯(cuò)過(guò)程來(lái)進(jìn)行數(shù)百萬(wàn)局的自我博弈。起初,它完全隨機(jī)地走棋,但隨著時(shí)間的推移,系統(tǒng)不斷從輸贏中學(xué)習(xí)經(jīng)驗(yàn),從而調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù),使其在之后的棋局中選擇更有利的走法。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間取決于游戲的類型和復(fù)雜程度,國(guó)際象棋大約需要9個(gè)小時(shí),將棋大約需要12個(gè)小時(shí),圍棋則大約需要13天。

歷史上唯一一位擁有七大將棋比賽冠軍的九段職業(yè)棋手Yoshiharu Habu說(shuō)道,“它的一些舉動(dòng),例如將王移動(dòng)到棋盤(pán)的中心,違反了將棋理論,并且從人的角度來(lái)看,它似乎使自己處于危險(xiǎn)的位置。但令人難以置信的是,它仍然能掌控著棋盤(pán)。其獨(dú)特的棋法向我們展示了這些游戲中還存在著其它的可能性!

訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)被用于一種搜索算法——蒙特卡羅樹(shù)搜索(Monte-Carlo Tree Search/MCTS),以選擇游戲中最有利的走法。對(duì)于每步棋,AlphaZero僅搜索傳統(tǒng)國(guó)際象棋程序中的一小部分走法。例如,在國(guó)際象棋中,AlphaZero每秒僅搜索6萬(wàn)種走法,而Stockfish則要搜索大約6千萬(wàn)種走法。

我們對(duì)經(jīng)過(guò)全面訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)進(jìn)行測(cè)試,使其與國(guó)際象棋中最強(qiáng)大的程序Stockfish、將棋中最強(qiáng)大的Elmo,以及圍棋中最強(qiáng)大的AlphaGo Zero分別進(jìn)行了比賽。

每個(gè)程序都在其最初設(shè)計(jì)的硬件上運(yùn)行。Stockfish和Elmo使用44個(gè)CPU核心(正如在TCEC世界錦標(biāo)賽一樣),而AlphaZero和AlphaGo Zero使用一臺(tái)機(jī)器,配備4個(gè)第一代TPUs和44個(gè)CPU核心。第一代TPU的推理速度與NVIDIA Titan V GPU等商用硬件大致相似,但其實(shí)兩者的架構(gòu)不具有直接的可比性。

所有比賽的時(shí)間均控制在每場(chǎng)3小時(shí)之內(nèi),每步棋限時(shí)15秒。

在每場(chǎng)評(píng)估中,AlphaZero都令人信服地?fù)魯×藢?duì)手:

在國(guó)際象棋中,AlphaZero擊敗了2016 年TCEC(第9季)比賽的世界冠軍Stockfish,在1000場(chǎng)比賽中獲勝155場(chǎng),僅輸?shù)袅?場(chǎng)。為了驗(yàn)證AlphaZero的魯棒性,還測(cè)試了一系列人類選手常見(jiàn)的開(kāi)局。在每個(gè)開(kāi)局中,AlphaZero都擊敗了Stockfish。我們嘗試了2016年TCEC世界錦標(biāo)賽中采用的開(kāi)局,還進(jìn)行了和最新版Stockfish及一個(gè)變種版Stockfish(使用了強(qiáng)大開(kāi)局)的一系列附加賽。在所有比賽中,AlphaZero都取得了勝利。

在將棋中,AlphaZero擊敗了2017年CSA世界冠軍版Elmo,贏得了91.2%的比賽。

在圍棋中,AlphaZero擊敗了 AlphaGo Zero,贏得了61%的比賽。

讓玩家覺(jué)得最為著迷的正是AlphaZero獨(dú)特的游戲風(fēng)格。例如,在國(guó)際象棋中,AlphaZero在其自我訓(xùn)練中獨(dú)立發(fā)現(xiàn)并演繹了人類常見(jiàn)的思維模式,如開(kāi)局(openings),保王(king safety)和兵陣(pawn structure)。但是,由于它可以自學(xué)所以并不受傳統(tǒng)思維的影響,還開(kāi)發(fā)了自己的直覺(jué)和策略,增加了一系列令人興奮的新穎想法,擴(kuò)展了幾個(gè)世紀(jì)以來(lái)對(duì)國(guó)際象棋戰(zhàn)略的思考。

前世界國(guó)際象棋冠軍Garry Kasparov說(shuō)道,“一個(gè)多世紀(jì)以來(lái),國(guó)際象棋一直被用作人類和機(jī)器認(rèn)知的羅塞塔石碑。AlphaZero的非凡成就,更新了古老的棋盤(pán)游戲和尖端的科學(xué)之間的聯(lián)系!

Matthew Sadler說(shuō)道,玩家首先注意到的就是AlphaZero的風(fēng)格,也就是它以其獨(dú)到的力量圍攻對(duì)手王棋的方式。支撐著這些的是AlphaZero百變的游戲方式,這些方式最大限度地提高了它自身的活躍性和移動(dòng)性,同時(shí)最大限度地減少了對(duì)手的活躍性和移動(dòng)性。與直覺(jué)相反,AlphaZero似乎對(duì)“子力”(material)的重視程度較低,在現(xiàn)代象棋中,每一個(gè)棋子都具有一個(gè)值,如果一個(gè)玩家在棋盤(pán)上的棋子值高于對(duì)手,那么他們就具有了子力優(yōu)勢(shì)。相反,AlphaZero在游戲早期就犧牲了子力,反而在后期中逐漸補(bǔ)償收益。

掌握棋盤(pán)游戲

Matthew 說(shuō)道,“令人印象深刻的是,AlphaZero能夠在各種各樣的位置和開(kāi)局中顯示出自己獨(dú)道的棋法,”他還觀察到,AlphaZero剛開(kāi)始就以非常審慎的方式下棋,這一點(diǎn)和人類的掌握全局非常相似!皞鹘y(tǒng)程序非常強(qiáng)大,幾乎不會(huì)出現(xiàn)明顯的錯(cuò)誤,但在面對(duì)沒(méi)有具體可計(jì)算的位置時(shí)會(huì)亂了陣腳。面對(duì)這些問(wèn)題時(shí)需要“感覺(jué)”,“洞察”或“直覺(jué)”來(lái)解決,而AlphaZero自成一體恰好具備了這些特質(zhì)。

前世界國(guó)際象棋冠軍Garry Kasparov說(shuō)道,“這里面蘊(yùn)含的邏輯知識(shí)已經(jīng)遠(yuǎn)遠(yuǎn)超出了我最心愛(ài)和欣賞的棋局……這些自學(xué)成才的機(jī)器不僅下得一手好棋,而且還能產(chǎn)生很多值得我們學(xué)習(xí)的新知識(shí)!

在最近 Magnus Carlsen和 Fabiano Caruana的世界國(guó)際象棋冠軍賽( World Chess Championship )中,這種在其他傳統(tǒng)的國(guó)際象棋程序中看不到獨(dú)特的提供見(jiàn)解的能力,已經(jīng)被用來(lái)為國(guó)際象棋迷們提供新見(jiàn)解和評(píng)論, Game Changer中還會(huì)進(jìn)一步探討。 Natasha Regan 說(shuō)道,“AlphaZero對(duì)于棋局的分析與其他頂級(jí)國(guó)際象棋程序甚至頂級(jí)大師的對(duì)棋局分析的不同之處,真是令人著迷,AlphaZero可以成為整個(gè)象棋界強(qiáng)大的教學(xué)工具!

AlphaZero的教學(xué)能力在2016年AlphaGo與圍棋界傳奇冠軍李世乭(Lee Sedol)的比賽中就可以看出。在比賽期間,AlphaGo演繹了許多極具創(chuàng)造性的棋法,包括在第二場(chǎng)比賽中的第37步棋,推翻了數(shù)百年的思維定式。AlphaZero的很多走棋方式都已經(jīng)被很多玩家(包括李世乭在內(nèi))研究過(guò),李世乭談?wù)摰?7步棋時(shí)說(shuō)道:“我原本認(rèn)為AlphaGo是基于概率計(jì)算的,它只是一臺(tái)機(jī)器,但當(dāng)我看到這一步棋時(shí),我改變了主意,AlphaGo確實(shí)很有創(chuàng)造力。”

和圍棋一樣, AlphaZero在國(guó)際象棋中的創(chuàng)造力令人振奮,自從計(jì)算機(jī)時(shí)代開(kāi)始以來(lái),人工智能一直都面臨著巨大的挑戰(zhàn),早期的先驅(qū)巴貝奇、圖靈、香農(nóng)、馮·諾依曼都曾試圖設(shè)計(jì)國(guó)際象棋程序。但AlphaZero的意義不僅僅是在國(guó)際象棋,將棋或圍棋中。為了創(chuàng)建能夠解決各種現(xiàn)實(shí)問(wèn)題的智能系統(tǒng),我們需要它們具備能夠總結(jié)新情況的靈活性。雖然在這一目標(biāo)上我們已經(jīng)取得了一些進(jìn)展,但它仍然是人工智能研究中的一項(xiàng)重大挑戰(zhàn),因?yàn)橄到y(tǒng)往往能夠以非常高的完成度掌握一些特定的技能,但在面對(duì)略微不同的任務(wù)時(shí)就會(huì)失敗。

AlphaZero能夠掌握三種不同的復(fù)雜游戲,并且有潛力完成任何完備信息博弈,所以AlphaZero是克服這一問(wèn)題的重要一步。它表明單個(gè)算法可以在一系列設(shè)定中學(xué)習(xí)新知識(shí)。盡管還處于早期階段,但是AlphaZero的獨(dú)到見(jiàn)解和其在AlphaFold等其他項(xiàng)目中展示出的優(yōu)異結(jié)果,對(duì)創(chuàng)建通用學(xué)習(xí)系統(tǒng)(our mission)充滿信心,這有助于找到一些新的解決方案來(lái)處理更多更重要且復(fù)雜的科學(xué)問(wèn)題。

來(lái)源:網(wǎng)絡(luò)

以上是關(guān)于棋類的相關(guān)信息,以供大家查看了解。想要了解更多棋類信息,第一時(shí)間了解棋類相關(guān)資訊,敬請(qǐng)關(guān)注唯學(xué)網(wǎng)棋類欄目,如有任何疑問(wèn)也可在線留言,小編會(huì)為您在第一時(shí)間解答!


0% (10)
0% (0)
已有條評(píng)論