国产喷水高清一区二区,日本道高清一区二区,日韩少妇毛多水多

本文是我的好友饞宗通吃觀戰(zhàn)后的感想，我?guī)兔Πl(fā)布在簡(jiǎn)書。如需轉(zhuǎn)發(fā)請(qǐng)通知我，謝謝。

補(bǔ)充：我這個(gè)好友大學(xué)專業(yè)是計(jì)算機(jī)相關(guān)的，大學(xué)期間學(xué)過(guò)神經(jīng)網(wǎng)絡(luò)，寫過(guò)棋類程序，也算是典型圍棋愛(ài)好者。

AlphaGo 4:1 李世石，人機(jī)大戰(zhàn)落幕。估計(jì)大部分人和我一樣，從賽前對(duì)AlphaGo的輕視，到AlphaGo突然戰(zhàn)勝人類九段的吃驚，再到李世石屢敗屢戰(zhàn)后點(diǎn)穴般“神之一手”的驚艷，到最后接受人工智能戰(zhàn)勝人類九段的同時(shí)，又有一點(diǎn)點(diǎn)的感傷和對(duì)未來(lái)的擔(dān)心。

本人吃貨一枚，稍微研究過(guò)人工智能，現(xiàn)在陪小孩學(xué)圍棋玩。下面從幾方面隨便聊聊自己的想法，也算是對(duì)這些天自己心路歷程的一個(gè)記錄吧。

一、說(shuō)說(shuō)狗狗（注1）

AlphaGo由3部分構(gòu)成：Policy Networks/Value Networks /蒙特卡羅搜索樹(shù)（MCTS）。下面簡(jiǎn)單介紹它們仨。

1）Policy Networks

Policy Networks根據(jù)當(dāng)前局面，評(píng)估下一步走哪里？它分為兩部分，Supervised Learning Policy Networks和Reinforcement Learning Policy Networks。

Supervised Learning Policy Networks是一個(gè)13層深度的人工神經(jīng)元網(wǎng)絡(luò)，它學(xué)習(xí)了KGS Go Server里所有的專業(yè)棋譜，合共3000萬(wàn)步棋。學(xué)習(xí)完成后，如果你“問(wèn)”SL Policy Networks記不記得某個(gè)學(xué)習(xí)過(guò)的棋譜里下一步棋應(yīng)該走哪里，Policy Networks回答有57%和棋譜里一致。呵呵，貌似阿爾法狗狗的記憶力很一般呀！其實(shí)不然，剩下43% SL Policy Networks憑“感覺(jué)”給出的棋，我猜如果其中有一小半不是太壞的招，那么SL Policy Networks針對(duì)學(xué)習(xí)過(guò)的局面給出的下一步棋，有70%左右是不差的?。?！但這還沒(méi)完，阿爾法狗狗還要再自我強(qiáng)化一把，就是Reinforcement Learning Policy Networks。

Reinforcement Learning Policy Networks是SL Policy Networks的加強(qiáng)版，就是拿一個(gè)選定的SL Policy Networks不斷跟一群隨機(jī)選擇的SL Policy Networks內(nèi)部比賽，不斷修正自己。最終，這個(gè)選定的SL Policy Networks被強(qiáng)化到有80%的內(nèi)部比賽勝率。有沒(méi)有養(yǎng)一堆毒蟲讓它們互相廝殺剩下一個(gè)的感覺(jué)？用一個(gè)開(kāi)源的圍棋軟件Pachi作為參考對(duì)手，阿爾法狗狗用SL Policy Networks勝率是11%，而用優(yōu)勝劣汰脫穎而出的RL Policy Networks勝率暴漲到85%。

2）Value Networks

Value Networks跟Policy Networks類似，它根據(jù)當(dāng)前局面，預(yù)估己方勝率是多少。訓(xùn)練方式也是如出一轍，先用KGS Go Server里的棋譜訓(xùn)練。訓(xùn)練出一批Value Networks之后，它們?cè)倩ハ郟K，得到一個(gè)預(yù)估勝率最準(zhǔn)確的Value Networks，叫做Reinforcement Learning Value Networks。我們是不是該對(duì)股評(píng)專家也采用類似的方式對(duì)待呢?嗯，評(píng)股，養(yǎng)蠱，諧音啊~

3）蒙特卡羅搜索樹(shù)（MCTS）

蒙特卡羅是一類隨機(jī)方法的統(tǒng)稱。舉個(gè)例子，假如筐里有100個(gè)蘋果，讓我每次閉眼拿1個(gè)，挑出最大的。于是我隨機(jī)拿1個(gè)，再隨機(jī)拿1個(gè)跟它比，留下大的，再隨機(jī)拿1個(gè)……我每拿一次，留下的蘋果都至少不比上次的小。拿的次數(shù)越多，挑出的蘋果就越大，但我除非拿100次，否則無(wú)法肯定挑出了最大的。這個(gè)挑蘋果的算法，就屬于蒙特卡羅算法——有限時(shí)間內(nèi)盡量找好的，但不保證是最好的。（注2）

AlphaGo大概就是這樣運(yùn)作的，當(dāng)前局面有很多下法（平均200個(gè)落子點(diǎn)），用Policy Networks把“覺(jué)得不錯(cuò)”的落子點(diǎn)優(yōu)先標(biāo)出來(lái)，然后蒙特卡洛搜索樹(shù)（MCTS）會(huì)開(kāi)動(dòng)腦筋，如果狗狗我這樣這樣落子而對(duì)方就會(huì)那樣那樣回應(yīng)……MCTS對(duì)于每個(gè)想到的局面，會(huì)有一個(gè)評(píng)分：綜合考慮Value Networks評(píng)分和一個(gè)隨機(jī)得分（the outcome zL of a random rollout played out），公式是這樣子的：

最后AlphaGo會(huì)選一個(gè)得分（勝率）最高的下法。關(guān)于評(píng)分，我覺(jué)得DeepMind這里并沒(méi)有講太清楚，圍觀群眾也不必深究（也可查閱論文原文）。只需要明白狗狗的思路既可，狗狗的世界大概是這樣的：

狗狗根據(jù)以往的經(jīng)驗(yàn)（“感覺(jué)”）選一些下法，隨機(jī)也選一些下法，發(fā)揮計(jì)算力特長(zhǎng)搜索評(píng)估不同局面，最終選擇勝率最高的下法。只要選的下法足夠多，就很可能逼近最佳下法。這樣看來(lái)，狗狗有種“大膽猜測(cè)，小心求證”的味道，DeepMind厲害。

從娛樂(lè)的角度看，阿爾法狗狗可以看作是：根據(jù)經(jīng)驗(yàn)抓一批人，隨機(jī)也抓一批人，都?xì)⒌?！錯(cuò)殺三千，也許 “那一個(gè)”就逃不了！如果給狗狗更多的時(shí)間和CPU，就殺三萬(wàn)三十萬(wàn)，“那一個(gè)”就更難逃脫了！?。『眯皭汉醚葉

從計(jì)算機(jī)搜索樹(shù)剪枝算法角度看，AlphaGo是：用Policy Networks來(lái)剪枝，用Value Networks模糊估值和隨機(jī)估值（減少思維盲點(diǎn)）結(jié)合，達(dá)到在有限時(shí)間和硬件條件下，盡量找到好的下法！從結(jié)果來(lái)看，狗狗在“時(shí)間/空間/準(zhǔn)確性”方面找到了較好平衡點(diǎn)，贊一個(gè)。

最后說(shuō)說(shuō)AlphaGo的硬件配置：本次比賽使用單機(jī)版本48 CPUs + 8 GPUs，40條線程并行計(jì)算；分布式版本用到多臺(tái)機(jī)器，合共1202 CPUs + 176 GPUs,每臺(tái)機(jī)器40線程。

圖例：How AlphaGo (black, to play) selected its move in an informal game against Fan Hui.

二、說(shuō)說(shuō)戰(zhàn)斗（注3）

3月9日，李世石輕敵，首局中盤認(rèn)輸，人類嘩然。

3月10日，AlphaGo完勝，其中一步5路尖沖，令聶衛(wèi)平“脫帽致敬”。李世石承認(rèn)局面一直落后，完敗。

3月12日，李世石在序盤僅僅因一手棋過(guò)分便遭到AlphaGo最犀利的反擊，從此落入被動(dòng)局面。三連敗，世間感傷。

3月14日，李世石在不利局面下弈出“神之一手”挖，AlphaGo“短路”，小李翻盤。李世石出席發(fā)布會(huì)時(shí)，現(xiàn)場(chǎng)幾百名記者齊聲高呼李世石的名字，小李是英雄。

3月15日，李世石細(xì)棋敗北。

縱觀這五盤棋，AlphaGo通過(guò)大量棋譜/實(shí)戰(zhàn)訓(xùn)練，令自己“像一個(gè)高手”，同時(shí)局部精準(zhǔn)計(jì)算是特長(zhǎng)。但AlphaGo仍有程序固有的缺點(diǎn)，一旦遇到bug很容易崩潰，有點(diǎn)像人類的“天才白癡”。另外，AlphaGo人工神經(jīng)元網(wǎng)絡(luò)不會(huì)針對(duì)對(duì)手調(diào)整自己，或者說(shuō)，5局棋譜比起之前16萬(wàn)局訓(xùn)練如滄海一粟，對(duì)AlphaGo提高和調(diào)整幾乎可以忽略。

而李世石，賽前對(duì)AlphaGo 有輕敵情緒，但小李不斷試探和調(diào)整策略的努力，屢敗屢戰(zhàn)和絕地反擊的決心，終于逼出AlphaGo的bug，的確配得上“人類代表”。

最終人機(jī)大戰(zhàn)李世石1比4敗北，谷歌的人工智能攻破了人類智力運(yùn)動(dòng)最堅(jiān)實(shí)的堡壘，李世石逆境下獲得的一勝同樣捍衛(wèi)了人類的尊嚴(yán)。

三、說(shuō)說(shuō)未來(lái)

AlphaGo的確是人工智能的一大突破。

這次突破可能最重要的影響，就是讓我們更清晰的認(rèn)知了基于機(jī)器學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)的能力，這種能力應(yīng)該遠(yuǎn)遠(yuǎn)超出我們?cè)缙诘念A(yù)想。因此對(duì)我們?nèi)祟悓?lái)的生活將產(chǎn)生深遠(yuǎn)的影響。（注4）

個(gè)人認(rèn)為，AlphaGo是人類歷史上的一個(gè)里程碑。人類從石器時(shí)代—鐵器青銅時(shí)代—蒸汽時(shí)代—電氣時(shí)代—信息時(shí)代一直發(fā)展過(guò)來(lái)，石頭/金屬工具替代了徒手勞作，蒸汽/電氣力量替代了人力，計(jì)算機(jī)替代了簡(jiǎn)單而繁重的精確數(shù)據(jù)處理。而現(xiàn)在，AlphaGo用一場(chǎng)勝利宣告人類開(kāi)始進(jìn)入新的時(shí)代——人工智能時(shí)代。這個(gè)時(shí)代可能會(huì)有一些特點(diǎn)：

1）人工智能將代替一些專業(yè)性極強(qiáng)但不需要完全準(zhǔn)確的工作（能獲取完全信息的領(lǐng)域），例如全球語(yǔ)言的同聲傳譯（人類要逆天重建巴別塔呀），例如在一個(gè)城市里根據(jù)監(jiān)控圖像迅速排查恐怖嫌疑分子等等。

2）人工智能成為人類更有力的助手，人也更依賴人工智能（其實(shí)，我們現(xiàn)在已經(jīng)更依賴智能手機(jī)了，囧）。這方面期待人工智能的溝通表達(dá)能力做出突破。例如這次AlphaGo一些下法雖然后來(lái)證明很厲害，但很多職業(yè)棋手當(dāng)時(shí)都看不懂。試想，如果一個(gè)醫(yī)療人工智能助手給了醫(yī)生一個(gè)精準(zhǔn)的治療方案，但無(wú)法說(shuō)清楚為什么要這樣做，醫(yī)生和病人敢上手術(shù)臺(tái)嗎？

3）人類不可替代，至少AlpahGo這一類完全信息人工智能不行。因?yàn)檫€有“不能獲取完全信息的領(lǐng)域”。人類可以探索未知領(lǐng)域，并且策略調(diào)整和反應(yīng)很快，人類可以發(fā)現(xiàn)原來(lái)未知的東西，例如“引力波”。而在人類已經(jīng)把某個(gè)領(lǐng)域探索的比較清楚了，把這些經(jīng)驗(yàn)整理成的“訓(xùn)練數(shù)據(jù)”（或者獲取訓(xùn)練數(shù)據(jù)的框架），人工智能才能學(xué)習(xí)。如果要訓(xùn)練那些數(shù)據(jù)都不知道，阿爾法狗狗就暈了。讓一臺(tái)機(jī)器/物種能創(chuàng)新和頓悟，仍然是神之領(lǐng)域！（科學(xué)的盡頭是哲學(xué)，哲學(xué)的盡頭真的是神學(xué)嗎？）

最后，用我昔日同窗趙教授的一個(gè)段子作為這篇文章的結(jié)尾：

離考試結(jié)束還有10分鐘了，監(jiān)考老師說(shuō)：“要及格的同學(xué)抓緊時(shí)間啦！”說(shuō)完便轉(zhuǎn)身走出了教室……對(duì)任何一個(gè)人，只要腦袋沒(méi)有進(jìn)水，都知道要干什么了。對(duì)這個(gè)簡(jiǎn)單的情景，不知道阿爾法狗狗會(huì)如何反應(yīng)？哈哈哈~~~

注1：全篇多處引用到DeepMind團(tuán)隊(duì)的論文《Mastering the Game of Go with Deep Neural Networks and Tree Search》，不一一標(biāo)出，在這里一并向DeepMind團(tuán)隊(duì)致謝。

注2：作者：蘇椰，http://www.zhihu.com/question/20254139/answer/33572009

注3：這里參考了網(wǎng)上各路專業(yè)棋手和記者和看法，無(wú)法一一列出，一并致謝！有興趣讀者可以上網(wǎng)搜索細(xì)品。

注4：劉知青教授接受喆理圍棋訪問(wèn)語(yǔ)錄。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

AlphaGo人機(jī)大戰(zhàn)隨想 -- 作者: 饞宗通吃

AlphaGo人機(jī)大戰(zhàn)隨想 -- 作者: 饞宗通吃

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

AlphaGo人機(jī)大戰(zhàn)隨想 -- 作者: 饞宗通吃

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av