柯潔輸了，王思聰被懟了，最終勝利的是阿爾法狗嗎？

最新 05-24

19歲的柯潔輸了。

圍棋人機大戰2.0版的第一場，雙方交鋒至第286手棋，執黑的柯潔以約四分之一子的微弱劣勢，敗給圍棋人工智慧程序AlphaGo。

圍棋世界第一的少年，留下了這樣一篇感慨：

紀檢委王思聰又不安分地出來撲騰了，但這次廣大群眾不樂意了：

也是，畢竟Deepmind創始人阿爾法狗之父戴密斯.哈薩比斯早已經表示過：

「在去年和李在石對決後，我們發現了問題回去改善了系統，讓阿爾法狗不斷自學並且自我完善，我們覺得我們已經解決了問題，但是肯定還存在著缺陷——在那些未知的領域裡。這次的阿爾法狗比去年和李在石對戰的那個版本要強十倍。」

是的，阿爾法狗已經開啟無敵模式了......

所以這讓大眾驚訝，讓柯潔不甘的阿爾法狗到底是如何運行的呢？

讓我們來看看：

AlphaGo如何進行訓練？

一直以來，圍棋就被認為是傳統遊戲中對人工智慧最具挑戰性的項目。這不僅僅是因為圍棋包含了龐大的搜索空間，更是因為對於落子位置的評估難度已遠遠超過了簡單的啟發式演算法。

為了應對圍棋的巨大複雜性，AlphaGo採用了一種新穎的機器學習技術，結合了監督學習和強化學習的優勢。通過訓練形成一個策略網路（policy network），將棋盤上的局勢作為輸入信息，並對所有可行的落子位置生成一個概率分布。

然後，訓練出一個價值網路（value network）對自我對弈進行預測，以 -1（對手的絕對勝利）到1（AlphaGo的絕對勝利）的標準，預測所有可行落子位置的結果。

這兩個網路自身都十分強大，而 AlphaGo將這兩種網路整合進基於概率的蒙特卡羅樹搜索（MCTS）中，實現了它真正的優勢。最後，新版的AlphaGo產生大量自我對弈棋局，為下一代版本提供了訓練數據，此過程循環往複。

AlphaGo如何決定落子？

在獲取棋局信息後，AlphaGo會根據策略網路探索哪個位置同時具備高潛在價值和高可能性，進而決定最佳落子位置。

在分配的搜索時間結束時，模擬過程中被系統最頻繁考察的位置將成為AlphaGo的最終選擇。在經過先期的全盤探索和過程中對最佳落子的不斷揣摩後，AlphaGo的搜索演算法就能在其計算能力之上加入近似人類的直覺判斷。

面對如此複雜的運算體系和再學習能力，喚醒了大多數人內心的恐懼。我們會被替代嗎？我們學習還有用嗎？未來的世界到底屬於人工智慧還是屬於創造者的我們呢？

對此，哈薩比斯表示：

「這不是人機大戰，而是人使用電腦發現新的奧秘和知識。和哈勃望遠鏡一樣，探索宇宙，AlphaGo就是新的哈勃望遠鏡。

AlphaGo可以用在其他領域。我們相信在製藥、醫療領域，都可以藉由人工智慧解決，幫助專家取得更大領域的突破。

希望通過未來與人類專家的合作，找到各種創新的方式。希望探索有新的創新，也希望AlphaGo在其他領域有新的突破。

最後我們想對圍棋界表達深深的謝意，這已經超過我們最初的想像。希望能探索新的下法，我們最終的目的不是誰贏，因為最終的勝利屬於人類。「

九公主想想也是，至少投資這活兒阿爾法狗還是攬不下啊，最終勝利肯定屬於人類的。（特別是會理財的那一撥兒）

久融理財大轉盤活動火熱進行中，本人每滿5000元投資即可獲得一次抽獎機會；推薦新用戶投資5000元，推薦人與被推薦人都將各獲得一次抽獎機會。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 久融理財 的精彩文章:

您可能感興趣