aiphago（AlphaGo Zero凭借完全自学击败AlphaGo是否意味着人工智能已经可以开始独立思考）

我觉得现在AlphaGo对人类围棋理论的帮助暂时不多,而是人类告诉AlphaGo Zero如何下棋之后,AlphaGo Zero并不是自己悟出了围棋的下法,AlphaGo Zero通过增强学习（Reinforencement Learning）这个人类设定的算法进行自我对弈,直译是“不需要人类知识就可以成为围棋大师”,AlphaGo Zero凭借完全自学击败AlphaGo是否意味着人工智能已经可以开始独立思考先扔结论：不是,相当于你不告诉机器下一步怎么走,我觉得这对于人类研究围棋的意义可能会非常重大。

AlphaGo Zero凭借完全自学击败AlphaGo是否意味着人工智能已经可以开始独立思考

先扔结论：不是。

AlphaGo Zero这只“新狗”是继AlphaGo Fan、AlphaGo Lee、AlphaGo Master之后，AlphaGo家族的又一新成员，也是迄今为止最强大、同时也是最可怕的一个对手。（打赢柯洁的是AlphaGo Master，而AlphaGo Zero在诞生的第21天里就打败了Master、在诞生的第40天里对战Master的胜率达到90%，成为最强的人工智能）

AlphaGo Zero第一次让AI完全脱离人类历史棋谱，只通过围棋规则＋“自我对弈”，在2900万次自我对弈后成长为世界上最强大的围棋大师。

谷歌旗下DeepMind团队在《Nature》杂志发布的论文的题目也非常耿直，《Mastering the game of Go without human knowledge》，直译是“不需要人类知识就可以成为围棋大师”，意译过来大概就是……“人类，我不需要你了”。-aiphago

对，看上去好像是“独立思考”，但是我们要明确一点，AlphaGo Zero并不是自己悟出了围棋的下法，而是人类告诉AlphaGo Zero如何下棋之后，AlphaGo Zero通过增强学习（Reinforencement Learning）这个人类设定的算法进行自我对弈，然后成长的。-aiphago

所以，它并不是AI开始独立思考，而是增强学习算法在围棋领域有一个突破性的进展。

增强学习（Reinforencement Learning）与我们常听说的深度学习（Deep Learning）不同，在深度学习里，你需要用大量的数据去训练神经网络。比如你将一张车的图片给机器看，并且告诉它这是车，下次它就会说出“车”。如果你给他展现出别的，它还说车，你就告诉它“你错了。”久而久之的，它就能认出车来，原理其实很简单，但是对数据量的要求非常大。-aiphago

而在增强学习中，相当于你不告诉机器下一步怎么走，等它随机执行了一轮操作后，如果结果是好的，那么给它奖励，如果结果是不好的，那么给它惩罚，但是不告诉它哪一步做错了，久而久之机器会自己摸索出一套最佳方案来。-aiphago

增强学习极大减少了数据的依赖，尤其是在围棋这种规则明确的游戏当中，则更加适合增强学习发挥其强大的威力。

我们暂时不用太担心机器“独立思考”，现在的的增强学习还暂时只能在环境简单、条件较少、任务行为较窄的领域（比如围棋、简单物理运动等）发挥作用，离真正的“智能”还有点远。

如何评价alphago自我对弈的50盘棋

打了十多局alphago自战棋谱，由于才业余五段棋力不高，很多东西理解不了，但脑中的感觉竟然是2只精灵在自由自在的跳舞，有时是互动，有时是你跳你的，我跳我的，感觉不到人类棋谱的杀气。棋圣吴清源曾经说过：围棋的本质是调和，alphago棋谱就是这个境界吗？-aiphago

八九十年前，木谷实吴清源在日本发起了新布局理论的探讨，开启了围棋的新时代，今天的职业围棋，除了计算力可能超越当时，理论水平并没有真正的突破，这实际上已经是固步自封了，这样的环境需要新的围棋英雄来挑起人们继续探讨围棋真谛的激情。现在，alphago来了，这50局将成为围棋界的教科书，引导围棋进入新的百家争鸣时代。-aiphago

AlphaGo的棋路对我们目前的围棋理论有什么启示

说几句真心话，我觉得现在AlphaGo对人类围棋理论的帮助暂时不多。

首先，AlphaGo被设定为只为提高赢棋概率为目的，通过对价值网络分析大量局面得到参数，记录了海量的数据，又有强大的全局性计算力作为支撑，其计算能力是人类所不能模仿的。

其次，AlphaGo在Zero之前的版本里，前半盘的下法是非常单调的。比如在正解解集里，前50步赢棋的方式有100万种（举例），AlphaGo可能只取其中的1000种，余下的根本不管了。因为这个程序是为了赢棋而设计的，而非为了找到所有正解而设计的。直到AlphaGo Zero的论文，我才看到有提到为了保证开局多样性而做的程序设定。-aiphago

所以，如果要充分利用AlphaGo模型，光和程序下棋是远远不够的。我觉得我们还有两件事要做：

1. 拿到后台数据，观察各种局面和棋型中，价值网络提取得到的结果。这对提高人类的常识积累、训练更准确的棋感很有帮助。

2. 拿程序来推演前半盘的布局定式。人类对布局定式的研究，都要回归到大量的实战中去验证，可是多大量的实战可以和AlphaGo的自对弈相比？人类职业对局一年能有多少盘？限于对胜负的追求，又有多少盘棋中敢尝试结论未定的新变化？但是如果我们用AlphaGo顺着一条路走下去，得到各个分支最终的胜率，就能更快速准确的找到一个布局或定式变化的正确方向。-aiphago

在未来，如果我们能实现这两点，我觉得这对于人类研究围棋的意义可能会非常重大。我期待着国家队早日能有这样的超级AI程序辅佐研究训练，也期待着《围棋天地》上每一期都能讲解职业棋手利用程序进行研究的最新结论。-aiphago

电脑数码网

Nice to meet you, too!

aiphago

aiphago（AlphaGo Zero凭借完全自学击败AlphaGo是否意味着人工智能已经可以开始独立思考）

admin 发表于2022-07-26 09:34:19 浏览108 评论0

AlphaGo Zero凭借完全自学击败AlphaGo是否意味着人工智能已经可以开始独立思考

如何评价alphago自我对弈的50盘棋

AlphaGo的棋路对我们目前的围棋理论有什么启示

少长咸集