2019世界智能围棋公开赛专访“不退不让”的星阵围棋
来源:未知 点击: 发布时间:2022-09-26 11:25

  随着2019中国围棋大会开幕临近,我们亦将迎来2019“中信建投证券杯”世界智能围棋公开赛。而此次世界智能围棋公开赛或将是历届规模和水平最高的一届围棋AI比赛,比赛场地定于山东省日照市科技文化中心,时间定在8月21-24日,这四天将有来自多个国家和地区的14支围棋AI队伍展开紧张角逐,届时相信“神仙”打架定会“弈”彩纷呈!

  星阵围棋素以“不退让围棋”而闻名,曾获得过2018日本AI龙星战、2018世界智能围棋公开赛、2019“博思杯”世界人工智能围棋大赛三次冠军。在本届绝大多数参赛队伍所给出的赛前预测中,“星阵围棋”均为夺冠热门。有人预测,本届世界智能围棋公开赛的最大看点或将是“星阵围棋”“绝艺”代表的中国AI对抗日韩AI的激烈争霸场面。星阵的主创人金涬博士详尽地回答了我们的8个问题:

  深客科技是一家专注人工智能的高科技企业,为探索人工智能前沿技术,我们开发了围棋AI程序“星阵围棋”。星阵于 2018 年 4 月战胜世界冠军柯洁九段,2018 年 5 月让先对阵顶尖职业棋手 41 局获得 40 胜 1 负,随后相继三次获得世界人工智能围棋大赛冠军。2019 年 4 月,星阵让二子对阵四位世界女子顶尖棋手,获得全胜。星阵曾代表中国人工智能参加第四届东方经济论坛,并在 2018 世界人工智能大会上接受刘鹤副总理视察。

  “星阵围棋”在AlphaGo的基础上做了一些技术创新。星阵的主要贡献涉及到机器学习的两个重要领域,多任务学习和迁移学习。

  与AlphaGo只使用策略网络(Policy Network)和价值网络(Value Network)不同,星阵同时学习了四个主任务,另外两个是领地网络(Area Network)和子差网络(Score Network)。领地网络基于任意给定盘面,分别估算棋盘上每个交叉点最终归属黑棋或白棋的概率。子差网络基于任意给定盘面,估算最终黑方子数与白方子数的差值。在领地网络和子差网络的帮助下,星阵对局面的判断更加全面、立体,这也让星阵学会了像人一样“点目”,而不仅仅是依靠胜率来下棋。在胜率接近的情况下,星阵会选择子差更优的下法,将领先的优势继续扩大,或者试图缩小落后的目数,咬住局面寻找机会。这一技术特点也形成了星阵“不退让围棋”的棋风。

  另外,目前围棋AI大多使用19路棋盘,中国规则黑贴3.75子,此规则下的训练样本相对充足。星阵通过引入迁移学习技术,将中国规则黑贴3.75子的模型,用较小的代价,迁移到其他规则下。迁移学习为星阵带来了极大的算法灵活性,于是星阵可以进行任意路数的对局,也可以进行任意贴目的对局,可以进行让子棋的对弈,完美适应中国规则数子法和韩日规则数目法。可以说,迁移学习使得星阵在围棋上实现了“举一反三”的智能。

  3、你们在开发自己的围棋AI过程中用了多长时间?期间遇到过的挑战有哪些?

  深客科技是一家小创业团队,刚刚成立一年多。与谷歌、腾讯等资金和计算资源充足的大团队不同,我们的研发经费和服务器都是自筹资金。众所周知,围棋AI是需要大量计算资源投入的项目,我们的主要挑战是利用十分有限的计算资源,来达到甚至超过其他团队使用数倍甚至数十倍资源达到的水平。

  我们采用多任务学习来解决这个问题,通过多任务学习,充分利用每一个训练样本所包含的信息,这样能大大减少对训练样本的需求量,进而减少对计算资源的需求量。

  4、据悉本届世界智能围棋公开赛的参赛队实力都很强,是历届比赛中最强的一届,你是如何评价这次的对手的?

  各个围棋AI的水平一直都在快速提升。此次参赛的队伍无论是从实力还是数量都是历史之最,其中“绝艺”时隔一年多再次参赛应该是最受关注的,我们也很期待跟他们在比赛中再次交手。另外还有顾彼思问鼎围棋(GLOBIS-AQZ),从他们赛前发布会的情况来看,应该也会是实力强劲的对手。其他的参赛队有一些是老对手,如里拉零(Leela Zero),但也有很多新面孔,相信他们都具有不俗的实力。

  “星阵围棋”使用少量硬件资源完成训练,实现更具通用性、更人性化的高水平围棋智能软件。对局进程中,星阵会像人类一样用点目的方式进行形势判断,无论优势劣势,始终追求最优下法,以“不退让围棋”闻名。星阵还可以进行任意路数和任意贴目的对局,完美适应各种围棋规则。

  合理的贴目是围棋公平性的保证,在围棋AI出现以前,人类一直在探索合理的贴目。围棋AI出现以后,成为了人类更强大的工具,帮助人类研究更合理的贴目。星阵认为目前中国规则黑贴3.75子,白棋的优势很大。星阵认为如果使用中国规则数子法,贴2.75子黑棋稍稍有利,但或许比贴3.75子更加平衡。另外,日本规则数目法贴6.5时,星阵仍然认为白棋有利。

  AlphaGo Zero算法可以自我学习,不断迭代提升水平,被证明是一种优秀的强化学习算法。但使用单一算法,水平提升终有上限。AlphaGo论文中棋力曲线小时的棋力是快速上升的,之后的提升速度逐渐变缓,40天左右遇到瓶颈后停止了训练。但是事实上围棋的问题足够复杂,留给研究者的空间足够广阔,围棋AI仍然有很大的上升空间。我相信要突破水平上升的瓶颈,唯有通过不断的算法创新。目前星阵的水平仍然在较快的提升,我们也在不断通过各种尝试,进一步提升水平,但距离真正的围棋上帝还非常遥远。也正因为如此,围棋AI在未来很长时间,仍然是非常理想的算法试验田。

  8、你们是否在探索尝试AI在非围棋领域的应用?是否有明确的方向和新的突破?

  深客科技希望将围棋作为算法的试验田,进而尝试将算法移植到能源、生活服务等多种应用场景中。目前深客正积极与合作伙伴一起,展开多个应用项目的研发与实施。包括将人工智能技术精确控制数据中心制冷系统,达到节电减低PUE的目标;以及将AI技术用于储能电站,基于大数据预测电池的工作状态及寿命。目前这些领域的尝试都已经有了一些积极的进展和突破。