alphagomoku

1. 简介

如名所示，本项目意欲用alphago[1]所采用的的算法来建造一个下五子棋的AI。
一为学习，二主要是不想用启发式+搜索，因为获得好的启发式很难，且不自由。
实际上，已有很多五子棋AI[2]很厉害，相关算法可以参考这儿[3]或这儿[4]。
目前采用新方法的一些尝试[5]还没有达到期望。

2. 流程

就像alphago[1]，我们也想采用类似的方式：

1. 用监督学习训练策略网络
1. 在前面的基础上，通过self-play来增强策略网络和训练一个值网络
1. 用MCTS结合它们

为了更快的训练，我们先采用9x9的棋盘，待有成功的经验后再移到更大的棋盘上去。
对于监督学习，首先是收集数据。
我们的数据采集自gomocup前几名AI对弈记录。
你可以在这儿[6]下载，它们是经过对称旋转变换的。
数据集的每一行前81(9x9)个数是棋盘描述，0表示空，1表示黑子，2表示白子，
后面的数是表示每个位置被访问的次数和赢的次数。

3. 代码

主要的文件有:

main.py          #GUI，提供人机对弈界面和其它一些功能入口(通过按键)
game.py          #一局游戏，由2个AI和1个棋盘组成，可以有或没有GUI
board.py         #棋盘状态
strategy.py      #策略(AI)基类
strategy_dnn.py  #使用dnn作决策的AI
dnn*.py          #不同结构的DCNN，从本身运行可训练或强化, 用到tensorflow
 mcts.py          #TODO MCTS，使用NN记录统计信息
 mcts1.py         #单线程MCTS，使用Tree记录统计信息
 dfs.py           #另一个AI，来自[7]
server.py        #用于和gomocup的其它AI切磋，因为gomocup manager[8]
                 #是个Windows程序，而我们的程序主要跑在Linux上，
                 #所以做了一次转发：
                 #gomocup manager <-> Windows stub[9] <-> server.py

4. 使用

为了跑起来，你需要在代码里改些配置，主要是dnn.py里面一些目录位置。
监督学习: python dnn3.py
强化学习: python main.py, 再按F4
参与到gomocup manager: python server.py

5. 下一步想做的

1. 迁移到更大的棋盘
1. 有swap2规则的AI

6. 参考

[1]Mastering the game of Go with deep neural networks and tree search
[2]Gomoku AI
[3]Gomoku Resources
[4]Carbon Gomoku
[5]Convolutional and Recurrent Neural Network for Gomoku
[6]Gomoku Dataset 9x9
[7]Gobang game with AI in 900 Lines
[8]Gomocup Manager
[9]Windows gomocup stub
[10]Human-level control through deep reinforcement learning
[11]MCTS

7. 踩过的坑

1. 监督学习所用的数据集会严重影响训练效果。
  之前我们用一个比较简单的启发式AI生成的数据集就连简单的规则都学不会，
  和人博弈时简直就是乱下
1. 用CNN描述棋盘状态，同样一些input features用不同形式喂给CNN，对结果影响不大
1. loss曲线和真正的效果感觉很奇怪
1. 直接和gomocup的其它AI对弈做强化学习实在是太慢，因为它们搜索一步
  都要很久，感觉self-play才是出路，要么能从很少的对弈中学习

8. 当前的问题

1. 当前监督学习得到的策略网络预测正确率只有35%，虽然和人玩还是能让人
  感到一些惊喜，但我想应该还要提高一些
1. self-play是这么做的: 让2个相同的AI(权值相同)对弈，其中一个
  不训练(权值保持不变)不探索，另一个用Actor-Critic做强化学习。
  现在的现象是做强化学习的AI的赢率会越来越低，
  value loss能收敛到很小，policy loss不收敛或基本稳定在一个较大的值上面。
  而偶尔能赢的时候恰好是value loss比较大的时候。

alphago做强化学习时候的minibatches是128，而我们现在是1，是否因为这个影响巨大？
[DQN\[10\]][10]用了replay memory，如果一局终了时，把的所有状态带上reward后都放到
replay memory再采样是否有助于解决这个问题？ - 3. 单线程[MCTS\[11\]][11]太慢，不实用，得改成[APV-MCTS\[1\]][1]

欢迎讨论，渴望指导，谢谢!

email: [email protected]
QQ: 363599755
微信: splendor_k

Name		Name	Last commit message	Last commit date
Latest commit History 68 Commits
tentacle		tentacle
.gitignore		.gitignore
.project		.project
.pydevproject		.pydevproject
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

alphagomoku

1. 简介

2. 流程

3. 代码

4. 使用

5. 下一步想做的

6. 参考

7. 踩过的坑

8. 当前的问题

欢迎讨论，渴望指导，谢谢!

About

Releases

Packages

Languages

License

zhangyunming/ml-five

Folders and files

Latest commit

History

Repository files navigation

alphagomoku

1. 简介

2. 流程

3. 代码

4. 使用

5. 下一步想做的

6. 参考

7. 踩过的坑

8. 当前的问题

欢迎讨论，渴望指导，谢谢!

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages