人工知能 Libratus がポーカーでプロに勝利 | SiTest (サイテスト) ブログ

メニューボタン閉じるボタン

人工知能 Libratus がポーカーでプロに勝利

囲碁やチェスなどのゲームで、すでに人工知能がプロに勝利するというニュースが相次いでいますが、次は「ポーカー」に人工知能が挑戦しました。
カーネギーメロン大学の研究チームは、「Libratus(リブラトゥス)」という人工知能を開発し、プロのポーカープレイヤーと対決させました。

アメリカのペンシルベニア州ピッツバーグのカジノで2017年1月11日〜30日の 20日間をかけてゲームが行われ、その対戦回数は 12万回にものぼりました。
対戦に使われたのは掛け金上限なしの「無制限テキサスホールデム」と呼ばれるポーカーで、ポーカーのプロ4人と 人工知能 が、それぞれ 1対1 でチップを賭けて対戦しました。

将棋やチェス、囲碁は、相手がどのような戦略を取っているのか展開されているゲームですが、ポーカーは相手の手札や、次に出てくる札がなにかが読めない、いわゆる「不完全情報ゲーム」です。
全てのデータが展開されないこのゲームは、人工知能にとって難しいものだとされています。
この Libratus ですが、4人のプロ全員に勝ち、総額176万ドル(約2億円)以上のチップを獲得する結果となりました。

ポーカー人工知能の研究

実は人工知能とプロが対戦するのは初めてではありません。この結果に至るまでのいくつかの開発が行われてきています。

■2007年 「Polaris」
カナダ・アルバータ大学の研究チームがコンピュータプログラム「Polaris(ポラリス)」を開発しました。
人間対コンピュータのポーカー対決の結果は、人間 2勝、コンピュータ 1勝、引き分け 1となり、人間が勝利しています。
参考:https://japan.cnet.com/article/20353447/

■2015年 「Cepheus」
カナダのアルバータ大学のマイケル・ボウリング氏率いる研究チームは、「ヘッズアップリミットホールデム」において、コンピュータソフト「Cepheus(ケフェウス)」の研究成果をまとめた論文を2015年1月9日にアメリカの科学誌「サイエンス」に発表しました。
研究チームによると、「Cepheus」は、CFR と呼ばれるアルゴリズムの改良版「 CFR+ 」を用いて、2カ月にわたって、秒間60億以上の手を考える CPU を 4,000個稼働させ、自分自身と対戦することで最適戦略を学習しました。 CFR+ の仕組みは、今までの対戦データの行動結果でどれだけ後悔したかという記録を使用し、その後悔の度合いが最小限になるような行動を選ぶ仕組みです。
参考:「新アルゴリズム( CFR+ )によるヘッズアップリミットホールデム(ポーカーの1種)の戦略プログラム」http://science.sciencemag.org/content/347/6218/145/tab-pdf

■2015年 「Claudico」
Cepheus と同年の2015年に、Deep Blue の開発に携わったカーネギーメロン大学は「Claudico」を開発しています。

第1段階は、抽象化アルゴリズムを用いて無制限ホールデムのルールを教え込む。
このときルールの全体像を把握しやすくするため、ゲームの規模を縮小・簡略化した。
第2段階、ゲーム理論における「ナッシュ均衡」(最適戦略を見つけるために使われる概念)に可能な限り近づくよう、アルゴリズムを修正する。
第3段階として、チームはリヴァースマッピングの技術を駆使し、得られた最適戦略を簡略化以前のオリジナルルールに基づいたアルゴリズムに取り込み、応用できるようにした。

(引用元:「WIRED」: http://wired.jp/2016/03/21/texas-holdem/
とあるように、開発には 3段階に分けてアルゴリズムを調整しています。

■2017年 「Libratus」
同じくカーネギーメロン大学の研究チームが開発した「Libratus」
プレイヤーが行なってきたゲーム内容をスコア化して記録し、強化学習させるというものです。
その記録時間は1500万 コア時間、そしてデータ量は 2.5PB と、とてつもない量を学習しています。
この「Libratus」は、ただプレイヤーのゲームをコピーするという訳ではなく、ルールを理解した上で学習をしているという点が、上記の人工知能より進化しています。
また、1.35ペタFLOPS と強力な演算能力を持つスーパーコンピュータ「Bridges」を活用しており、対戦期間中は、その日の勝負が終わると「プロがどのような弱点を突いてきたか」をアルゴリズムが分析し、優先度が高い欠点から順に改善しました。
参考:「カーネギーメロン大学 News」:http://www.cmu.edu/news/stories/archives/2017/january/poker-play.html

「Libratus」のアルゴリズムはポーカー以外にも活用可能

この研究は単にポーカーだけに特化したアルゴリズムではありません。
カーネギーメロン大学の研究チームは、「将来的にはこの人工知能を活用して、ビジネス上の交渉や軍隊の戦略やサイバーセキュリティー、病気治療のデザインなどの分野で意思決定を自動化させることができる」と説明しています。
このゲームの勝利はゲームの世界のみかと思ってしまいがちですが、今回のゲーム結果から、人間でも悩むような複雑な考察を立てることが必要な状況にも、人工知能が登場する可能性が高まったと言えそうです。

参考資料

・朝日新聞「AI、ポーカーでプロ4人に圧勝 2億円超のチップ獲得」
http://www.asahi.com/articles/ASK1Y5674K1YUHBI00L.html