たなかし@観る将×データ解析練習場

入院時の暇を利用して王位戦(木村王位×藤井棋聖)を観戦した2日間以来の観る将。データ解析の練習もかねて棋士の強さ解析を実施しながら、マニアックな角度からの観る将ライフを紹介。

2021年のプロ棋戦のデータを解析した(1)

ソースデータ

  • 将棋連盟の月間対局結果ページから、2021年の1月~12月の対局結果
  • Wikipediaから第71回NHK杯トーナメント結果(収録日データ含む)
  • 囲碁将棋チャンネルから第29期銀河戦結果(収録日データ含む)

月間対局結果|対局予定・結果、記録|日本将棋連盟

第71回NHK杯テレビ将棋トーナメント - Wikipedia

将棋 - 銀河戦|囲碁・将棋チャンネルホームページ

タイトルに2021年と称しながら、銀河戦は前に、NHK杯は後ろに、それぞれ開催時期がずれてるじゃねーか、というツッコミは甘んじて受けますが、今回は棋戦時期の厳密さは求めていなくて、単純に取りやすいデータを取ってきてとりあえず解析を回すことが第一義と考えていました。

 

プロ棋士を特定するため、棋士データベースのデータも取ってきています。

棋士番号順一覧|棋士データベース|日本将棋連盟

将棋の女流棋士一覧 - Wikipedia

 

データハンドリング

詳細は省略しますが要点だけ。

  • 上記の3つのソースデータを、先手、後手、先手勝敗、後手勝敗、棋戦種類、対局日を対局ごとに1レコードとして縦に積み(rbind)ます。なお、将棋連盟HPから取ってきたデータは対局日が別行に記載されているので、データ加工を少し頑張る必要があります。
  • 棋士リストと女流棋士リストを縦に積み、上記の棋戦データの先手、後手をキー変数としてそれぞれマージ(inner_join)します。先手、後手のどちらかにプロ棋士・プロ女流棋士のデータが入っていたら除き(filter)ます。
  • 先手が勝利したとき1、後手が勝利したときが0となる変数を持っておきます。(解析時にBTmで指定します)
  • RのBradleyTerry2パッケージでは、強さを推定したい「Player」を因子化する必要があります。先手後手データを縦に積み、重複を取り除き(arrange, distinct)、因子化(as_factor)します。(名前をそのまま因子化したので、阿久津八段が先頭の因子でした。)
  • この段階で使えるかはわかりませんが、対局日を文字列から日付データに変換したり、棋戦種類から早指し(NHK杯銀河戦、朝日杯、JT杯に加えて、持ち時間1時間の棋戦予選)、長時間棋戦(順位戦竜王戦、2日制タイトル戦)のカテゴリー変数を作ったりしています。

 

解析ーBradleyTerry2::BTm

BradleyTerry2の詳細はこちら。

ブラッドリーテリーモデル - たなかし@観る将×データ解析練習場

ま、とりあえず解析を回してみました。入力した2021年の対戦データにおける棋士ランキングトップ10はこんな感じでした。

  1. 藤井竜王
  2. 渡辺名人
  3. 永瀬王座
  4. 豊島九段
  5. 齋藤八段
  6. 出口六段
  7. 八代七段
  8. 伊藤(匠)五段
  9. 服部四段
  10. 近藤(誠)七段

いやー、いろいろ納得感がありますね。まず4強が並び、時点が齋藤八段。そこまでは誰もが異論なしだと思うんです。

次の5人の並びが印象的ですよね。ちなみにこれは2021年の成績を用いているので、叡王戦の決勝トーナメントの成績は含まれていないのですが、叡王戦挑戦者の出口六段が6位にランクインするわけですか。個人的にはそこまでだとは思っていませんでした。。すみません。

 

レーティングとの比較

とりあえずこのランキングをレーティングと比較してみましょう。本当は2021年末のレーティングデータと比較できるといいんですけど見つからないので、とりあえず2022年4月15日版を使います。

将棋棋士レーティングランキング shogidata.info

  1. 藤井竜王
  2. 渡辺名人
  3. 永瀬王座
  4. 豊島九段
  5. 齋藤八段
  6. 近藤(誠)七段
  7. 菅井八段
  8. 佐藤(天)九段
  9. 稲葉八段
  10. 八代七段

 

6位以降が結構違うんですよね。レーティング6位の誠也七段は、2021年BTモデルでは10位です。ただこれは、2022年の王位リーグの快進撃が関連している可能性もありますね。

レーティング7位の菅井八段は2021年BTモデルではなんと24位です。それはそれでBTモデルの方に違和感もあるのですが、最近の菅井八段は明らかに調子が良いのと比較して、2021年は特に骨折期間中の調子が悪かったですね。それが反映されているのでしょうか。

8位の天彦九段ですが、2021年BTモデルはなんと36位です。これも菅井八段と同じ現象な気がします。

9位の稲葉八段は2021年BTモデルでは30位です。さて…稲葉八段はそんなに調子の波があったでしょうか。これはデータの有無の問題ではなさそうな気もします。

10位八代七段はBTモデルも7位なんで、そんなにギャップはないですかね。

 

逆に2021年BTモデル上位の出口六段、伊藤(匠)五段、服部四段はどうなんでしょうか。出口六段はレーティング12位なんでそれほど大きなギャップがありませんが、服部四段は17位、伊藤(匠)五段は27位で、だんだん差が開いていきます。

出口六段、服部四段、伊藤(匠)五段の共通項としては「新鋭の若手」というところですが、それぞれ棋士番号は317、322、324であり、プロデビューの順番もこの通りです。つまり、彼らの強さがレーティングにまだ反映されきれていないのではないか、ということが考えられます。

逆に菅井八段、天彦九段、稲葉八段は全員A級棋士で、レーティングでは過去の対局の蓄積が反映されています。2021年に一時的な不調があったとしてもレーティングは大きくは変わりませんが、2021年のみのデータを用いたBTモデルでは、好不調の波が反映されやすいということになります。

 

 

 

今回はこんなところにして、次回に続くとしましょう。