

「DeNAのデータサイエンスの技術力を社内にとどめることなく、社外のさまざまなビジネス案件に活用してもらうことが日本のデータサイエンスの底上げにつながると思うんです」
AIシステム部データサイエンス第一グループのリーダーで、Kaggle Masterとしても知られる原田 慧(はらだ けい)はそう言います。
その言葉を裏付けるように、2020年6月、AIシステム部は『データサイエンス実践講座』をスタートさせました。
世界有数のKaggler集団であるDeNAのAIシステム部は、なぜ今、本講座を開設したのでしょうか。原田と20新卒の坂見 耕輔(さかみ こうすけ)、運営を手がける2人のKagglerに話を聞きました。
日本トップレベルのデータサイエンティストの知見を凝縮
――今回の『データサイエンス実践講座』は、どんな方々が受講されているのですか?
坂見 耕輔(以下、坂見):現在の受講者は、ほぼ全員データサイエンス関連の仕事に従事されている方々です。
原田 慧(以下、原田):私も坂見さんもそうですが、Kaggle(※)で一定レベル以上の実績を出した者を「Kaggle Master(カグル・マスター)」と呼ぶんですね。
そうしたKaggle Masterに直接学ぶことで、「さらに高いレベルのデータサイエンティストになりたい」というモチベーションを持っている方々に参加いただいています。正直、私たちとコンペでライバルになりそうだと感じるレベルの方々もいて、驚いています。
※……世界最大の機械学習コンペティションのプラットフォーム。企業や研究機関などが提供するデータについて、世界中から集まる参加者が機械学習モデルの性能を競う(https://www.kaggle.com/)。Kaggleに熱心に参加する人々はKagglerと呼ばれる。
坂見:講義を受けて終わりではなく、1講座ごとに1日数時間かけて課題をやっていただき、コンペにも参加してもらうかなりハードな内容になっています。日本のトップレベルのデータサイエンティストの知見が得られる講座であることは確かですね。

数理学博士、Kaggle Master。2011年からデータ分析に従事、2018年にDeNA入社。現在はマネージャーとして多くの案件に関わりながら、個性的なメンバーを率いる。前職時代から社内外のデータ分析技術者の育成に取り組み、データサイエンティスト協会の養成講座初代講師、電気通信大学の非常勤講師など実績多数。
原田:この講座は、教育を目的に設計された良問へのコンペ参加を通して効率よく機械学習の実践経験を積んでいただき、講座後は、自走して競いながら学んでもらえるようになることを目的としています。
座学で学んだことを、Kaggleの事例を組み込んだ演習ドリルで追体験しながらしっかりと自分のものにしていく。やりごたえのある内容で、かつ汎用性のある教育コンテンツと言えると思います。
幅広な事業案件を扱う、AIシステム部の実態
――あらためて、AIシステム部データサイエンス第一グループの「本業」を教えてください。
坂見:AIを含むデータサイエンスを、実際のサービスやプロダクトに実装する組織です。多くはもちろんDeNAの事業になりますが、他社との協業案件も数多く手がけています。
――DeNAの事業だけでも相当に幅広いですよね。自ずと皆さんが手がける領域も広くなると思うのですが。
原田:そこが私たちの強みの一つで、DeNAのデータサイエンティストの醍醐味でもあります。
Kagglerって課題解決に対する集中力はすごいけれど、飽きっぽいんですね(笑)。しかしDeNAはゲーム、スポーツ、ソーシャルLIVE、ヘルスケア、オートモーティブ……と、さまざまな事業を展開していて、それぞれの領域にデータサイエンスの出番があり、事業を大きく飛躍させるエンジンになる。つまり社内で飽きずに、活躍できる場があるわけです。
あともう一つ、DeNAならではの魅力は「データがちゃんとある」ことです。
――「データがちゃんとある」とはどういうことでしょう?
原田:もちろんデータサイエンティストを配して事業をまわしている会社にはもとになるデータがあり、それらを活用したサービス設計や実装、研究開発を行うわけですが、扱うデータの質や量が十分に確保できているかといえばそうではないのが実情です。
しかし、DeNAはEコマースやオンラインゲームなど、データ分析が必要な事業を長くやっている。エンジニアだけじゃなく全社員レベルでデータの重要性を理解しています。
――データサイエンティストにとって、それは「極めて仕事しやすい環境」だと?
原田:はい。多彩な領域を手がける事業会社で「こんなデータありますか?」と聞くと「ある」「あのテーブルに入っている」とすぐさま回答が返ってくる会社って、なかなかないのではないでしょうか。
――だからこそ20名以上のKaggle Masterが、有能なデータサイエンティストが集っているんですね。ちなみにDeNAの事業で、いくつかわかりやすくデータサイエンスの知見が実装されている例をあげるとしたら?

2020年新卒入社、Kaggle Master。入社後はゲーム系の案件にメインで従事している。
坂見:横浜DeNAベイスターズの勝率をあげるためのデータ解析、PocochaなどのソーシャルLIVE領域、もちろんゲームは得意領域ですね。
――たとえばゲームだと、どんなタイトルにデータサイエンスを使っているのでしょうか?
原田:3つの属性を持つ16のキャラクター駒からなるデッキを組んで対戦する『逆転オセロニア』というゲームがありますが、「どんなデッキを組むか」が勝敗を左右するんですね。ただ、候補となるキャラクター駒がたくさんあって、このデッキの組み方が難しいんです。
初心者の場合、なかなか強いデッキを組めず、それはゲームを離脱する要因の一つになり得ます。そこで強いプレイヤーのデッキの組み合わせをAIに学習させて、初心者用にデッキ編成をサポートするシステムを実装しました。
坂見:確かにあのサポートがあるおかげで、初心者でも強いデッキが組めて、戦意喪失せずにゲームの面白さを体感できますよね。
原田:そう。私も結構やり込んでいるのですが、自分でデッキを組むよりAIに任せたほうがいいデッキができるんじゃないかというくらいに強力です。
――なるほど。結果として大勢の方が楽しみながらゲームに入っていける仕組みになっているわけですね。
原田:ええ。またこのデッキをAIが組む際に10秒も20秒もかかったら、これもまた離脱ポイントになる。そこでコンマ数秒のレスポンスで組めるような仕組みも実装しました。実は最先端のAI技術ではなく、枯れたAI技術の組み合わせで実現させたのですが、このあたりの「技術の引き出し」を持っていること。あるいは、引き出しを実践を積み重ねながら増やしてきたことがDeNAのAIシステム部の強みだと思います。
坂見:DeNAはBtoC向けのサービス経験が豊富です。だからこそ、UXにこだわり、技術の引き出しもまたユーザーフレンドリーな形になる。その仕事に携わるデータサイエンティストも同じような感覚が磨かれるのかもしれませんね。
――一方で、関西電力さんの石炭火力発電所のオペレーションシステムのようなBtoB向けサービスも手がけていますね。

原田:はい。関西電力さんの石炭火力発電所では、石炭を世界中から受け入れて、それらを複数のサイロに貯蔵し、その後ボイラで燃やすんですね。石炭の種類や混合率によって、どのサイロからどれくらいの石炭を出してどのボイラで消費するか。さまざまな制約や考慮事項があります。
これまでは熟練のエンジニアが暗黙知のようなノウハウでやっていましたが、これをアルゴリズムとして実装したんです。これは他のプラントなどにも横展開できるアルゴリズムだと期待しています。
――しかし、そのように本業でも十二分にリソースを使っている中、なぜ今春から外向けのデータサイエンティスト養成をはかろうと?
原田:大きくは2つあります。
1つ目は、我々が積み上げた豊富なノウハウと知見を「講座」という形でオープンにし、社会全体に向けて人材育成することで、業界を発展させたい。世の中のデータサイエンティストがいろいろな引き出しを持ち、ニーズに応じて使い分けることができれば、日本のデータサイエンスの底上げにも貢献できます。
2つ目は、この実践的でレベルの高い講座を通して、さまざまな業界の企業が抱える課題解決につなげたい。データ分析の現場を知っている受講者の方々の上級への足がかりにしてもらえたらと。そして一緒にデータ分析の課題やコンペに向き合うことがDeNAのデータサイエンティストの技量を知っていただくきっかけとなり、ビジネスパートナーとして新たな技術研究・開発への取り組みにつながれば嬉しいですね。
まさにハイレベル。実践ベースのデータサイエンス講座
――では実際の講座は、どのようなプログラムなのでしょう?
坂見:講座はテーマ別に全6回。座学で機械学習を学んだ後、演習ドリルを使ってビジネス実務に近い、データの扱い方をケーススタディ的に、手を動かしながら学んでいただく内容になっています。
原田:私たちが選んだより実践的なオープンデータを使って、テーブルデータを用いた機械学習の基本的なテクニックとノウハウを反復演習することで身につけてもらいます。
――テーマは6つあると伺いました。
坂見:はい。「シンプルなテーブルデータ(入門)」「時系列データ」「多クラス分類とアンサンブル」「特徴量作成(1)」「特徴量作成(2)」「レコメンデーション」の6つです。
原田:前半はKaggle Masterが作成したJupyter Notebookを元にした演習形式でコンペに参加し基本を学んでいただきます。後半は受講生同士で競い合いながらモデル構築にも挑戦してもらいます。坂見さんがつくった演習ドリルが本講座の中核、最も受講生の方々が向かい合うものなりますね。
――坂見さんは新卒初年度ながら、重要なお仕事を任されましたね。
坂見:はい。やりがいもありますし、自分なりの思想と信条を入れて「わかりやすいノートブック」をつくっています。
――その「わかりやすさ」はどのように表現したのでしょう。

坂見:まず「おもしろさ」ですね。技術を会得するためには興味深い、おもしろいと思ってもらうことがベスト。なので演習課題はユーザー目線で楽しく打ち込めるようなものに、また説明のときはなるべく前提知識などがなくてもわかりやすいように意識しました。
――原田さんが、坂見さんをこの講座運営にアサインしたのは、そうしたユーザー目線を形にできるところ、なのでしょうか?
原田:そうですね。期待以上の仕上がりで、頼もしく思います。坂見さんは社内的には「20新卒」と呼ばれるのですが、2019年10月の入社でして。入社早々に新卒採用イベントで学生さんを前に解説をしたり、学生さんの手助けをしながらコンペの面白さを伝えたりという役割を担ってもらったんです。そのときの「丁寧さ」「細やかさ」を見て、「坂見さんなら、わかりやすく、いいノートブックをつくれるだろう」とお願いした。そして、期待を超える出来の良い教材をつくってくれました。
坂見:初めての経験で、説明文の言葉選びや見せ方など、使用シーンをイメージしながら進めていったのですが、原田さんにそんなふうに言ってもらえると素直にうれしいですね(笑)。
――プログラム全体で工夫したところはどんなところですか?
原田:プログラムの設計思想としては、先にいった「引き出しを増やす」ことを最も意識しました。Kaggleと違い、ビジネスの現場でデータ解析と向き合うときは、一直線に解けることはなくて、「AでやってみたがダメながらBでいこう」「Cならどうなるだろう?」といろんな角度から試す必要がある。だから、とにかくデータに対してのアプローチ法を増やすための演習を多く用意しました。
6回の講座ですが、演習データは12個。確実に引き出しを増やせる、テーマの異なるさまざまなデータを選んでいます。
――実際、受講生の方々はそのハードな講座にどのような雰囲気で挑まれているのでしょう。
坂見:それが本当に楽しんでいただいているんですよね。
原田:皆さん熱量がすごいですね。コンペが終わった後も、受講生同士で「僕こうやったんですけど、どう思います?」「僕はこうやりました」なんて感じで、掲示板で議論が毎回、盛り上がっています。
――何かそうやってオープンに、ワイワイと技術を磨きあうのはいかにも「Kagglerっぽい」印象です。
原田:そうですね。こういうKaggleカルチャーにフィットするかどうか、具体的には実践を通して自学自習できるかというのは、データサイエンティストの大事な勘所だと思いますね。実は、うちのチームの「採用基準」の一つでもあります。
――おもしろいですね。他に採用基準として見ることはありますか?
原田:逆に「不採用基準」もあって、それは「自分をよく見せようとする傾向が強い人」はダメなんです。いくら腕が良くても、うちのチームは採用しない。
――その理由は?
原田:データサイエンティストは、嘘をつこうと思えばつけるんです。データ解析をごまかして、アウトプットによって騙そうと思えば騙せる恐ろしい仕事でもあります。
また難しい仕事だから小さなミスはたくさん起こり得ます。こうしたミスを「よく見せよう」と思う人は隠してしまう。また分析結果に「嘘」をついてしまう可能性も高い。
だから、自分をよく見せようとするのではなく、データに、結果に真摯に向かえる人間であることが、良いデータサイエンティストの条件で、我々のチームに入る最低条件でもあります。
――今後講座を通して、また広い意味でそうしたプロフェッショナルなデータサイエンティストが生まれるといいですね。
原田:そうですね。今はハイレベルなところにとどまっていますが、さらに分厚く初級、中級のところまで講座内容を広げていきたいと考えています。
坂見:原田さんが全体視点で視座高くテキストをつくられているので、私は徹底的なユーザー目線で、楽しく課題に取り組めるよう、今後さらに教材の質を良くして価値を高めていきたいと考えています。
新型コロナウィルスの影響ですべてオンラインでの講座になったことも、居住地に関係なく参加できる好機だと思います。興味を持った方はぜひ本講座に積極的に参加していただきたいですね。

※本記事掲載の情報は、公開日時点のものです。
執筆:箱田 高樹 編集:川越 ゆき 撮影:内田 麻美
■こちらの記事も読まれています
プロ野球の実データをAIで分析! なぜDeNAのサマーインターンは現役アナリストも驚く成果を出せるのか?
なぜPFDeNAは研究開発ラボを持つのか。サイエンス発の事業化を目指すヘルスケア事業本部の挑戦