DeNAの「人」と「働き方」の " 今 "を届ける。

”難易度高い課題”歓迎!ビジネスを成功に導く機械学習実践のプロ、Kagglerの実態

2019.07.23

世界中のデータサイエンティストが集まり、機械学習の技量を競いノウハウを共有するウェブサイト型のプラットフォームがあります。その名もKaggle(カグル)。

現在、DeNAのAI本部AIシステム部データサイエンスチームには、このKaggleでハイスコアを獲得しているメンバーが多数在籍しています。

今回は、Kaggleコンペティション(※1)において準優勝を獲得した3名のチームメンバーを集め、Kaggleの魅力やKagglerがDeNAのビジネスにどのような影響を与えているかなどについて、ざっくばらんに語り合ってもらいました。

さらに、彼らのKaggleの知識や経験がDeNAのビジネス推進にどう活かされているのか? ビジネス職がKagglerと仕事をするメリットなども解き明かします!

※1……「Santander Customer Transaction Prediction」2019年2月から2ヶ月間にわたって行われた、スペイン最大の銀行グループであるサンタンデール銀行主催のKaggleコンペティション。
 

たった1週間で史上最多の8,800チーム中、2位へ駆け上がれた理由

——みなさんいつからKaggleに参加されているのですか?

原田 慧
▲株式会社ディー・エヌ・エー AI本部AIシステム部 データサイエンス第一グループ グループマネジャー 原田 慧(はらだ けい)Kaggle Master
数理学博士。前職ではデータ分析コンサルタントとして金融機関向けのデータ分析に従事。2018年、データサイエンスチームの立ち上げメンバーとしてDeNA入社。現在はマネジャーとして多様なプロジェクトに関わる。2019年、準優勝した「Santander Customer Transaction Prediction」では、主に数学的処理に基づく統計的アプローチを担当。

原田:僕が1番長いのかな。Kaggleが2010年にリリースされて間もなくだったと思うので、2011年か2012年頃からだと思います。以前、登壇した際の自作資料ではありますが「Kaggleって何?」という方はこちらのスライド5枚目を参照いただけるとわかりやすいかもしれません。

秋山:僕はアカウントを作ったのが2015年。本格的にKaggleをやり始めたのは2017年ぐらいからですね。

小野寺:自分も秋山さんと同じ2015年からです。

——みなさんが3人でチームを組んで準優勝したコンペティションは、どんなテーマだったのでしょうか?

原田:提供されたデータセットが匿名化されていて、最後の最後まで何のデータなのか定かじゃないというちょっと変わったコンペでした。

小野寺 和樹
▲株式会社ディー・エヌ・エー AI本部AIシステム部 データサイエンス第一グループ 小野寺 和樹(おのでら かずき)Kaggle Grandmaster
銀行系基幹システム開発に従事後、金融コンサルとして金融機関の審査モデル構築に携わる。現在はDeNAで、各種サービスで活用される機械学習に関する開発を行っている。ACM/KDD主催のデータマイニングコンテスト「KDD Cup 2015」、2017年、Kaggle「Instacart Market Basket Analysis」で準優勝。2019年、Kaggle「Santander Customer Transaction Prediction」で準優勝し、Kaggle Grandmasterに昇格。Kaggle世界最高ランク37位。

小野寺:データは連続値になってるんですけど、var_0、var_1、var_2と、特徴量(※2)が匿名化されていて、何を示すデータなのかわからないんです。

※2……予測に使うことができる情報。データセット内の列に相当する。

秋山:一般的なコンペだと「何月何日に何人のお客さんが来訪するか」というように明快なテーマがあり、提供されるデータセットも何を意味するか明らかな場合が多いんです。しかし今回わかっていたのは「顧客がある商品を契約するかどうか予測する」という目的だけ。

やっかいなんですけど、あれはあれで楽しかったですよね。

原田:うん。すごく楽しかったね。

秋山:普通のコンペだと事前にある程度の仮説が立てられますが、今回はそれができなかった。実験を繰り返して得たかすかな特徴と、「少なくともこれだけは言えるだろう」という情報をかき集めて分析したので、謎解きをしているような楽しさがありました。

——どうしてこの3人でチームを組むことになったのですか?

原田:当初は1人でコンペに参加したんですけど「全然うまくいかないんだよね」って秋山さんに話してたら「一緒にやりますか」となりました。

秋山 卓也
▲株式会社ディー・エヌ・エー AI本部AIシステム部 データサイエンス第二グループ 秋山 卓也(あきやま たくや)Kaggle Master
前職の通信キャリアでは、広告配信の最適化や新規事業領域の調査などに従事する。2018年8月にDeNA入社。2018年にSIGNATEの「イベントレコメンドエンジン作成コンペティション」で優勝。2019年のKaggleの「Santander Customer Transaction Prediction」ではディープラーニングによる予測モデル構築を担当し準優勝を果たした。次世代サービス「DRIVE CHART」の危険運転検出ロジックの開発リーダー。現在、育児休業中。

秋山:僕も自分で試してみる中で「何らかの数学的な処理をしたらうまくいくんじゃないか」という仮説があったので、原田さんを誘いました。データサイエンスチームの中では「数学と言えば原田さん」という共通認識がありましたし。

小野寺:僕は僕で、コンペに参加していたDeNAの新卒チームが、すでにトップ10位前後につけていたので、ぜひ「彼らと一緒にやりたいな」と思ったんですけど、キッパリ断られました(笑)。

「小野寺さんて、いま3,000位ぐらいですよね?それでしたら今回はちょっと」って。

一同(笑)

Kaggler
▲Kaggleコンペでトップ10位前後に入っていた社内の新卒チームに、同じチームになることを断られてしまったKagglerたち

秋山:それで余った僕らでチーム組んだわけです(笑)。

原田:我々がチームを組んだときはコンペはすでに終盤。3人での活動期間は実質1週間程度でしたね。

——結成から1週間。どうして短期間で3,000位くらいから2位まで順位を上げられたんですか?

秋山:3人の持っている得意分野や情報が被っていなかったのが良かったと思うんですよ。

小野寺:確かに相性は良かったと思うね。

僕はこの2人と組む前からローカル環境でいろいろ実験していて、ある程度精度を上げる方法を見つけていたのですが、いざKaggleに投稿すると数値が落ちてしまう状況で、どうしようかな、と思っていた時でした。

原田:私は私で、コンペ参加者同士の議論を追っていたので、モデルの精度をあげる方法について最新情報は押さえていました。その有益な情報と小野寺さんの実験結果を組み合わせてみたら、一気に3,200位くらいから90位まで上がったんですよ。

小野寺:うんうん。

小野寺 和樹

原田:その後も議論してはそれぞれのアイデアを試したり、秋山さんにディープラーニングでモデルを構築してもらったりしていたら、ポンポンと順位が上がって、最終的には準優勝できました。

——短期間で準優勝まで辿り着けた要因はどこにあると思いますか?

秋山:対面でとことん話した後にそれぞれが家に持ち帰り、また集まって議論して、また持ち帰る、みたいなやり取りが結構うまく機能したからではないかと思いますが、どうですか?

原田:それは社内にKagglerがいて、業務時間がKaggleに使えたからこそのメリットだよね。ホワイトボードに数式を書いて説明することもできたし、そもそもお互い遠慮せずに話せたし。

小野寺:遠慮がなさ過ぎて、自分は2人に任せてゲームに熱中していたこともありました。むしろ遊んでた方がいいアイデアが浮かぶんですよ。

Kaggler
▲取材中も笑いが絶えないKagglerたち。

原田:そうなんですよね。私も風呂に入ってぼんやりしていた時にいいアイデアが浮んだ気がします。今回はとくに謎解きゲームみたいなコンペだったから、根を詰めて作業するよりも発想力やアイデアの質が問われました。

リラックスして取り組んだことも、少しは準優勝の後押しになったかもしれません。

Kaggleへの取り組みは業務にも活きる

——Kaggleの知識を活かして、ふだんはどんな仕事を担当されているのでしょうか?

原田 慧

原田:僕は主にマネジャーとして、個性豊かなKagglerたちのお世話をしながら、大小さまざまなプロジェクトに関わっています。事業部からのオーダーを取りまとめて、短期的な取り組み範囲を決める前捌きや、メンバーの個性やスキルを踏まえてアサインをしたり。

最近ですと、Kagglerたちは主に次世代タクシー配車アプリの『MOV(モブ)』、商用車向け事故削減支援サービス‎の『DRIVE CHART(ドライブチャート)』に関わっています。関西電力様と取り組んだ、石炭火力発電所の燃料運用最適化ソリューションでは、私自身が開発チームのマネジメントを担当しました。

秋山:僕は実はいま育児休業中なんですが、育休に入る直前まで、いま名前があがった『DRIVE CHART』のプロジェクトで、危険運転検出ロジックを開発するチームのリーダーをやっていました。

小野寺:僕は専任で関わっているプロジェクトはありません。2人と違って飽きっぽいので。

原田:小野寺さんの場合は、難易度が高いプロジェクトの立ち上げや、突発的に発生した難しい課題への対処などに対応する「遊軍」のような役割を担ってもらっています。

最近だと関西電力様とのプロジェクトの立ち上げやAI創薬のプロジェクトのモデル構築で力を発揮してもらいましたよね。

小野寺:大体3ヶ月関わったら次、という感じですね。

原田:彼はさすがKaggleのGrandmasterだけあって、他の人に頼んだら2週間かかる仕事を、3日もあれば終わらせられる力があります。たいていの知見は頭に入っているのでとにかく作業が速いんです。だからプロジェクトを限定しない形で仕事に関わってもらっています。

——KaggleとKaggle以外の仕事の切り分けはどうしていますか?

秋山:僕は業務時間中にKaggleをやる時は集中して取り組みたいので、他の業務とは日を分けてやりますね。ただプロジェクトも終盤になってくると、さすがにそうも言ってられなくなってくるので、その期間はKaggleは休んで仕事に集中します。

原田:小野寺さんの場合は、息をするようにKaggleしているから「切り分け」と言われてもピンとこないかもね。

小野寺:規定通り業務時間の30%ぐらいを使っている感じではありますけど、正直言うと、あまり意識はしていませんね。

秋山:僕の印象だと、やらなきゃいけないタスクがある時は一気に片付けて、空いた時間をKaggleに費やすみたいなイメージがありますけど、どうですか?

小野寺:確かに一気に仕事を片付けてKaggleに取り組むっていうのは、言われてみればそうかもしれない。

原田:ここにいる3人は、Kaggle社内ランク制度上では全員ランクA。でも小野寺さんは、今回の受賞で2回目のトップ3入賞、ランクSどころかランクSSも夢じゃないところにいます。着実に実績を積み上げているよね。

Kaggle社内ランク制度。
▲Kaggle社内ランク制度。AIシステム部のデータサイエンスチームのメンバーに対して業務時間を使ったKaggleへの参加を認める制度で、どの程度業務時間をKaggle参加に利用して良いかはKaggleでの成績を元に決定されている。(https://dena.ai/kaggle/ より)2019年7月現在、正確な数値は不明だが国内には10名前後しかいないとされる「Grandmaster」のうちの1人が小野寺、また国内に100名以下とされる「Master」のうち10人ほどがDeNAに在籍している。

秋山:もしランクSSになったらすごいですよね。

小野寺:うん。なれたらね。

原田:ランクSSは年間を通じてKaggleだけやっていればいいっていう、DeNA史上類を見ない特殊なポジションですから。「誰も達成できないだろう」って思いながら作ったラインです。もし、そうなったらお祭りですよ。ホント。

——どんな時にKaggleに取り組んでよかったと思いますか?

原田:Kaggleは、世界中のデータサイエンティストが注目しています。小野寺さんのようにGrandmasterにでもなれば、この世界で一目置かれる存在になるのは間違いありません。仕事のチャンスも増えると思います。

他にも、ひとつの会社にいながらいろいろな業界の事例に触れられることもメリットだと思います。

秋山:いろいろな種類のコンペがありますからね。

原田:「ただ競って終わり」ではなく、コンペ終了後、上位入賞者の手法から最先端の技術も学べるのもKaggleならでは。学習効果が高いのもKaggleの魅力だと思います。

秋山:僕の場合、「与えられたデータから意味を見出し、プログラムを書いて、人よりもいい精度を出すモデルを作るプロセス」自体に面白さを感じるので、Kaggleに参加することそのものがメリットになっている気がしているんですよ。

原田:私もデータを見ているだけでワクワクしてくるからわかります。

小野寺:自分は場数を踏めば踏むほど、どんな手法が有効なのか仮説がすぐ立てられるようになるという効果を感じますね。

小野寺 和樹

原田:作業が手早い小野寺さんは、特にそうかもね。

小野寺:Kaggleで鍛えられると、知っている100通りの手法からすぐに最も有効な3つくらいの候補に絞り込めるようになります。探索ルートが確立されて回り道もしなくなるから、とても作業効率があがるんです。迅速に通常業務をこなせるようになるというのも、Kaggleをやるメリットだと思いますね。
 

世界最高クラスの機械学習実践のプロとビジネスを推進できる

——Kagglerってどんな人たちだと思いますか?

原田:下手すると通常業務よりKaggleの方が大変な局面があります。「ここまで到達したらOK」とゴールを設定してくれる人はいません。競争相手が世界中にいて、その中で優勝するということしかゴールがない、勝負の世界です。「まあ、こんなものでいいか」というレベルでは通用しません。半端な実力だと何の結果も学びも残らない、なんてことも普通にあります。でもそれを辛いと思わないのがKagglerです。

秋山:わかる(笑)。

秋山 卓也

原田:あと、データサイエンティストの中には「本で読んだこの手法に興味があるので、この課題に適用してみたい」と”手法ありき”で分析をする人もいます。でも、それが本質的にその課題解決への最適なアプローチとは限らないですよね。

Kagglerは、個人的な興味や関心より、課題に対して有効な手法を選ぶ人たちなので、仕事を任せる時も安心感がある。とてもプロ意識が高い人たちだと思いますね。

秋山:Kagglerは「ヤバいデータ分析」をしませんからね。

データサイエンティストなら、見せかけの予測精度を上げることぐらいは簡単にできてしまいます。仮にそこに悪意はなかったとしても、無意識のうちにタブーを冒せば同じこと。ヤバい結果を導いてしまうこともできる。

原田:確かに。数値をよく見せるだけならいくらでもできるし、それを見破れる人も限られているからね。

秋山:でも、もしKaggleでそれをやってしまうと、コンペで絶対上位には上がれませんし、最終的に負けるのは目に見えている。正しいデータ分析方法が身に染みているから、安心して仕事を任せることができるんじゃないかと思いますね。

原田:仕事の任せやすさで言うと、Kaggler同士だからこそのコミュニケーションのしやすさってあるよね。

小野寺:Kaggle同士なら、手書きの走り書きや図を見せるだけで何を伝えたいのか汲み取ってもらえたりします。そういう意味ではコミュニケーションに費やすエネルギーが少ないというのは感じますね。

原田:「この前のあのコンペと似たような感じでお願いしたいんだけど」と言えば大抵通じるから、細かく指示する必要がない。これもKaggler同士ならではのメリットでしょうね。

原田:DeNAのAIシステム部データサイエンスチームの大多数はKaggle Masterです。データに関する悩み事を相談すれば、世界最高水準の解決手法や事例を知っているデータサイエンティストが対応してくれる。実現したいビジネスがある人には、頼りがいがあるチームだと思いますね。

秋山:実際、最新情報を幅広くキャッチアップしてる人は多いので、実装して試すことが比較的容易にできます。ビジネスアイデアを持っている人にとってはいい環境でしょうね。

原田:結局我々は「こんな分析をお願いしたい」と言われれば「よし、わかった」と、腕まくりをして頑張りますが「そもそも何がしたい?」って問われたら「データ分析をしていたい」って答える人たち。

Kagglerは、事業立案する人がいてこそ活きる、機械学習実践のプロなんですね。だから面白いテーマを投げかけてくれる人はいつでも大歓迎なんです。

秋山:そういう方が事業部なり、プロダクト側にいると仕事の励みになりますからね。

原田:そうだね。

小野寺:僕は誰がやっても差が出ないような分析ではなく、「自分が関わったからこそ、実社会に活きる何かを生み出せた」と言えるような分析がしたい。なので、そういう難易度が高い課題に取り組めたらいいなと思います。

原田:DeNAはデータサイエンティストに限らず、さまざまな領域の専門家を大切にする会社です。データサイエンスチームが必要としているのは「データサイエンティストを使いこなしてやろう」という意欲がある人! そういう人たちと一緒に仕事ができたら最高ですね。

Kagglerたち
※本記事掲載の情報は、公開日時点のものです。

執筆:武田 敏則 編集:榮田 佳織・栗原 ひろみ  撮影:杉本 晴

open menu