DeNAの「人」と「働き方」の " 今 "を届ける。

【ノーカット掲載】3年に及ぶクラウド移行。「創造的な仕事へのフォーカス」がついに始まる

2021.05.20

大小合わせて300ほどのさまざまな特性をもつサービスが運用されていたDeNAのオンプレミス。2021年4月、DeNAはこのオンプレミスからクラウドへの全移行を完了しました。

2018年からはじまったクラウド移行はどのように成し遂げられたのか。また、クラウドへ100%移行した結果「創造的な仕事へのフォーカス」はどうなったのか。

2021年5月11日に行われ、各所で反響のあった『AWS Summit Online』(※)におけるDeNA代表取締役会長 南場 智子(なんば ともこ)の講演をノーカットでお届けします。

※……本講演の動画は、YouTube「Amazon Web Services Japan 公式」チャンネルにて公開されています。『基調講演:テクノロジーが変えるこれからの日本社会』

オンプレミスからクラウドへの移行完了

DeNAはこの4月末にオンプレミスからクラウドへの移行を100%完了しました。大変規模の大きなプロジェクトで、サービスの数は大小合わせて300ほどありました。しかもリアルタイム性が重要なエンターテインメント系のサービスからセキュリティが命のヘルスケアサービスまで。本当にいろいろな特性を持つサービスの、大規模かつ複雑な移行でした。

DeNAのサービス全体のトータルリクエスト数は、1日50億リクエストくらい、中には毎秒数十万のリクエストがあるサービスもあります。データ量は膨大でペタバイト級、サーバーの台数にすると約3,000台。これは実はちょっと過小評価だと思うのですが、我が社のインフラのすごい技術でカリッカリッにチューニングした結果の3,000台で、通常はだいたい1万のオーダー。万を優に超える規模感です。

つまりかなりの「マッシブな移行」を成功させたのです。この意思決定をしたのは2018年6月、ちょうど3年前になります。その時に遡って少しお話したいと思います。

決め手は「人材をどこにフォーカスすべきか」

QCD(クオリティ、コスト、デリバリー)で考えますと、クオリティはオンプレでインフラ起因の障害は0%を達成していましたが、「オンプレでできることがクラウドでできないはずはない」ということでほぼ同等。デリバリーはもちろんクラウドに分があるわけです。

ただ、コストに関しては、我が社の技術陣が高い技術力で工夫をして削減に努めていました。そういう意味ではコストに関してはオンプレが優位というのが一般の見方でした。しかし、オンプレにつぎ込んでいた技術力と工夫をクラウドにとことんつぎ込んで使い倒せば、同じぐらいのレベルになるのではないかという仮説がありました。

その時に決め手となったのが「人材」です。優秀なエンジニアをもっと創造的な仕事にフォーカスさせたい、というCTOの言葉。特にインフラのエンジニアはサーバーを購入する際、相見積もりを取って契約をして、ラッキングをして配線をして、修理部品をオーダーして……と、かなり物理的に煩雑な仕事に時間とエネルギーを取られていたんですね。創造的な仕事にフォーカスさせたいという話は、私の気持ちをグッと掴み、クラウドシフトへと傾かせました。

ただ2つ大きなイシューがありました。

「クラウドでもオンプレミスと同程度のコストにできる」という仮説の立証

1つは、コストです。オンプレとほぼ同等にまで下げられるだろうということが全然証明されていなかったんですね。オンプレの機器の買い換え、そしてメンテ費用をすべてひっくるめても、AWSのコストの半分ぐらいという状況なんです。ただそれを技術と工夫で使い倒すことによって、AWSのコストも半分まで下げられるだろうと。ただこれは仮説に過ぎない。マッシブなマイグレーションをやってみて、それでできませんでしたとなると大変なんですよね。

それで既にクラウドで動いていたサービスを用いて、実際にできるのかどうかを証明してみようと。証明できたら全部の移行に入るというプロセスを踏みました。そして、今日はそのうちの一部をお話しますが、徹底的にさまざまなことを試した結果、いろんなことが奏功したのです。

まず、ステートレスサーバーとしてスポットインスタンスを徹底的に活用するということです。このステートレスとステートフルを分けてスポットインスタンスを使うというのは他の会社でもやっているかもしれませんが、当社の場合はエグいほどそれを徹底しました。もちろんオンデマンド注文が入ると2分前の告知で落ちてしまうわけで、だからこそ安いのですが「2分あれば対応できるよ」という我々の技術陣、エンジニアのオンプレ時代から培ってきた高い技術力、対応力と相まってそれが実現できたということです。

それからスケーリングですね。もちろんオートスケーリングも使いましたが、加えてDeNA独自のスケーリングを併せました。サービス単位で何時がピークとかそういうことに加えて、各サービスいろんな施策を打つわけなんですね。たとえばゲームの施策やイベント。ゲームのイベントを開始する時は相当なトラフィックが集中します。そしてイベントにおいてもゲームの中にいくつもヤマ場をつくっていくわけです。かつイベントの終盤では、ものすごい駆け込みのトラフィックが集中するわけです。

そういったことをきめ細かく把握して、なるべく正確に予測をして、絶対にピークは落とさない。落とさないけれどもきめ細かくスケーリングするということで相当なコスト削減を実現しました。

そして最後にシャーディング。シャーディングではもちろんデータを分割して対応するわけですけれども、サービスをローンチした時にはユーザーが殺到します。サービスの種類にもよりますけれど、多くのサービスにおいて最初に入ったユーザーがすべてずっとアクティブで居続けることはなく、一部のユーザーはアクティブでなくなります。

そのため、少し時間が経過して落ち着いたときに分割したデータを統合していくということを行いました。サービスを全く止めずにデータを統合するというのは極めて高い技術力を要することで、サービスをローンチしてから3ヶ月後に落ち着いた時、半年後、1年後という単位でかなりきめ細かく調整をし、台数にして75%も削減できたということです。

主だったものだけを紹介しましたけれども、こうしてAWSコストの50%削減を達成いたしました。これでいよいよ全面移行となるわけです。

3ヶ年計画でもダイナミックな人材活用を止めない

もう1つのイシューとして、移行期間が3年かかるということがありました。さすがにこれ長いよねと。私たちインターネット業界は3ヶ月先には何が起きるかわからない動きの速い業界なんですね。3年も同じプロジェクトにコミットというのは、やはり長いです。

こういったときに重要なのは、経営者として、現場で汗をかくメンバーに対してしっかりコミットする覚悟を示すことではないかと思います。DeNAの場合は1つだけ条件があって、「ダイナミックな人材の活用を維持する」。これを阻害しないということなんです。どういうことかというと、DeNAはさまざまなサービスを提供していて、これらのサービスで培った技術やスキルを別のサービスで活かしたり新しいサービスに活かすということでシナジーを活かしていく。それが競争力の源泉なんです。

加えて、DeNAに入ってくるエンジニアは、いろんなサービスの経験ができることを楽しみに入ってくる。エンジニアのモチベーションと我が社の競争力のこの2つのポイントから、絶対にダイナミックなエンジニアの活用をやり続ける、どんなに長く大きなプロジェクトが動いていても人材を流動させる。人の移動は行うということが重要なんです。

具体的にどのように対応したかというと、徹底した事前準備。よく「段取りが8割」と言いますが、その通りです。徹底した標準化です。どのようなことを標準化したかと言いますと、コスト管理については、先行した実証から出てきたさまざまなノウハウをしっかりとマニュアル化する、社内の管理会計にどう結び付けていくのかをしっかりルール化する。アカウントも1,000ぐらい立ち上がっているのですが、これを分けるべきかどうか、名前の付け方をどうするかもあらかじめ決めておく。

権限管理もです。インフラエンジニアはすべて触れて見れるとか、アプリ開発者はどうなのかとか。ビジネス系の人は数字やコストは見れるけど触ることはできないとか、監査の人はすべて見ることができるけれども何も触ることができないとか。すなわち手を動かし始めてから迷わなくてもいいように、あらかじめ全部洗い出して、細かく決めておく。こちらは実際の線表で、3年間のプロジェクト中の黄色で書かれている部分、これが標準化に要した時間です。

プロジェクトのほぼ半分がこの標準化、段取りを決めることに費やされているのです。これはすべて、手を動かし始めてから迷わないようにするため。そして実際の移行は2020年、去年1年間でダダダッとやっているんですけれども、1つのサービスにつきだいたい3ヶ月を超えていません。ですからエンジニア人材が張り付くのが3ヶ月でよいので、ダイナミックな人材の活用をしながらこれが実現できたということです。

そして見事に、3年でマイグレーション完成しました。今日我が社のエンジニアも見てくれていると思うけれども、プロフェッショナルな仕事をしてくれてありがとうございます。本当に、ありがとう!

3ヶ年移行計画の評価は?

3年計画が完了してどう評価しているかなんですけれども、まずクオリティについては100点ですね、想定通りです。そしてデリバリーについては100点を超えて120点、頭ではわかっていたけれど、ここまでラクになるのかと。コストについてはまだ100点が付けられない状態です。これは一部、本当に一部ですが、匠がつくりこんだレガシーシステムがありまして、その解きほぐし、移管に少し時間がかかりましたし、コストが50%まで下がっていない。それから3年の移行期間の間に新しいサービスがポコポコ立ち上がって、そこの調整が少し残っているということで80点です。

ただ これは不断の努力であります。ワンショットのプロジェクトではなく、ずっとこれをやり続けていくんだという覚悟でやっていこうということですね。

そして私が一番重視した人材の部分、創造的な仕事にフォーカスするというところはどうでしょうか。インフラのエンジニアもデータセンターに駆け付けるという仕事から解放され、最先端の技術を用いてどうやってもっと効率的でよき経営に資するような運営ができるかという、本当に挑戦的な技術を用いて仕事ができています。アプリの開発者はポチッとするだけでインスタンスが使えるわけですから、インフラエンジニアとの折衝やネットワークをどうするんだということを心配せず、DAY1から開発できるということも感動ですね。さっきの120点というのはここです。

それから入社したエンジニアが初日から活躍できるということも素晴らしいことです。以前の状態ですと、我々のオンプレのすごい技術が詰まった独自の技術ですよね。ここにはものすごい高いレベルの秘伝のタレがあるんです。それを全部習得するのにどんな腕利きの中途採用のエンジニアでも半年はかかっていたんですよ、それは結構長いですよね。でも今はDAY1から輝くことができるということでこれも大変に素晴らしいことです。

そしてパブリッククラウドを求めてDeNAを受けてくれるエンジニアも増えています。DeNAのエンジニアは、クラウドを使いこなしているだけではなくて高い技術力で使い倒していますので、市場価値が上がっている。大変に喜ばしいことなんですね。

「ここでしか活躍できない」ではなく「ここに居たいから居る」

人材の面ではプラスばかり、ただ新たな課題も生んでいます。それは、そういうエンジニアなのでヘッドハンターが殺到するんですよね。これ大変です。エンジニアを束ねている統括部長はサウナで泣くということがあるらしいですよ。本当に大変だよね。

ただ2人でも話しているしみんなでも話しているのだけど、やっぱり他で使えない技術を習得してここでしか活躍できないからここに居るんじゃなくて、どこに行っても通用するけれども「ここに居たいから居る」ということをつくることが重要なんじゃないかと。

優秀なエンジニアが「ここに居たいから居る」ためにはやはりチャレンジングでおもしろい開発ができるとか、よい組織風土があるとか、そういった環境をつくっていく。これはですね、エンジニアを取りまとめるマネジメントも私たち経営陣も本来するべき業務なんですよね。クラウド活用というのは、エンジニアが本質的で創造的な仕事にフォーカスできるだけではなくて、マネジメントも本質的な仕事に向き合うことができる大変に素晴らしいことじゃないのかなと思っています。

ですから、この移行に関しては1点の曇りもなく大正解だったと思います。提案してくれたみんな、本当にありがとう。

AWS is not static, but dynamic.

そして最後に1つだけ加えたいのですけども、AWSはスタティックではなくダイナミックであるということです。

たとえば我々の急成長中の『Pococha(ポコチャ )』(以下、『Pococha』)というライブストリーミングのサービスですけれども、これはライバー(ライブ配信者)とリスナー(視聴者)がインタラクティブにライブ配信を盛り上げる動画配信サービスですから、かなりの負荷が発生します。インタラクティブ体験には低遅延が命なんですね。ですから、『Amazon IVS』(以下、IVS)(※)の開発チームがIVSをローンチする前に、DeNAのエンジニアがアメリカに行って、いろんな要望を出して、とことんディスカッションしてつくっていただきました。

※……Amazon Interactive Video Service。 Amazonが提供するマネージド型のライブストリーミングソリューション。

今『Pococha』はIVSによって支えられているのですが、皆さんにお伝えしたいのは、皆さんのお持ちのニーズでタリフ上にあるAWSの製品で充足されないところがあったら、それはおそらくみなさんのニーズが最先端なのだと思います。それをAWSに是非ぶつけてみてください。それに応えて前向きに対応してくださる、そういう懐の深さがAWSにはあります。

みんなでいろんな要望を上げて、みんなでよくしていく。そんな連携ができたら素晴らしいなと思います。以上、ご清聴ありがとうございました。

■高品質・低コストの世界最高レベルのオンプレを捨て、クラウド全面移行を決めた背景、移行プロジェクトの中身、インフラコスト削減達成までの道のりなど、クラウド化の全貌はこちらで紹介しています。
オンプレミスに強みをもつDeNAはなぜクラウド化を決めたのか?その舞台裏と今後の展望
【クラウドコスト工夫編】DeNAインフラノウハウの発信プロジェクト連載まとめ

■DeNAのエンジニアが「創造的な仕事にフォーカス」した上での、技術的なさまざまな学びは、公式Twitterアカウント(@DeNAxTech)にて確認いただけます。ぜひフォローをお願いします!

※本記事掲載の情報は、公開日時点のものです。

写真提供:AWS 編集:川越 ゆき

open menu