DeNAは、AIを活用した「音声変換AI」のトライアルを試験利用することができる『VOICE AVATAR 七声ニーナ』を、2021年5月12日に公開しました。
『VOICE AVATAR 七声ニーナ』は、ユーザーの皆さんの音声から音の情報を抽出し、それをもとにキャラクターの音声を生成します。事前に音声を収録をしたり、文字起こしをしたりする必要なしに、自然なキャラクターの声に変換することができるという新技術です。
この『VOICE AVATAR 七声ニーナ』の開発に向け、プロデューサーとして事業を牽引した、ゲームエンターテインメント戦略室 岩朝 暁彦(いわさ あきひこ)に話を聞きました。
目次 [隠す]
「DeNA発の新しいIPを作りたい」。それが発端
ーー2021年5月12日、『VOICE AVATAR 七声ニーナ』が一般に公開されました。まずこの企画の発端と目的を教えてください。
DeNAでは、1年ほど前から、全社横断的な取り組みや社員から新しい企画を募集する「Delight Board(デライトボード)」という取り組みをしています。その企画のひとつに、DeNA発の新しいIP(Intellectual Property)をつくりたいというものがありました。
そのプロジェクトメンバー2名がAIの研究開発者とエンジニアで、特に音声技術の研究開発に携わっていました。彼らから「ぜひ音声技術やAIを活かしたIPをつくりたいが、どうすればいいだろうか?」という相談を持ちかけられたのが最初のきっかけです。
ーーなぜ岩朝さんに相談があったのでしょうか?
僕は以前『ハッカドール』というIPのプロデュースをしていたので、その時の経験談を聞きたかったのかもしれません。話を聞いてみたところ、経験談だけ聞かせて放置するのはあまりに無責任と思い、また彼らが「プロデュース経験がなく不安」とのことで、自分がプロデューサーとして参加しました。
チームに入った後、「IPxAI」の切り口でいろんな企画案を出し合い、実現性や価値などで絞り込んでいた結果、音声に関するAIの研究開発のショーケースとなるような、また先端技術のマスコットキャラクターとなるような、そういったIPがいいのではないかということで、『VOICE AVATAR 七声ニーナ』が生まれました。
『VOICE AVATAR 七声ニーナ』とは何?
ーー『VOICE AVATAR 七声ニーナ』について、詳しく教えてください。
キャラクターとしての『七声ニーナ』には、IPとして4つの意図を込めました。
① シンプルなデザイン性で、背景設定は最小限、余白が大きいキャラクターにしよう
例えば『初音ミク』や『くまもん』がよい先行事例です。
② DeNA、そしてAIやテクノロジーの宣伝大使にしよう
その際は、R&D(研究開発)ならではのキャラクター性として、開発途中の未完成さが反映された、「未完成だけど頑張り屋さん」なキャラクターにしよう、と考えました。
③ 2020年代のデジタルシーンで、ユーザーが使えるツール、素材としての利便性をもたせよう
『初音ミク』もそうですが、『東方Project』なども二次創作の題材として非常に幅広いキャラクターと物語設定がある、よい素材です。
④ 個人の二次創作や、企業の商用利用に対してオープンにしよう
『ハッカドール』でもやりましたし、『いらすとや』みたいな拡がりの土台には、オープンな取り扱いポリシーが不可欠と考えました。
これら4点を考慮して、イラストレーターと一緒にキャラクターデザインを進め、今まで自分のプロダクトや作品のロゴをお願いしていたメンバーにロゴデザインもお願いしました。
ーーなるほど。いろんな人にいじってもらいやすいキャラを目指していたんですね。では『VOICE AVATAR』とは何でしょう?
『VOICE AVATAR』は、自分の声で話しかけて音声を入力すると、その音声が『七声ニーナ』の声に変換される、という技術です。
そのため、『七声ニーナ』役の声優の高田憂希さんにご協力いただき、AIの素材となる学習用音声データを収録するとともに、そのデータも活用しつつ、音声変換技術の開発とブラッシュアップをし続けました。その結果、「Webで10秒間の音声を録音したら、すぐに『七声ニーナ』の声に変換されて聞くことができる」という、AI音声変換技術のショーケースサイトができたのです。
ディレクター、制作進行、フロントエンジニア、デザイナー、QAなど、ほぼ全員が兼務での参加ですが、できあがるころには立派な体制ができあがっていました。
ーー兼務での参加ということは、本業は別?
そうですね。基本的に全員そうなります。プロデューサーの自分も普段はゲーム事業部全体の戦略や事業計画に関する仕事をしていますし、ディレクターもゲームタイトルのWebサイトのディレクションと掛け持ち、フロントエンジニアも同様です。今回はサーバーについては、AIの研究開発を担当しているエンジニアが受け持ちました。他にもスポットで助っ人的に入ってくださった方はもちろん、みなさん他の業務と並行で対応してくれました。
こういう「掛け持ち」が、自分や上長との日々の相談から比較的柔軟にできること、また本人の意思などを柔軟に捉えられるクロスジョブ(※)の制度がDeNAにはあります。それを今回のプロジェクトではフル活用しました。いろいろな仕事に携わることで、学ぶ機会や自分自身を試す機会を多層的に持てる環境があります。
※他部署の業務を兼任できるいわば社内副業的な制度。
誰でも使える『VOICE AVATAR 七声ニーナ』
ーー『VOICE AVATAR 七声ニーナ』トライアルへの参加の仕方を教えてください。
『VOICE AVATAR 七声ニーナ』のサイトには、どなたでも、こちらのサイト(https://nanakoe-nina.dena.ai/)からアクセスできます。
『VOICE AVATAR 七声ニーナ』の使い方
1自分の声をニーナに向かって話す。
2ニーナが声を聞いてくれる。
3ニーナの声に変換されて再生される。
このサイトにはいくつか隠し機能が入っています。『ハッカドール』の時にも、ソースにメッセージを埋め込むという古きよきイースターエッグを組み込みました。今回も組み込んであります。ぜひ探してみてください。今回は少し手が込んでいますよ。
自分の存在が苦労の元凶??
ーー『VOICE AVATAR 七声ニーナ』企画に関して、特に苦労された点を教えてください。
プロダクトや作品をつくるときはいつもそうなのですが、チームでプロダクトの方向性について喧々諤々の議論もしましたし、何度か振り返りセッションもしました。
チームとしての苦労は大きく3つあります。
ひとつは、AIというコントロールがしにくい技術で、なおかつ研究開発と並行しながらプロダクト開発をしたことです。
「要求品質水準は達成されるか?」「パフォーマンスは?」「ブラウザ等ユーザー環境制約は?」「運用コストは?」……プロダクト開発上のこれらの重要論点について、AI(かつR&D中の技術)は事前の検証やゴール設定が難しく、ある意味で担当メンバーの感覚や言葉を信じるしかない場面ばかりです。
そしてその感覚や言葉が外れ、前提がくつがえってしまったピンチの中で、改めて“工夫”をしてプロダクトとしての最終的な姿を描くことが多かったように思います。幸いベテラン陣が多く、お互いのこれまでの経験から、さまざまな打ち手や見せ方を持ち寄って“工夫”を駆使して、一つひとの課題に対処していきました。
ーー二つめは?
二つめは、音声という客観的・定量的指標に乏しいデータを使うことです。
『VOICE AVATAR 七声ニーナ』では、10秒間で音声を入力し、ニーナの声に変換して出力します。
「ではその変換音声の品質をどう計るか?」
ノイズ有無、イントネーションの再現度、音韻の明瞭さなど、どうしても指標化しにくい要素が、そのユーザーの知覚する品質を大きく左右します。
技術的制約や過去の品質を土台にしているR&Dチームは「(現状で)十分な(改善)品質が出ています」と言いますし、市場の類似プロダクトやさまざまなリテラシーのユーザーのリアクションを念頭に置いている開発チームは「(想定していた)品質は出ていない」と言います。
「何言ってるかわからない音声だ」「もっとゆっくり明瞭にしゃべってください」「何かなまってる」「あなたの活舌が悪いからですね」など、なかなか譲り合いません。お互いフラストレーションをためながらも、あの手この手でフィードバックを伝え、解決策を確認していきました。
ーーなるほど。品質的な目標をどの地点に置くか、その見極めが難しかったということですね。
はい。そして最後の苦労が、これはまぁ、言いにくいことでありますが……僕です。プロデューサー(僕)の存在が苦労の元凶ですね。
ーーそれはどういうことでしょうか?
いいプロダクトをつくれるかどうか、そのプロダクトがヒットするかどうか、その過程には、いいメンバーや、十分な予算と時間、そんな変数の中でベストを尽くす、その「ベスト」を定義するのがプロデューサーの責任です。
長年プロデューサーをやっていますが、とことん追い込み、チームはもちろん自分自身も捧げてまでベストを追求するタイプもいれば、仕事は仕事としてどこかで線引きするタイプもいます。僕は、どうにも不器用でして、どうしても前者になってしまうんですね。
こうなるとチームメンバー、特に若手はつらい。DeNAの中でも超ベテランのプロデューサーが「ここまでやる!」と若手がイメージできるはるか上にベストを決めてしまうので、ストレッチしなければならない度合いは非常に大きいです。そこはメンバーに大きな苦労を掛けたと思います。一方でディレクターは、そんな僕の「タイプ」を把握して、可能な限りベテランを配してくれたりもしました。
今回は、プロダクトの意義への共感も高く、踏ん張ってくれたメンバーが多かったと思います。この場を借りて改めて感謝します。
0⇒1になるかならないか、その瞬間がたまらない
ーー苦労ばかりだったんでしょうか?
もちろん楽しいこともありました。たとえば、キャラクターデザインは大変な試行錯誤ですが、改稿を重ねる中で、キャラの特徴が色や形としてハマってくる過程は嬉しいです。
また、デザインは、ユーザビリティと審美性のバランスの中での問題解決プロセスです。腕のよいデザイナーの出すアウトプットは筋の良い推理小説の解決編を読むかのようなカタルシスがあります。
ーー確かに。
スケジュールがそろっていて、タスク消化によってプロジェクトがどんどん前進している状態が確認できるのは、頼もしい瞬間です。もちろん遅れている時や想定外のタスクが増えた時も、それはそれで必要な回り道として、計画見直しは楽しい瞬間になります。
プロダクトを皆でレビューし、「ここがよい」「ここを直そう」と話し合う時、0⇒1になるかならないか、その瞬間が生まれるか生まれないか、非常にドキドキしますね。
ーープロデューサー冥利に尽きますね。
今回は社内テストに約3週間をかけました。フィードバックでの感想を見るのが、心から好きですね。苦言・諫言・感想・感謝・期待……プロダクトを触ったことで生まれた感情が垣間見れる瞬間です。
余談ですが、自分だけでプロダクトをテストするのは、非常に苦しいです。頭の中の理想が常時「ホントにこれでいいの?」と揺さぶってくる中、バグを見つけたり、ユースケースやシナリオが想定と違うと、どょ~んと暗くなります。
長く愛されるキャラになってほしい
ーー『VOICE AVATAR 七声ニーナ』に関して、今後どのように発展させていきたいとお考えでしょうか。
『VOICE AVATAR 七声ニーナ』については、これからも継続的に音声変換品質の向上に向けて、内部のAIのアップデートを続けていきます。そのためには、多くの方にご利用いただき、そのフィードバックを生かして、改善に真摯に向かっていくことが欠かせません。
そういう意味では、AIやR&Dに携わるエンジニアに、『VOICE AVATAR 七声ニーナ』を接点として、「プロダクトバリューとは?」「ユーザーの知覚する品質とは?」「プロダクトがDelightを生み出せる水準になっているか?」を感じてもらえるよう、発信と啓蒙をしていくことに時間と労力を使っていきたいと思います。
同時に、『VOICE AVATAR』という技術を製品化していくことも大切なことです。
DeNAとしてのプロダクト開発も考えるとともに、外部パートナーと、広く、大きく展望を描くことにも、努力していきたいと思っています。
ーー『七声ニーナ』がどんなキャラクターに育つのか、楽しみですね。
はい。そのために、『七声ニーナ』が活きる場や機会をつくっていくことも忘れてはいけないと思います。Twitterなどで展開もしていきますし、さまざまなキャンペーンもやっていきます。ユーザーのみなさんや社員の方に長く愛されるキャラになるといいと思います。
※本記事掲載の情報は、公開日時点のものです。
※本インタビュー・撮影は、政府公表のガイドラインに基づいた新型コロナウイルス感染予防対策ガイドラインに沿って実施しています。
編集:フルスイング編集部