音声から口の動きを自動生成する技術をDisney Researchが発表

 CGのキャラクターが話している時、口の動きが音声と合っていないと違和感がある。しかし口の動きを一つ一つ設定するのは熟練の技と大きな手間が必要だ。そこで、Disney Researchは口の動きの情報を自動生成する技術を開発している。海外ニュースサイトの「Road to VR」が報じた。

・New Procedural Speech Animation From Disney Research Could Make for More Realistic VR Avatars
https://www.roadtovr.com/disney-research-procedural-speech-animation-vr-deep-learning/

 この技術では、実際に人が話している映像を使ってディープラーニングを行い、音声と口の動きを学習する。その学習データを使い、CGで描かれたキャラクターの口を音声に合わせてリアルタイムで動かす。アニメーション制作の際に、キャラクターを動かす手間を低減できるという。熟練のアニメーターが作るほど高精度ではないものの、音声に合わせた口の動きを簡単に表現できるようになる。上記記事の筆者であるBen Lang氏は、予算の限られたプロジェクトや、そこまでの精度が求められないサブキャラクターなどで実用的だろうとした。

 キャラクターの口を動かすには、そのキャラクターの3Dデータを使う。そのため、キャラクターを変更すると齟齬が出る恐れがある。ただ、異なるキャラクターに対しても最小限の調整で適用させられる仕組みだという。また、このシステムは音声と口の動きを紐付けて学習するため、どんな言語でも利用できるとしている。

 Ben氏は、この技術がVRにおいてはソーシャルネットワーク利用するアバターの表現で利用できるだろうとしている。カメラなどで顔をリアルタイムでスキャンして反映させるのが最も正確だが、まだ実用的な技術がない。そういった技術が確立するまでは、こうした技術が使われる可能性があると推測した。

 Disney Researchは発表にあたって動画も公開しており、どのくらいの精度で動いているのかが分かる。

Reported by 宮川泰明(SPOOL

この内容で送信します。よろしいですか?