MicrosoftのVolumetric Videoは結構凄い

2017年11月2日

Microsoft持つ技術の中にMixed Reality Capture for Volumetric Videoと呼ばれる技術があり、これは結構凄いです。

Volumetric Videoがどういうもので、どう凄いのか、Microsoftの狙いは何なのかについて書いていきます。

1. Microsoft Mixed Reality Captureとは？
2. Volumetric Videoとは？
3. Microsoft Mixed Reality Capture Studio
4. Microsoftの狙いとWindows Mixed Realityとの関係
5. Windows Mixed Reality専用の技術？
6. 実際の適用例と体験できるソフト
7. まとめと考察

Microsoft Mixed Reality Captureとは？

MicrosoftのMixed Realityプラットフォーム上で扱うビデオキャプチャ機能の総称です。別々にある複数の技術をまとめてこう呼んでいます。

その中で身近なのはWebカメラを利用した機能です。

仮想空間上の映像と、実際に体験している人の映像を合成することで、ヘッドセットをかぶっていない人が、仮想空間上の状況を第三者視点で楽しむことができます。また、HoloLensでは、搭載されているカメラとディスプレイに表示されている映像を、そのまま合成して録画する機能があります。

ですが、今回取り上げるのはこの映像合成の機能ではありません。

Volumetric Videoとは？

Volumetric（容積、塊）の映像という言葉が示すとおり、仮想空間上に3Dのオブジェクトを映像として表示する技術です。

もともとビデオカメラで撮影した映像は平面です。いわゆるVR動画は、カメラを複数用意し、固定の撮影点から360度方向の映像を撮影してつなげたり、両目の視差分ずらした映像を用意して立体的に見せたりします。つまり、立体に見えても視点は常に固定であり、視聴者は方向を変える程度の自由度しかありません。

Volumetric Videoはこれの逆の発想で、3Dのポリゴンモデルを作成するかのように、特定の被写体を360度方向から撮影して立体的な映像を作ります。人や物体一つ一つを個別に撮影していく必要がありますが、できあがった映像は色々な方向から鑑賞することができます。そのおかげでOculus Rift/HTC VIVE/Windows Mixed Realityヘッドセット等が持つヘッドトラッキング機能・ルームスケール機能を映像にも適用することができます。

技術的には3Dモデルに、映像のテクスチャを張ることで実現されています。以下の映像を見ると仕組みがよく分かります。（デモ用の被写体としてなぜこれを選んだのかは謎ですね・・・）

Microsoft Mixed Reality Capture Studio

これだけでも結構凄い技術なのですが、Microsoftが凄いのはこの映像を作成する貸しスタジオを世界各地に用意しようとしていることです。

この映像の作成には多数の映像カメラ、深度（DoF）センサ、および特殊な編集技術が必要です。それらを用意するのは、360度映像用のVRカメラを用意することと比べものにならないぐらい大変です。

VRカメラは定番のモデルがいくつか販売され、最近やっと普及してきた感がありますが、これは持ち運べるカメラであるからこそです。Volumetric Videoはカメラ・センサが被写体を取り囲む都合上、設置が非常に大変です。被写体以外の物が映り込んでもいけませんし、影ができてもいけません。そのためスタジオをまるごと用意する必要があるわけです。

このスタジオはMicrosoft Mixed Reality Capture Studio for Volumetric Videoという名前になっていて、実際どういった設備なのかは以下の映像からうかがい知ることができます。

今のところは北米とロンドンに合わせて３拠点あるだけですが、パートナーとなるスタジオ増やすべく進めているそうです。

Microsoftの狙いとWindows Mixed Realityとの関係

Microsoftはこの技術を2010年頃から研究していたそうですが、狙いは何なんでしょうか。その答えは見ての通りMicrosoftが提唱するMixed Reality（複合現実）にあります。

Mixed Realityは雑に言うとAugmented Reality(拡張現実)をより広げた概念です。Augmented Realityは、現実の空間上に仮想的なオブジェクトが実空間に合わせて表示されているような概念です。一方Mixed Realityは仮想的なオブジェクトが実際にそこにあるかのように、現実空間と仮想空間の境界が曖昧になるような状況を目指しています。（これも広義のAugmented Realityですが、マーケティング上新たな言葉を定義したと予想します。）

Windows Mixed Realityとは？

Windows Mixed Reality(Windows MR)は、Microsoftが用意したプラットフォームの名称です。対応デバイ ...

https://vr-maniacs.com/entry/windows-mr-as-platform/

つまり、Mixed Realityでは現実空間と重ね合わせて表示する仮想オブジェクトのリアリティがより重要になってきます。そのための技術としてVolumetric Videoはうってつけの技術になる、というわけです。

Microsoftは、現実空間上に表示させるVolumetric Videoの映像をHolographic Videoとも呼んでおり、前述のスタジオ紹介のビデオの中で、ゴルフのお手本を表示させたり医療に応用するなど、いくつか適用例を紹介しています。

Windows Mixed Reality専用の技術？

MicrosoftのVolumetric Video技術はWindows Mixed Reality専用ではなく、他のVRプラットフォームでも利用できます。キモになるの撮影と編集・オーサリングなどの作成の方であり、再生に関しては一般的な技術しか使われていません。また、後ほど紹介するVolumetric Video採用ソフトはOculus RiftやGearVRで動作できています。

このGearVRでも動く、というのはVR業界にとって恩恵は非常に大きいと言えます。

最近GearVR以外にも、Oculus GoやDaydream viewなどと言ったスタンドアロン型のVRヘッドセットが普及の兆しを見せています。これらはスマートフォンのSoCを使って3D描画を行っていますが、愚直に3Dグラフィックスを描画しようとすると、性能の都合上Oculus RiftやHTC VIVEといったPCで動作しているソフトのような描画品質はなかなか確保できません。

一方、Volumetric Videoは単なる映像ですから、SoC内の動画再生専用ハードをYouTubeなどの動画を再生するときと同じように使用できますから、性能が足りなくなる心配はありません。もっとも、その動画を貼り付ける3DモデルはPCと比べて簡素な物を使う必要がありますが、普通に描画するのに比べれれば差は微々たるものです。

忘れられがちですがHoloLensもスタンドアロン型のヘッドマウントディスプレイです。こちらも描画性能はあまり高くないため、相性が良いと言えます。

実際の適用例と体験できるソフト

この技術はデモレベルでまだ実用化はされていないのでは？と疑問に思うかもしれません。確かにまだ応用レベルにまで発展はしていないのですが、映像鑑賞以上の事をやっている適応例が最近出てきました。

それはBlade Runner 2049: Memory Labというソフトです。無料ではあるものの、残念ながらOculus Rift・GearVR独占です。Oculus Rift版はOculus Riftを持っていないとダウンロードできないため、Windows MRヘッドセットやHTC VIVEだけを持っている人は動かせないようです。（入手さえできればReviveで動くと思われます）

この映像の最初に出てくる女性が、Volumetric Videoとして描画されており、この描画品質のまま色々な方向から自然に観賞することができます。このソフトをクリアすると、Microsoft Mixed Reality Capture Studioのクレジットがあるので、Microsoftの技術をそのまま使っていることは間違いありません。

ソフトの内容はというと、主人公を襲った人造人間（レプリカント）が人間に化けているので記憶をたどって探せ、というものです。全編英語ではありますが、操作は顔を近づけて覗いたり、Oculus Touchでスキャンするなど単純な物なので、特に操作に迷うことは無いと思います。

まとめと考察

これまで実写のテクスチャを使った3Dモデル技術を使って人間などを描画する技術は存在しました。ただ、これらはアニメーションはするものの、単にモデルをそのまま動かすなど、映像と呼べるまでのものはなかなかありませんでした。

Microsoft Mixed Reality CaptureのVolumetric Videoは、そこを撮影から映像化までのワークフローをパッケージ化してスタジオとした形で整え、Microsoftが目指す複合現実を構成する要素として実現させました。

DoFセンサを使って3Dモデルを作成しているのでは無いかと書きましたが、MicrosoftはMixed Reality対応ヘッドセットでもDoFセンサを使っていち早くInside-out方式のトラッキングを商品化していますから、DoFセンサの活用にはかなり力を入れていそうです。これはXboxのKinnectの技術も応用されているのかもしれません。

Volumetric Videoはまだまだ発展途上の技術だとは思いますが、一度体験してみてはいかがでしょうか。