R&D室

R&D室

アカツキはエンターテインメントが人々の原動力になると信じ、心を動かすプロダクトを創り続けている企業です。R&D室では、独自性の高い技術をリンクさせることでアカツキがもつ表現力や世界観をより高いレベルで具現化し、まだ世の中に存在しない新しい体験や驚きを世の中に届けたいと考えています。特に、未来的な体験を生み出す上で重要な役割を果たすと考えているxR(AR/VR/MR)領域を研究の中心に置いています。

研究領域

“Mixed Reality”という概念を初めて提示したPaul Milgramは、Real(現実)とVirtual(仮想現実)は対立概念ではなく地続きなものであるとしています(*1)
かつそれらの融合方式の境界は曖昧なものであり、このグラデーションの総体をまとめてMixed Reality(複合現実感)と呼称しました。

R&D室では、このグラデーションの中心にあるAugmented Reality, Augmented Virtualityに特に注目し、”Real”に軸を置きつつ(*2)高度に“Virtual”を融合させていくための研究を行っています。結果として没入度の向上や未来的な体験など、体験の質を大きく向上させることを目指しています。

(*1): https://www.researchgate.net/publication/231514051_A_Taxonomy_of_Mixed_Reality_Visual_Displays

(*2): 背景には​“我々は物理的な肉体を持っている以上Virtual世界のみで生きる訳にはいかない、xR技術はRealを豊かにするものであることが重要だ”、という思想があります。

プロジェクト紹介

Garage: GPU particle-based AR content for futuristic experiences

https://dl.acm.org/doi/10.1145/3450615.3464529
ACM SIGGRAPH 2021 Immersive Pavilion採択。

・研究概要・目的

R&D室では過去の研究において光学的整合性、つまり「RealとVirtualの視覚上の融合」を達成するために画像的(2次元的)アプローチを採用してきましたが(*3)、これを空間的(3次元的)アプローチに拡張することは出来ないか模索を続けていました。
Real/Virtual双方のオブジェクトが共通のインタラクションや物理特性を備え、等しく自在に操作・干渉が可能となれば、より高いレベルでの融合感が得られるのではないかと考えたからです。

この考えに基づき、GPUパーティクルベースで現実環境を再構築し、空間の自在なコントロールを可能にしたシステムがGarageです。Garageシステムの仕組みは以下のようになっています。​

  • – RGBカメラとLiDARセンサーで現実環境の色情報や奥行き情報を取得、BackpackPCへ送信
  • – BackpackPC上で深度値から世界座標の位置を算出しパーティクルに変換
  • – 各パーティクルにはプレイヤーや外部オブジェクトからの干渉に応じた任意の操作を付与(Unity VFX Graphを使用)
  • – 専用HMDへレンダリング

これらを全てリアルタイムで処理しています。​

HMDにLiDARセンサーとしてiPhone 12 Proを取り付け可能になっており、そこでキャプチャした色・深度情報をPCへ送信、処理を加えた上でHDMI経由でHMD上にレンダリングするという流れで、表示形式はビデオ透過型を採用しています。
今回のように現実の情報をキャプチャして一度取り込んだ上で再構築するという形式はAugmented RealityよりAugmented Virtualityに近いものだと言え、この場合光学透過型よりもビデオ透過型の方が適しているためです。

こうして全てデジタルで再構築することで自在に空間的・時間的操作を加えることが可能であり、様々な体験を提供することが出来ます。
例えば3Dキャラクター(ドラゴン)の干渉によって環境を破壊・融解したり、音楽に合わせて周辺環境をオーディオビジュアライゼーションのメディアにしてしまうことが可能です。

また過去に録画した自分自身のパーツを任意空間に再生することで、テレポートや透過、過去の自分とのスパーリングなどの表現を実現することも出来ます。​

GPUパーティクルである利点を活かしてポリゴンメッシュベースのARアプリケーションでは難しい粒度の細かい表現となっているかと思います。

また、GPUパーティクルの表現には複数のスタイルを用意しており、写実的なものからボクセルアートのようなNPR表現どちらも対応しています。​

Minecraftに代表されるように、情報量を削減したボクセル表現でも魅力的なゲーム世界を作り込めることは周知の事実です。
そしてR&D室において過去のプロジェクトでNPR(Non-Photorealistic Rendering)表現による没入度向上手法を模索してきた結果として、xRに対してもNPR表現が有効であることが分かっています。
NPR表現にはレンダリングコストの削減など実質的なメリットも大きく、目指す世界観にあわせて適切な表現を取り入れていくことは有効な選択肢と言えるでしょう。
またGarageでは、任意のボクセルサイズ・整列幅をパラメータでコントロールできる機能も備えており、デザイナーが自由に表現を作り込むことを可能にしています。​

現在、“AR”という言葉の第一印象は「現実世界に便利な情報を重畳する」「地面に接地したキャラクターを表示する」と言ったイメージが強いと思います(実際それらはARの大事な一要素です)が、エンターテインメントの文脈ではより高次のレベルでの融合感・複合感が求められるようになっていくと考えています。
今回Garageの開発によって、再構築された現実環境を操作/編集/破壊することで”Real”の定義を上書いているかのような、”Virtual”との境界が曖昧になっていくような感覚を得られることが分かりました。
今後もARという言葉のイメージに囚われることなく、Real,AR,AV,Virtualを自由に行き来することで「現実を再定義し、現実を超える新たな現実を創造する」というMixed Realityの深部に近づいていけたらと考えています。
本研究は、SIGGRAPH2021において優秀なプロジェクトに贈られるGrand Jury Prizeという賞を受賞することが出来ました。

・Related Works

Neural AR: Immersive augmented reality with real-time neural style transfer

ACM SIGGRAPH 2019 Immersive Pavilion採択。

・研究概要・目的

2018年のプロジェクト(*4)に引き続き光学的整合性の担保を目指していましたが、光学的整合性を「実環境(Real)と3DCG(Virtual)の融合」と捉えると、実環境情報を学習させることで新たな可能性が開けるのではないかと考えました。つまり、機械学習/深層学習の活用です。まず最初に以下のような概念実証を行いました。

こちらはARアプリケーションを実行した動画に対して、あくまでもオフラインでStyle Transferのレンダリングを行ってみたものです。AR単体として見れば、平面上にキャラクターをただ配置しただけの面白みのないものですが、Style Transferをかけることで途端に不穏な世界や燃え盛る世界に迷い込んだような錯覚を呼び起こすことが出来ると感じました。

Style Transferとは、構造を担保するコンテンツ画像と、画風を担保するスタイル画像の2つを入力にとり、前者の構造と後者の画風を併せ持つ合成画像を出力する手法の総称です。
詳しくは以下にて紹介しています。

ニューラルネットワークでStyle Transferを行う論文の紹介
https://qiita.com/kidach1/items/0e7af5981e39955f33d6

Style Transferの本質は、多量の畳み込み演算の繰り返しによって特徴量を抽出、合成していく点にあります。
今回はARとしてリアルタイムのレンダリングが必要であり、この多量の演算をいかに高速に処理するかが一番のポイントとなりました。​

畳み込み演算をナイーブに実装した際の擬似コード。いかにもコストの高そうな多重ループになってしまっていることが分かります。

ニューラルネットワークの処理と言えば一般的にはTensorflowやPytorchなどPythonベースのフレームワークで動かすのが一般的ですが、今回はゲームエンジンに統合してリアルタイム処理したいため不向きです。
いくつか選択肢はありましたが、結論としてはUnity上のCompute Shader(所謂GPGPU)でスクラッチ実装を行うことにしました(*5)

GPUの性能を引き出すにはいくつかのポイントを抑える必要がありますが、中でもメモリアクセスのレイテンシを減らす(または隠蔽する) ことが最重要です。
今回は特に大きな改善に繋がりやすい、

  • – 実行設定の最適化によるメモリアクセス遅延の隠蔽
  • – コアレスアクセスによるメモリアクセス遅延の削減

という観点でのチューニングを行いました。

前者は、どのようにThreadGroupがStreaming Multiprocessorに割り当てられ、さらにその中でどのようにThreadがWarpスケジューラに積まれて実行されていくかを把握し、ハードウェア(MultiprocessorとCUDA Core)にいかに無駄なく仕事をしてもらうか、というものになります。GPUのハードウェアレベルの構造とプログラミングモデルとのマッピングを考慮して設計する必要があります。
後者は、GPUプログラミングにおいて特に支配的なコストとなるグローバルメモリのアクセスについて、どういったケースで遅くなるかを把握し、その際にキャッシュ機構(L1,L2,Shared Memory等)を利用していかに高速化するか、と言ったプログラミング上のテクニックとなります。
詳細については以下スライドで一部紹介しています。

没入度の高いAR視覚表現の模索と深層学習を用いた具体的事例
https://www.slideshare.net/secret/udjlqk2JyFe1az

全体のアーキテクチャとしては以下のようになっています。

ARにおける機械学習の活用は平面推定や深度推定等、環境の幾何学形状を推定するものがほとんどですが、今回のプロジェクトを通じ視覚上の表現においてもまた大きな力を発揮し得ることが分かりました。
コンピュータグラフィックスで視覚上・描画上の工夫を加える際はほぼ必ずシェーダープログラミングの話題になりますが、今回のようにStyle Transferを用いることで学習済のスタイルを無限に適用することが出来、一つ一つの表現ごとにプログラムを記述する必要がなくなる点は大きなメリットだと感じます。
現実世界の観測に基づいてアルゴリズムを近似的に積み上げていくシェーダープログラミングには出せないカオス感や味のようなものがある点も学習ベース手法の面白いところです。
高速化と品質向上の両立にはまだ大きな課題がありますが、今後ARにおいて視覚的に驚くような表現・新しい体験を生み出すという点において、機械学習は重要な役割を果たしていくのではないかと考えています。

(*5): 2018年当時の状況としては、C#でTensorflowを扱うTensorsharpがありましたが、GPUサポートが過渡期的で不安定だったため採用を見送りました。2021年7月現在ではUnity上で動くニューラルネットワークの推論エンジンであるBarracudaの開発が活発になっており、これを用いるのは有力な候補と考えられます。

・Related Works

Augmented reality game with unique semi-transmissive rendering method

(*4)

ACM SIGGRAPH 2018 Immersive Pavilion採択。

・研究概要・目的

ARの没入度向上に向けた最初のプロジェクトにおいて注力領域として選定したのは、”光学的整合性”です。
まずアカデミックな世界では、ARのコアとなる技術要素を以下のように大別しています。

・幾何学的整合性(空間を認識して3Dオブジェクトを正しく配置する)
・光学的整合性(3Dオブジェクトを現実空間になじませる)
・時間的整合性(ユーザの操作に遅れずレンダリングする)

実質的には、時間的整合性はいずれにしても必要となるため除外します。 では幾何学的整合性と光学的整合性のどちらにフォーカスするかですが、幾何学的整合性はある意味明確なゴールがあるため多くのデバイス開発企業やプラットフォーマーが注力する領域となります(*6)
一方で光学的整合性は、ARをどのように捉えるかによってその重要度は多義的であり、注力している研究機関や企業はまだ多くありません(*7)
R&Dが立ち上がったばかりであることを鑑みて明確な独自性・新規性を目指せる領域を狙いたかったので、後者に集中することを決定しました。

光学的整合性にフォーカスするにあたり、2つの方針が考えられました。 1つ目はPhotorealistic Rendering、つまり写実性を追求する方向性です。3Dオブジェクトを限りなく現実に近いかたちでレンダリングするというもので、CGの世界において非常に分かりやすいゴールです。ですがそこには多くの課題が存在します。
端的に言うと、数ミリ秒という短い時間で光の経路を求め、物理的に正しい反射や屈折処理、陰影処理を実現する必要があります。近似的な表現(ラスタライズベース)でも非常にクオリティは高くなってきているものの、本物と見紛うものとなると物理的に正しいアルゴリズム(レイトレーシング)の活用が不可欠となり、膨大な計算量が求められます。
また、Photoreal表現には「グラフィックスがリアルになるほど他の要素(アニメーションやAIなど)の綻びが目立つ」という難しさもあります。”不気味の谷”という言葉があるように、見た目がリアルになるほどプレイヤーは無意識的に本物の人間と全く同じ見た目・動き・反応を期待するようになるため、そこから少しでもズレが発生すると得体の知れない気持ち悪さを感じ取ってしまうのです(しかもxR環境ではこの綻びはより目立ちます)。
これらの課題に加えてARではさらに現実環境の推定処理なども必要です。 ハイエンド機でも手に余るこれらの処理を、現時点でずっと性能の劣るARデバイスで行うことはあまり現実的とは言えませんでした(*8)。​

もう1つの方向性はNon-Photorealistic Rendering(NPR)です。NPRは、主に画面全体に対して、「アニメ調」や「水彩画調」などの統一的な描画スタイルを付与する手法です。画面全体のスタイルを統一できるということは、「3Dオブジェクトと現実世界の融合」というゴールに対しても有効ではないかという発想がありました。工夫次第で実行速度を担保できる余地も大きいです。

ただNPRとは直訳すると「写実的・現実的ではない」ものなので、「拡張現実」であるARとはそもそも相反する概念とも言えます。現実的でないものを現実のように見せることは可能なのかという問いのもとNPRベースのARをいくつもプロトタイピングした結果、「映画やゲームで見た世界」を再現することが有効ではないかと結論づけました。誰しもが持つ「映画やゲームで見た世界の記憶」をハックして、現実には存在しない物質であるにも関わらず「どこかで見たことがある」という感覚を呼び覚ますような表現方法です。特にSFアニメや映画で目にするような光学迷彩やホログラムを再現する表現は上手くいき、結果として今回のプロジェクトの根幹を占める表現となりました。​

ホログラムはスター・ウォーズ、光学迷彩は攻殻機動隊など、誰もが一度は目にしたことがある、と感じられるのではないでしょうか。
光学迷彩表現は、Projective Texture Mapping(*9)という3Dオブジェクトに対してテクスチャを投影する手法を応用して実現しています。

コアとなる表現が決まった上で、実際の体験に昇華させるにはさらなる作り込みが必要です。
光学迷彩表現の強みは、敵がどこかから近づいてくるか分からないドキドキ感やスリルに繋げられる点だと考えていたので、その要素を最大限引き出すことができるゲームシステムにしていくことを目指しました。
最終的には

  • – 3Dオーディオでおおまかに敵の位置を探る(索敵)
  • – 光学迷彩の強度が動的に変わる敵をスコープを利用しつつ捉える(視認)
  • – 筋変位センサー、BLEコントローラーを利用して武器を使用する(攻撃)

という「索敵->視認->攻撃」の流れを作り、特に視認のハードルを上げることで「敵が見えた”気がした”」「そこにいる”はず”」という錯覚が起きやすいように調整を加えました。
この狙い通り、ゲームをプレイしてもらった方から「(ゲーム後も)敵がその辺りにいる気がする」と言って頂くこともありました。
光学迷彩という見かけのインパクト以上に、この総合的な体験こそが”RealとVirtualの融合”感覚を想起させることに繋がったと思っています。

今回のプロジェクトでは、xRとProjective Texture Mappingの掛け合わせは非常に有用な手法であることが分かりました。
現実の背景をキャプチャしてオブジェクトに貼り付けるという特性から、当然ではありますが高いレベルで”RealにVirtualを馴染ませる”ことが可能です。
作り込めば今回のような光学迷彩を用いたステルスゲームのような体験に落とすことも可能ですし、ワンポイント使いでSF演出を盛り上げる現実歪曲表現やワープ表現などにも活用できるでしょう。
レンダリングコストを低く抑えることが可能なのでモバイル単体で60fpsを担保することが出来、実装面でもリソースの限られるARデバイス環境との相性が良い手法となりました。​

(*6): 2017年当時はソフトウェアアルゴリズムによって幾何学的整合性の問題を解決する試みが目立っていましたが、2021年7月現在ではAppleがiPhone/iPadのフラッグシップモデルにLiDARを搭載、他にもビデオ透過型デバイスで有力なVarjoが同じくLiDARを搭載するなど、ARデバイスにおいてもハードウェアレベルでのセンシングが大きな役割を果たすようになりつつあります。この意味で当時の想定は正しかったように思われます。

(*7): 2021年7月現在、AppleのARKitやGoogleのARCoreに疑似鏡面反射などの機能が組み込まれつつありますが、様々なARコンテンツに対して汎用的に光学的整合性を高められるような仕組みはやはり存在しません。この点についても、当時想定していた状況が継続していると言えます。

(*8): 2021年7月現在、NVIDIA RTXシリーズを中心としてリアルタイムレイトレーシングが実用に近づいています。コストの高い演算であることには変わりないので、まずは一部反射に限定するなどラスタライズとのハイブリッドで使われていくようになることが想定されます。

(*9): http://www.cse.unsw.edu.au/~cs9018/readings/projective_texture_mapping.pdf

・Related Works

メンバー

谷口 大樹

2014年アカツキ入社、新規ゲーム開発や新規事業開発を経て2017年にR&D室を立ち上げ。
CG分野のトップカンファレンスACM SIGGRAPH展示部門3度採択。技術で感情を動かしたい。

アドバイザー

能登 信晴

1996〜2000年、日本電信電話株式会社 情報通信研究所、サイバースペース研究所で研究開発に従事。
2012年よりアカツキのエンジニアリングをサポートしている。​

田中 勇輔

2012年アカツキ入社後、多数のゲーム開発プロジェクトに参加し、2014年にCTOに就任。
感動や驚きを生む技術が好きです。

TOP