近年、画像からの3D人物姿勢・体型推定は、AR/VR、ヘルスケア、エンターテイメントなど多岐にわたる分野で注目を集めています。
当社では長年、顔認識を中心に、画像による人体センシング技術について、多くの製品を世の中に送り出してきました。3D人物認識技術についてもその取り組みの一つであり、最新の技術動向を継続的に調査・研究しています。
今回は、単一画像から3D人物情報を推論するモデル「NLF (Neural Localizer Field)」の評価レポートを基に、その詳細と今後の可能性についてご紹介します。
※出典:「NLF: Neural Localizer Fields for Continuous 3D Human Pose and Shape Estimation」
NLFモデルの基本仕様
NLFモデルは、単一の人物検出済み画像を入力として受け取り、1024頂点の3D座標(ローカル座標系および画面内座標)を出力します。これはSMPLモデルの頂点サブセットに当たります。
- 入力: 人物検出後に切り出された単一画像
- 出力: 1024頂点の3D座標(ローカル座標系:骨盤原点:mm単位、および画面内座標:pix単位)
- 推論処理量: BackboneのEfficientNetV2-Sを使用して1秒以下
- 学習データ: 出典元掲載のデータセット、および、独自データセット
- 学習時間: 約2日間

高度な後処理で実現する詳細分析
NLFは推論後も複数の後処理を行うことで、より詳細な3D情報を出力することが可能です。
- ローカル座標系からカメラ座標系への変換: 内部カメラパラメータを用いることで、頂点の3D座標と投影された2D座標からカメラ座標系での座標値を計算。奥行きを含めた人物の3D位置を把握できます。
- SMPL Fitting: 人物モデルSMPL(24ジョイント、3Dメッシュ)へのフィッティングを行います。
精度評価:姿勢は良好、体型には課題
本モデルの精度は、客観評価と主観評価の両面から検証を実施しました。データセットEHF (SMPLメッシュ), 3DPW (骨格), SSP3D (体型) を用いた客観評価結果は以下の通りです。
- EHF: 平均誤差 6.3cm(論文公開モデルは4cm)
- 3DPW: 平均誤差 6.8cm(論文は6.1cm)
- SSP3D: 誤差 1cm(T-pose正規化後の誤差、論文と同じ)
学習に使用していない画像を用いた主観評価では、以下の点が明らかになりました。
- 3D姿勢推定: 首の動きや着席時の膝の曲がりなども正しく推論されており、良好な結果を示しています。
- 体型: 実際の体型よりも太めに推論される傾向が見られ、精度に課題が残ります。


結論と今後の展望
評価の結果、NLFモデルは3D人物姿勢推定(3D骨格推定)において、ある程度実用的な精度を持っていることが確認されました。しかし、体型推定に関してはまだ精度不足という結論に至っています。
体型については、別の技術を利用することで、NLFで推論した結果から身長、体重、および、3サイズを推定することも可能です。次回は、この手段を適用することで得られる体型に関する情報の精度や課題について、レポートする予定です。
最後に、NLFモデルは3D人物姿勢推定の分野で大きな可能性を秘めています。体型推定の精度向上や多様な応用分野への展開にはまだ課題が残りますが、学習データセットの改善や差し替えにより、どのような変化がみられるか、今後も実験・調査を進めていく予定です。