FactorPortrait: Controllable Portrait Animation via
Disentangled Expression, Pose, and Viewpoint

Jiapeng Tang^1,2, Kai Li¹, Chengxiang Yin¹, Liuhao Ge¹, Fei Jiang¹, Jiu Xu¹, Matthias Niessner², Christian Häne¹, Timur Bagautdinov¹, Egor Zakharov¹, Peihong Guo¹

¹Meta Reality Labs ²Technical University of Munich

arXiv Main Page Phone Dataset Studio Dataset
ViewSweep Dataset DynamicSweep Dataset

DynamicSweep Dataset

This is a synthetic dataset created from Animatable Gaussian Avatars. For each identity, we randomly select a sequence of continuous expressions and poses to animate head Gaussians, and then render dynamic Gaussians along a camera trajectory. In this way, we can obtain a video with joint changes of viewpoint, pose, and expression along time.

Self Driving

Input GAGA CAP4D HunyuanPortrait Ours GT

Cross Driving

We use the single image from Phone dataset as Source ID image, and use the video from DynamicSweep dataset as Driving video, and also its camera trajectory.

Input GAGA CAP4D HunyuanPortrait Ours Reference/Driving

FactorPortrait: Controllable Portrait Animation via Disentangled Expression, Pose, and Viewpoint

DynamicSweep Dataset

Self Driving

Cross Driving

FactorPortrait: Controllable Portrait Animation via
Disentangled Expression, Pose, and Viewpoint