最新3D GAN可生成三维几何数据了！模型速度提高七倍

发布时间：2021-12-25 11:38:06 所属栏目：大数据来源：互联网

导读：2D图片变3D，还能给出3D几何数据？英伟达和斯坦福大学联合推出的这个GAN，真是刷新了3D GAN的新高度。而且生成画质也更高，视角随便摇，面部都没有变形。与过去传统的方法相比，它在速度上能快出7倍，而占用的内存却不到其十六分之一。最厉害的莫过于还可

2D图片变3D，还能给出3D几何数据？

英伟达和斯坦福大学联合推出的这个GAN，真是刷新了3D GAN的新高度。

而且生成画质也更高，视角随便摇，面部都没有变形。

与过去传统的方法相比，它在速度上能快出7倍，而占用的内存却不到其十六分之一。

最厉害的莫过于还可给出3D几何数据，像这些石像效果，就是根据提取的位置信息再渲染而得到的。

甚至还能实时交互编辑。

该框架一经发布，就在推特上吸引了大量网友围观，点赞量高达600+。

<i 11怎么样？是不是再次刷新你对2D升3D的想象了？
显隐混合+双重鉴别
事实上，只用一张单视角2D照片生成3D效果，此前已经有许多模型框架可以实现。

但是它们要么需要计算量非常大，要么给出的近似值与真正的3D效果不一致。

这就导致生成的效果会出现画质低、变形等问题。

为了解决以上的问题，研究人员提出了一种显隐混合神经网络架构（hybrid explicit-implicit network architecture）。

这种方法可以绕过计算上的限制，还能不过分依赖对图像的上采样。

<i 20而英伟达和斯坦福大学提出的这个新方法EG3D，就将显式和隐式的表示优点结合在了一起。
它主要包括一个以StyleGAN2为基础的特征生成器和映射网络，一个轻量级的特征解码器，一个神经渲染模块、一个超分辨率模块和一个可以双重识别位置的StyleGAN2鉴别器。

其中，神经网络的主干为显式表示，它能够输出3D坐标；解码器部分则为隐式表示。

与典型的多层感知机制相比，该方法在速度上可快出7倍，而占用的内存却不到其十六分之一。

与此同时，该方法还继承了StyleGAN2的特性，比如效果良好的隐空间（latent space）。

比如，在数据集FFHQ中插值后，EG3D的表现非常nice：

该方法使用中等分辨率（128 x 128）进行渲染，再用2D图像空间卷积来提高最终输出的分辨率和图像质量。

这种双重鉴别，可以确保最终输出图像和渲染输出的一致性，从而避免在不同视图下由于卷积层不一致而产生的问题。

而没有使用双重鉴别的方法，在嘴角这种细节上就会出现一些扭曲。

数据上，与此前方法对比，EG3D方法在256分辨率、512分辨率下的距离得分（FID）、识别一致性（ID）、深度准确性和姿态准确性上，表现都更好。

<i 39Matthew A. Chan则是一位研究助理，以上三人均来自斯坦福大学计算机成像实验室（Computational Imaging Lab）。
Koki Nagano目前就职于英伟达，担任高级研究员，研究方向为计算机图形学，本科毕业于东京大学。

（编辑：唐山站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

教育大数据发展循序渐	大数据是什么？对大数
南昆士兰大学和Wagner	在大数据时代，想成为