香港赛马会惠泽社群

谷歌如何通过机器学习实现逼真 AR 实时自拍成果
更新时间:2019-03-09

(映维网 2019 年 03 月 09 日)增强事实可能在物理世界之上叠加数字内容与信息,从而增强你的感知。例如,谷歌地图的 AR 功效可允许你直接看到叠加在现实世界视图的方向。借助 Playground,你就可以通过 AR 并以不同方式浏览世界。对最新版本的YouTube Stories,以及 ARCore 全新的 Augmented Faces API,你可以为自拍增添动画面具,眼镜,3D 帽子等滤镜。

文章相关引用及参考:映维网

对于 3D 网格,谷歌采取了传递学习,并训练了一个存在多个目标的网络:网络同时利用合成渲染数据猜想 3D 网格坐标,以及利用说明切实世界数据来预测 2D 语义轮廓。因而产生的网络为谷歌供应了公道的 3D 网格预测,这不仅体当初合成上,同时体当初现实世界数据上。所有模型都接受来自地理不同的数据集数据培训,随后在平衡的,多样化的测试集上进行测试,从而获得定性和定量性能。

为了实现这所有,谷歌采用机器学习来推断近似的 3D 表面几何形状,只利用一个摄像头输入而无需专用的深度传感器。利用面向移动 CPU 界面的 TensorFlow Lite 或可用的全新移动 GPU 功能,这种方法带来了实时速度的 AR 成果。所述解决打算与驱动 YouTube Stories 全新创作者后果的技巧相同,并已经通过最新的 ARCore SDK 跟 ML Kit Face Contour Detection API 向广泛的开发者社区开放。

1. 用于 AR 自拍的机器学习管道

谷歌的机器学习管道由两个协同工作的实时深度神经网络模型组成:一个在整张图像上运行,并打算面部地位的探测器;在所述位置上运行,并通过回归预测来近似名义多少何的通用 3D 网格模型。准确地裁剪面部能够大大减少对雷同数据加强的须要,比方说由旋转,平移跟比例变革组成的仿射变换。通过精确地裁剪面部,这允许系统将大部分机能用于猜测坐标,而这对实现虚构内容的正确锚定至关重要。

一旦裁剪了感兴趣位置,网格网络一次仅利用于单个帧,应用加窗平滑(windowed smoothing)以减少面部静止时的噪点,同时避免在显明挪动期间浮现延迟。

实现这种 AR 功能的关键挑战之一是公平地将虚构内容锚定在事实世界。这个过程需要一套独特的感知技能,需要可能追踪千差万别的名义多少何,每一个微笑,每一次皱眉都要准确识别。

谷歌分享了他们是如何通过机器学习来实现逼真的 AR 实时自拍效果