最终,我们或许能让那些过去的人们,「亲自」为我们讲述他们自己的故事。
最近几个星期,一股由 AI 引发的「动起来」趋势席卷全网,各种让照片变视频的动画不时出现在各大社交收集的时间线上,有的还配上了音乐。在层出不穷的应用之后,又有一个 AI 动图天生器脱颖而出,在线家谱服务公司 MyHeritage 提供的 Deep Nostalgia 服务可以为静态照片创建最佳的活动效果,成为了上个周末的热门事件。他们提供的东西有点像 iPhone 上的 Live Photos 功能,其可以自动天生几秒钟的视频,以帮助智能手机摄影者找到最佳拍摄角度。不过与 iPhone 上基于多张照片分解加挑选的方法不同,Deep Nostalgia 可以让任何相机拍摄的内容「活起来」。该东西创造的短视频中,人物以 AI 训练过程中示例人物的行动摆姿势,其目的是帮助人们以全新的视角看看过去亲人的照片。
与那些以 app 形式存在的产品不同,运用 MyHeritage 图片东西只需在他们的网站上免费备案一个账户,然后上传照片就可以了(前几张免费)。图片处置的过程是完全自动化的。如果你的老照片分辨率有点低也不是问题——Deep Nostalgia 会自动对图象从事超分辨率等增强操作,然后才从事处置。东西链接:https://www.myheritage.com/deep-nostalgia另外还有人们担心的隐私问题,MyHeritage 表示,他们不会将用户上传的数据分享给任何第三方,另外未完成备案就上传的图片也会在处置之后立即删除,以保护你的隐私。这样一个简单易用的东西突然出现,自然也成了推特等社区网友们手中的造梗利器,人们很快把 AI 带来的想象力发挥到了极限。既然是人工智能的产物,我们自然也要首先用它来「复活」一下祖师爷——现代计算机科学的先驱阿兰 · 图灵。就用那张最经典的照片试一试:
AI 完美还原了图灵充满智慧的眼神。还有什么都说过的鲁迅:
中国第一位女性建筑学家林徽因:
还有更夸张的吗?如果四舍五入的话,罗马时代的雕像也算是人物,为了刁难 AI,有考古学家就运用了雕像的照片制作动图:
他就是公元一世纪时,古罗马帝国的安提诺乌斯(Antinous),我们应该感谢 AI 技术的高超,还是古典时代雕刻的还原度呢?尽管脑补能力惊人,但 Deep Nostalgia 也有其限制:它只能处置单张图象的脸部,所以你无法期待深度进修在这里为你天生一个能走路的木乃伊出来。如果你已经尝试过超过五张图片,则必须备案账户才能继续「创作」。不论如何,这无法阻止人们的脑洞大开。当然对于 Deep Nostalgia 原来的初衷,网友们也表示了感谢。
「我的父亲 29 年前就去世了,当时我才几个月大。这是我第一次见到他动起来的样子,第一次看到他眨眼、微笑……」除了让故人展现不一样的面貌,未来我们能否期待博物馆里的人物向我们讲述他们自己的故事?
可能用到的技术由于 MyHeritage 网站并没有披露这个深度怀旧项目究竟运用了哪些技术,想自己动手的研究者只能给出自己的一些预测。其中,比利时列日大学教授 Gilles Louppe 预测他们是实现了三星 AI 中心 2019 年的一篇论文(《Few-Shot Adversarial Learning of Realistic Neural Talking Head Models》 。
在这篇论文中,三星和 Skolkovo 研究所的研究人员只用少量甚至一张图象或画作就分解了人物开口说话状态的头部动画。
具体来说,研究人员利用了 Few-shot 进修等技术,主要分解头部图象和面部 landmark。Few-shot 进修意味着该模型在仅运用几幅甚至一幅图象的情况下模拟人脸。研究人员运用 VoxCeleb2 视频数据集从事元训练(meta trainning)。在元进修过程中,系统创建了三种神经收集:将帧映射到向量的嵌入器收集、在分解视频中映射面部特征点的天生器收集以及评估天生图象真实性和姿态的辨别器收集。联合三种收集,该系统能在大型视频数据集上执行长时间的元进修过程。待元进修收敛后,就能构建 few-shot 或 one-shot 的神经头像特写模型。该模型将未见过的目标任务视为对抗进修问题,这样就能利用已进修的高质量天生器与辨别器。论文作者表示:「至关重要的一点是,尽管需要调整数千万参数,该系统能够因人而异地初始化天生器和辨别器参数,因此训练可以在仅借助几幅图象的情况下快速完成。这种方法能够快速进修新面孔甚至是人物肖像画和个性化的头像特写模型。」论文地址:https://arxiv.org/pdf/1905.08233.pdf当然,也有人提出了其他想法,认为 NeurIPS 2019 的一篇论文(《First Order Motion Model for Image Animation》)比较接近。
这篇论文完成的任务是:给定一张图片和一个包含一系列行动的驱动视频,然后天生一段新视频,新视频中的人物是源图片中的人物,行动是驱动视频中的行动。
整个模型可以分为两个模块:活动估计模块和图象天生模块。在活动估计模块中,模型通过自监督进修将目标物体的外观和活动信息从事分离,并从事特征表示。而在图象天生模块中,模型会对目标活动期间出现的遮挡从事建模,然后从给定的名人图片中提取外观信息,结合先前获得的特征表示,从事视频分解。
论文链接:https://aliaksandrsiarohin.github.io/first-order-model-website/
项目链接:https://github.com/AliaksandrSiarohin/first-order-model
当然,以上只是两种不同的预测,究竟哪种模型实现效果更稳定、更接近 MyHeritage 的实现效果,还需要大家自己动手尝试。参考内容:https://www.theverge.com/2021/2/28/22306097/ai-brings-still-photos-life-meme-twitter-geneaology-myheritagehttps://mp.weixin.qq.com/s/b8MjrsSt4gNaNMsyHVqe1Q