本文作者:独特魅力

EMO同款?谷歌推对口型视频工具VLOGGER 还具备视频编辑功能

独特魅力 03-14 103
EMO同款?谷歌推对口型视频工具VLOGGER 还具备视频编辑功能摘要: 雷达财经出品文李亦辉编深海港股整体承压的背景下美团等权重股也大幅走低月日美团股价下跌盘中最低点港元股已跌破年月日的上市发行价港元股创逾年低点月日消息科技...

雷达财经出品文|李亦辉编|深海港股整体承压的背景下,美团等权重股也大幅走低。1月17日,美团股价下跌6.97%,盘中最低点68.15港元/股已跌破2018年9月20日的上市发行价69港元/股,创逾4年低点。

3月14日 消息:科技巨头们正在竞相开发能够从单张照片生成会说话的人类视频的技术。继阿里巴巴推出其EMO项目后,Google也推出了类似的项目。这项技术基于文本和驱动音频,能够从单张照片生成会说话的人类视频。

项目地址:

论文地址:https://arxiv.org/pdf/2403.08764.pdf

VLOGGER的独特之处在于:

EMO同款?谷歌推对口型视频工具VLOGGER 还具备视频编辑功能

不需要针对每个人进行训练。这意味着无需为每个个体创建专门的模型,大大降低了数据需求。

不依赖于面部检测和修剪。这使得VLOGGER能够在没有清晰的面部轮廓或面部特征的情况下工作。

生成完整的图像(而不仅仅是面部或嘴唇)。这为生成更自然、更真实的视频提供了可能。

考虑了一系列广泛的场景(例如,可见的躯干或多样化的身份特征),这对于正确合成交流的人类至关重要。

然而,尽管VLOGGER在技术上有其独特之处,但根据演示视频来看,其效果似乎不如阿里巴巴的EMO好。这可能是由于EMO在面部表情和动作的合成上更为精细。

除了生成新的视频,VLOGGER还具有编辑现有视频的能力。例如,它可以改变主题的表情,或者调整嘴巴和眼睛的闭合状态,从而改变视频的情绪和信息传递。

在视频翻译方面,VLOGGER也可以取一个特定语言的现有视频,并编辑唇部和面部区域以适应新的音频。例如,可以将一段英语视频的唇部和面部区域编辑,使其看起来像是在说西班牙语。

总的来说,VLOGGER是Google在人工智能领域的又一重要突破,它展示了从单张照片生成会说话的人类视频的可能性,同时也提供了视频编辑和翻译的新工具。然而,与阿里巴巴的EMO相比,VLOGGER在视频生成的效果上还有待提升。

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享