时间:2024/5/28 12:57:44来源:www.a300.cn作者:佚名我要评论(0)
🔍 最新的对话形象生成模型在实现与音频的逼真准确的唇同步方面取得了进展,但在控制和传达形象的细节表情和情感方面仍有不足。
🔍 InstructAvatar 提供了对情感和面部动作进行细粒度控制的文本引导方法,为生成具有情感表达的2D 虚拟形象提供了改进的互动性和泛化能力。
🔍 实验结果表明,InstructAvatar 在细粒度情感控制、口型同步质量和自然性方面优于现有方法,能指定面部的表情和动作。
站长之家(ChinaZ.com) 5月28日 消息:最近,对话形象生成模型在实现与音频的逼真准确口型同步方面取得了进展,但在控制和传达形象的细节表情和情感方面仍有不足,使生成的视频缺乏生动性和可控性。
因此,北京大学的研究团队提出了一种名为 InstructAvatar 的新颖方法,通过自然语言界面来控制虚拟形象的情感和面部动作,从而提供了对生成的视频进行细粒度控制的能力。InstructAvatar可实现的效果包括:
通过自然语言输入控制头像的情绪和面部动作。
利用一个自动注释管道构建训练数据集,使得头像可以根据文本指令和音频进行生成。
生成的头像能够准确同步口型,表情自然且生动。
相比于现有方法,在细粒度情绪控制、口型同步质量和自然度方面有更好的表现。
InstructAvatar 的框架包括两个组件:变分自动编码器(VAE)和基于扩散模型的动作生成器。VAE 用于将动作信息从视频中解耦,并根据音频和指令生成器生成的动作潜变量来生成最终的视频。在推理过程中,通过迭代去噪高斯噪声来获取预测的动作潜变量,并结合用户提供的肖像,使用 VAE 的解码器生成最终的视频。
通过与基线模型的定性比较,可以看出 InstructAvatar 在唇同步质量和情感可控性方面取得了良好的效果。此外,模型生成的结果具有增强的自然性,并有效地保留了身份特征。
值得一提的是,该模型仅基于文本输入推断说话的情感,这在直观上提出了一个更具挑战性的任务。模型支持更广泛的指令范围,超出了大多数基线模型的范围。
此外,该模型展现了精确的情感控制能力,并生成了自然的结果。InstructAvatar 具有细粒度的控制能力,并在领域之外的场景中表现出良好的泛化能力。
项目入口:http://top.aibase.com/tool/instructavatar
相关视频
相关阅读 【德扑葫芦比对子大小吗】下载方法和评测汇总2024年虚拟人聊天系统Live2D 利用ChatGPT+对口型打造你自己的AI女友苹果刀法升级!iPhone 17 Plus尺寸缩小 与Pro Max拉开差距EMO同款?微软发布对口型软件VASA-1 图片加语音即可生成逼真说话“天玑变骁龙”!iQOO Neo9S Pro入网内存惊喜!iPhone SE4配置曝光:苹果换上OLED屏、后置单摄Heygen又一竞争对手?数字人克隆工具Digen AI 可同时保持手势、口发誓反超台积电!Intel 18A 2026年才能大规模量产
热门文章 比对口型还牛!Instru百度推荐开通使用图文360视频快看怎么用
最新文章
比对口型还牛!Instru微信转账记录被删除,
人工智能电视指的是什么 人工智能电视和普通人生日历实测--不仅仅只是日历游戏优化大师——高级工具的妙用(1)每一站都精彩 PP安卓助手带你玩转手机生活
人气排行 教你用FileZilla Server架设FTP服务器给视频添加音乐背景 QQ影音合并巧帮忙QQ传美版好处有哪些?mindmanager使用技巧:快捷键PP助手(Win)版1.0.6.4发布 优化多项管理操正宗笔画输入法四种输入风格使用介绍驱动人生怎样安装驱动程序?快拍二维码怎么用
查看所有0条评论>>