谷歌也发布了一个根据输入图片和音频就能生成对应人物讲话视频的项目VLOGGER。看起来没有阿里那个自然。项目简介：它可以根据一张人物图像,生成由文本和音频驱动的说话人视频。该方法建立在最近生成式扩散模型取得成功的基础之上。VLOGGER 包含两个关键组件:1) 一个随机的人体到 3D…

发布时间: 2024-03-14 12:41:11

1分

数据加载中

关注推特

收听电报

2

1

0

谷歌也发布了一个根据输入图片和音频就能生成对应人物讲话视频的项目VLOGGER。看起来没有阿里那个自然。
项目简介：
它可以根据一张人物图像,生成由文本和音频驱动的说话人视频。该方法建立在最近生成式扩散模型取得成功的基础之上。
VLOGGER 包含两个关键组件:
1) 一个随机的人体到 3D…
IT技术
( twitter.com )

8个月前由歸藏提交

谷歌也发布了一个根据输入图片和音频就能生成对应人物讲话视频的项目VLOGGER。看起来没有阿里那个自然。

项目简介：

它可以根据一张人物图像,生成由文本和音频驱动的说话人视频。该方法建立在最近生成式扩散模型取得成功的基础之上。

VLOGGER 包含两个关键组件:

1) 一个随机的人体到 3D 运动的扩散模型;

2) 一个创新的基于扩散的架构,通过时间和空间控制来增强文本到图像模型的能力。

这种方法可以生成高质量、可变长度的视频,并且可以通过人脸和身体的高级表示进行便捷控制。

与之前的工作相比,我们的方法具有以下优势:不需要为每个人单独训练模型;不依赖人脸检测和裁剪;能生成完整的图像(而非仅限于脸部或嘴唇);适用于广泛场景(如躯干可见或身份多样化),这对于正确合成具有沟通能力的虚拟人至关重要。

项目地址：https://t.co/gy2xKKcBdZ

Markdown支持

评论加载中...

您可能感兴趣的：更多

1

2

1

1

OpenAI 发布 gpt-4o-audio-preview 模型
主要功能包括：
- 根据文本生成语音响应。
- 分析音频输入的情感、语调和音调。
- 支持语音到语音的互动，音频既可以作为输入也可以作为输出。
与Realtime API的区别：
时政
( twitter.com)

1个月前 • 小互 • -- 点击 • 下载视频 0 评论

00:00:10

2

2

1

1

WonderJourney：是一个由斯坦福大学和谷歌合作开发的项目。
它能够根据用户提供的文本描述或图片，自动生成一系列3D场景的连续画面。
这些场景不仅多样化，而且彼此之间还能紧密衔接，形成一种虚拟的“奇妙旅程”场景。
而且你只需要输入一段描述或上传一张图片即可...
主要功能特点：…
IT技术
( twitter.com)

11个月前 • 小互 • -- 点击 • 下载视频 0 评论

00:01:31

3

2

1

1

微软刚刚发布了 VASA-1。
这款人工智能能让单个图像唱歌，并能根据音频参考资料表情丰富地说话。类似于阿里巴巴的 EMO
来自个疯狂的例子
1. 蒙娜丽莎说唱狗仔队
IT技术
( twitter.com)

7个月前 • Will • -- 点击 • 下载视频 0 评论

00:00:22

4

2

1

1

兄弟们，这个模型很强大！👍🏻
M2UGen：多模态音乐理解和生成模型
该模型由腾讯与新加坡国立大学开发，M2UGen能够理解各种音乐，包括风格、演奏乐器、表达的情绪情感等，并进行音乐问答。
而且还能根据文本、图像、视频和音频生成各种音乐，同时对生成的音乐也能理解并根据文字描述对音乐进行编辑。…
IT技术
( twitter.com)

11个月前 • 小互 • -- 点击 • 下载视频 0 评论

00:04:35

5

2

1

1

LEGO：一个由字节跳动和复旦大学研发的多模态理解和图像定位模型。
LEGO能够处理和理解多种类型的输入，支持图像、音频和视频输入，并对这些信息进行分析和理解。
模型还具备精准定位的能力。例如在图像中标识出物体的具体位置，在视频中指出特定事件发生的时间点，在音频中识别出特定声音的来源。…
IT技术
( twitter.com)

10个月前 • 小互 • -- 点击 • 下载视频 0 评论

00:01:13

6

2

1

1

谷歌展示Genie模型：一张草图就能生成一个2D游戏
大陆资讯
( www.thepaper.cn)

9个月前 • 不炒作会死 • -- 点击 0 评论

7

2

1

1

卧槽！阿里又tm 整了个大活，输入图片和音频就可以生成富有表现力的视频，并且嘴型是可以跟声音匹配的。
要是配合AI把衣服脱了，然后加上很内个的语音，不敢想有多火
时政
( twitter.com)

9个月前 • hristo • -- 点击 • 下载视频 0 评论

00:00:40

8

2

1

1

怎么免费使用谷歌搜索里的图片

谷歌搜索到的图片大多有版权限制，不能随意使用。所以这个叫做 Imgartfis 的浏览器插件，想出了一个绝妙的解决办法：

你在谷歌里搜索一个图片，插件按照你的搜索关键词，用 AI 立马给你生成“免…
IT技术
( twitter.com)

1年前 • 倪爽 • -- 点击 0 评论

9

2

1

1

#AI开源项目推荐#：AudioGPT
这是一个借助大语言模型（LLM）处理音频的工具，可以：
- 生成音乐 🎶
- 背景音效 🎵
- 音频生成字幕 🎤
- 文字生成音频 🗣️
- 文字生成音频并模拟声音 📢
- 根据图片生成音频…
推特中文圈
( twitter.com)

1年前 • 宝玉 • -- 点击 0 评论

0.24747 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特