华为发布 DiT 架构的图像生成模型，可以直出 4K 分辨率图像。论文简介：我们引入了 PixArt-\Sigma,一个能够直接生成 4K 分辨率图像的 Diffusion Transformer (Diffusion Transformer, DiT) 模型。相比其前身 PixArt-\alpha,PixArt-\Sigma…

发布时间: 2024-03-08 15:01:42

2分

数据加载中

关注推特

收听电报

3

2

1

华为发布 DiT 架构的图像生成模型，可以直出 4K 分辨率图像。
论文简介：
我们引入了 PixArt-\Sigma,一个能够直接生成 4K 分辨率图像的 Diffusion Transformer (Diffusion Transformer, DiT) 模型。相比其前身 PixArt-\alpha,PixArt-\Sigma…
IT技术
( twitter.com )

8个月前由歸藏提交

华为发布 DiT 架构的图像生成模型，可以直出 4K 分辨率图像。

论文简介：

我们引入了 PixArt-\Sigma,一个能够直接生成 4K 分辨率图像的 Diffusion Transformer (Diffusion Transformer, DiT) 模型。相比其前身 PixArt-\alpha,PixArt-\Sigma 有了显著进步,提供了明显更高保真度的图像,并改进了与文本提示的一致性。

PixArt-\Sigma 的一个关键特点是其训练效率。借助 PixArt-\alpha 的基础预训练,它通过合并更高质量的数据,从"较弱"的基线演变为"较强"的模型,我们将这个过程称为"弱到强训练"。PixArt-\Sigma 的进步主要体现在两个方面:

高质量训练数据:PixArt-\Sigma 结合了更高质量的图像数据,与更精确和详细的图像标题配对。

高效的 Token 压缩:我们在 DiT 框架内提出了一个新的注意力模块,可以压缩键 (Key) 和值 (Value),显著提高效率,并促进超高分辨率图像生成。

得益于这些改进,PixArt-\Sigma 以显著较小的模型规模 (6 亿参数) 实现了优于现有文本到图像扩散模型 (如 SDXL (26 亿参数) 和 SD Cascade (51 亿参数)) 的图像质量和用户提示遵从能力。

此外,PixArt-\Sigma 生成 4K 图像的能力支持创建高分辨率海报和壁纸,有效地增强了电影和游戏等行业中高质量视觉内容的制作。

项目地址：https://t.co/dqDlEHBayn

点击图片查看原图

点击图片查看原图

点击图片查看原图

点击图片查看原图

Markdown支持

评论加载中...

您可能感兴趣的：更多

1

2

1

1

我大鹅厂也开始开源了，希望别烂尾。
腾讯正式公布，旗下混元文生图大模型已完成升级，并对外开源。
此次升级的模型采用了与Sora相同的DiT架构，不仅能够支持文生图，也能作为视频等多模态视觉生成的基础。
这是业界首个中文原生的DiT架构文生图开源模型，支持中英双语输入及理解，15亿参数。
时政
( twitter.com)

6个月前 • Leo Xiang • -- 点击 0 评论

2

2

1

1

大的来了！！ Luma 发布 DIT 视频生成模型 Dream Machine。
图生视频的表现相当惊艳，绝对是电影级表现。
分辨率、运动幅度、美学表现都是非常牛批，现在可以免费使用。
IT技术
( twitter.com)

5个月前 • 歸藏(guizang.ai) • -- 点击 • 下载视频 0 评论

00:00:33

3

2

1

1

今天 Meta 发布了 Segment Anything

用于图像分割的大模型，SAM 学会了物体的一般概念，它可以为任何图像或视频中的任何物体生成掩码，包括训练中没有遇到过的类型…
推特中文圈
( twitter.com)

1年前 • indigo • -- 点击 0 评论

4

2

1

1

【大模型物种进化图，原来BERT后代已绝种】根据论文，大模型发展主要可以分为两类，作者们将它命名为“BERT派”和“GPT派”：“BERT派”的特征是模型中有编码器架构，具体分为“编解码器”和“只有编码器”两类架构；“GPT派”则主张扔掉编码器，架构中“只有解码器”。
大陆资讯
( www.qbitai.com)

1年前 • 拉拉么 • -- 点击 0 评论

5

2

1

1

Google已经推出了7门关于生成型AI的免费课程🔥

每门课程都可以在1天内完成：

- 生成型AI简介
- 语言学习模型简介
- 注意力机制
- Transformer模型与BERT
- 图像生成简介
- 创建图像字幕模型
-…
IT技术
( twitter.com)

1年前 • GPTDAOCN • -- 点击 0 评论

6

2

1

1

前几天在推特刷屏的基于LCM和SDXL Turbo每秒生成110张图像的项目居然开源了，有想做相关实时图像生成产品的可以关注一下。
StreamDiffusion是一种扩散模型管道，主要是为了实时图像生成服务的，为实时图像生成提供了显著的性能增强。
支持的模型和输出帧率：…
IT技术
( twitter.com)

11个月前 • 歸藏 • -- 点击 • 下载视频 0 评论

00:00:11

7

2

1

1

DynamicWang 的新模型AWPortrait1.1即将在6月发布，这个模型可以生成高质量摄影风格的图片，期待！😊
可以在DynamicWang的C站页面查看他的作品和模型：…
IT技术
( twitter.com)

1年前 • sundyme • -- 点击 0 评论

8

2

1

1

今天在看一个硅谷VC的投资方法论，来自menlo ventures，4月27日发布

生产就绪的 AI 基础工具现在可供公司使用，就像乐高积木一样，以构建以前根本不可能实现的类别定义消费产品。分为7大类：

语言模型，图像生成，视…
IT技术
( twitter.com)

1年前 • Will 3.6-6.16 硅谷 • -- 点击 0 评论

9

2

1

1

#AI开源项目推荐：AnimateDiff

这是一个高效框架，能进一步将生成的静态图像生成动画。

项目摘要

随着像 Stable Diffusion 这样的文本转图像模型及 LoRA 和 DreamBooth…
IT技术
( twitter.com)

1年前 • 宝玉 • -- 点击 • 下载视频 0 评论

00:00:13

0.12468 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特