模型名称 | stable_diffusion |
---|---|
类别 | 多模态-文图生成 |
网络 | CLIP Text Encoder+UNet+VAD |
数据集 | - |
是否支持Fine-tuning | 否 |
模型大小 | 4.0GB |
最新更新日期 | 2022-08-26 |
数据指标 | - |
-
输入文本 "in the morning light,Overlooking TOKYO city by greg rutkowski and thomas kinkade,Trending on artstation."
-
输出图像
- 生成过程
Stable Diffusion是一种潜在扩散模型(Latent Diffusion), 属于生成类模型,这类模型通过对随机噪声进行一步步地迭代降噪并采样来获得感兴趣的图像,当前取得了令人惊艳的效果。相比于Disco Diffusion, Stable Diffusion通过在低纬度的潜在空间(lower dimensional latent space)而不是原像素空间来做迭代,极大地降低了内存和计算量的需求,并且在V100上一分钟之内即可以渲染出想要的图像,欢迎体验。
更多详情请参考论文:High-Resolution Image Synthesis with Latent Diffusion Models
-
-
paddlepaddle >= 2.0.0
-
paddlehub >= 2.0.0 | 如何安装PaddleHub
-
-
-
$ hub install stable_diffusion
- 如您安装时遇到问题,可参考:零基础windows安装 | 零基础Linux安装 | 零基础MacOS安装
-
-
-
$ hub run stable_diffusion --text_prompts "in the morning light,Overlooking TOKYO city by greg rutkowski and thomas kinkade,Trending on artstation." --output_dir stable_diffusion_out
-
-
-
import paddlehub as hub module = hub.Module(name="stable_diffusion") text_prompts = ["in the morning light,Overlooking TOKYO city by greg rutkowski and thomas kinkade,Trending on artstation."] # 生成图像, 默认会在stable_diffusion_out目录保存图像 # 返回的da是一个DocumentArray对象,保存了所有的结果,包括最终结果和迭代过程的中间结果 # 可以通过操作DocumentArray对象对生成的图像做后处理,保存或者分析 # 您可以设置batch_size一次生成多张 da = module.generate_image(text_prompts=text_prompts, batch_size=3, output_dir='./stable_diffusion_out/') # 展示所有的中间结果 da[0].chunks[-1].chunks.plot_image_sprites(skip_empty=True, show_index=True, keep_aspect_ratio=True) # 将整个生成过程保存为一个动态图gif da[0].chunks[-1].chunks.save_gif('stable_diffusion_out-merged-result.gif') # da索引的是prompt, da[0].chunks索引的是该prompt下生成的第一张图,在batch_size不为1时能同时生成多张图 # 您也可以按照上述操作显示单张图,如第0张的生成过程 da[0].chunks[0].chunks.plot_image_sprites(skip_empty=True, show_index=True, keep_aspect_ratio=True) da[0].chunks[0].chunks.save_gif('stable_diffusion_out-image-0-result.gif')
-
-
-
def generate_image( text_prompts, style: Optional[str] = None, artist: Optional[str] = None, width_height: Optional[List[int]] = [512, 512], seed: Optional[int] = None, batch_size: Optional[int] = 1, output_dir: Optional[str] = 'stable_diffusion_out'):
-
文图生成API,生成文本描述内容的图像。
-
参数
- text_prompts(str): 输入的语句,描述想要生成的图像的内容。通常比较有效的构造方式为 "一段描述性的文字内容" + "指定艺术家的名字",如"in the morning light,Overlooking TOKYO city by greg rutkowski and thomas kinkade,Trending on artstation."。prompt的构造可以参考网站。
- style(Optional[str]): 指定绘画的风格,如'watercolor','Chinese painting'等。当不指定时,风格完全由您所填写的prompt决定。
- artist(Optional[str]): 指定特定的艺术家,如Greg Rutkowsk、krenz,将会生成所指定艺术家的绘画风格。当不指定时,风格完全由您所填写的prompt决定。各种艺术家的风格可以参考网站。
- width_height(Optional[List[int]]): 指定最终输出图像的宽高,宽和高都需要是64的倍数,生成的图像越大,所需要的计算时间越长。
- seed(Optional[int]): 随机种子,由于输入默认是随机高斯噪声,设置不同的随机种子会由不同的初始输入,从而最终生成不同的结果,可以设置该参数来获得不同的输出图像。
- batch_size(Optional[int]): 指定每个prompt一次生成的图像的数量。
- output_dir(Optional[str]): 保存输出图像的目录,默认为"stable_diffusion_out"。
-
返回
- ra(DocumentArray): DocumentArray对象, 包含
batch_size
个Documents,其中每个Document都保存了迭代过程的所有中间结果。详细可参考DocumentArray使用文档。
- ra(DocumentArray): DocumentArray对象, 包含
-
-
-
PaddleHub Serving可以部署一个在线文图生成服务。
-
-
运行启动命令:
-
$ hub serving start -m stable_diffusion
-
这样就完成了一个文图生成的在线服务API的部署,默认端口号为8866。
-
NOTE: 如使用GPU预测,则需要在启动服务之前,请设置CUDA_VISIBLE_DEVICES环境变量,否则不用设置。
-
-
-
配置好服务端,以下数行代码即可实现发送预测请求,获取预测结果,返回的预测结果在反序列化后即是上述接口声明中说明的DocumentArray类型,返回后对结果的操作方式和使用generate_image接口完全相同。
-
import requests import json import cv2 import base64 from docarray import DocumentArray # 发送HTTP请求 data = {'text_prompts': 'in the morning light,Overlooking TOKYO city by greg rutkowski and thomas kinkade,Trending on artstation.'} headers = {"Content-type": "application/json"} url = "http://127.0.0.1:8866/predict/stable_diffusion" r = requests.post(url=url, headers=headers, data=json.dumps(data)) # 获取返回结果 r.json()["results"] da = DocumentArray.from_base64(r.json()["results"]) # 保存结果图 da[0].save_uri_to_file('stable_diffusion_out.png') # 将生成过程保存为一个动态图gif da[0].chunks[0].chunks.save_gif('stable_diffusion_out.gif')
-
-
1.0.0
初始发布
$ hub install stable_diffusion == 1.0.0