分享
Flux NF4过时了?最新量化版GGUF来了,6G显存也能跑
输入“/”快速插入内容
Flux NF4过时了?最新量化版GGUF来了,6G显存也能跑
飞书用户5407
2024年9月11日修改
如何在本地部署Flux.1 dev GGUF工作流。
Flux.1 dev GGUF工作流
下载链接:
https://pan.quark.cn/s/9b9ca6344856
1.
如果你有 16G 以及以上的显存,那么官方模型肯定是最好的选择,它们的性能和生图质量是最好的;
2.
其次是 fp8 模型,比原版模型小很多,8G 显存可运行,且关键的文本、细节生成质量没有明显下降;
3.
然后是 @lllyasviel 张吕敏大神发布的 NF4 量化版本。模型变得更小了,生成速度更快,如果在 WebUI forge 中使用共享模式运行,6G 显存也能带动。目前有 v1 和 v2 两个版本,v2 在细节和速度上更优;
4.
最后是 @City96 开发的 3 个 GGUF 量化版本。其中 Q8 的出图效果、速度都优于 fp8,需要 12GB 以上的显存;而 Q4 版本 8G 显存就能带动,生成质量比 NF4 好一些。
5.
注意:这些量化版本的使用许可与原版模型是一致的,即 Dev 不可商用,Schnell 可以商用。
6.
目前开源社区有两个 fp8 模型,它们的名称一样,但大小和加载方法是不一样的:一个由 @ kijai 开发,11.9 GB,在comfyui 中加载时需要配备 clip、vae等模型,适合原版工作流;另一个是 ComfyUI 官方开发的,17.2GB,融合了 clip、vae 等模型,可直接作为普通大模型使用,工作流更简单。为了方便区分,大家最好下载后重新命名,比如 flux1-dev-fp8-kijai 和 flux1-dev-fp8。
一、GGUF简介
GGUF,全称GPT-Generated Unified Format,是一种为大型语言模型设计的二进制文件格式。由llama.cpp创始人Georgi Gerganov提出,优化了数据结构和编码方式,显著提升了模型文件的存储效率和加载性能。
下载地址:
https://github.com/XLabs-AI/x-flux-comfyui
在Github上,XLabs-AI官方也推荐在低内存环境下使用GGUF格式。
二、Flux.1 dev GGUF工作流部署
以一个典型的ComfyUI Flux.1 dev GGUF工作流为例,详细说明部署步骤。
•
插件安装
插件地址:
https://github.com/city96/ComfyUI-GGUF
可以手动安装或者在管理器安装
•
模型下载
下载地址:
https://github.com/XLabs-AI/x-flux-comfyui
https://huggingface.co/city96/FLUX.1-dev-gguf/tree/main
但是首页上这么多模型我们该下载哪个呢,经过网络上各个大佬的测评得出的比较推荐的有Q40和Q80的两个模型