GPT4V-Image-Captioner / GPT4V图像打标器

现在我们有SDwebUI插件版本sd-webui-GPT4V-Image-Captioner。
使用Godot引擎制作的重制应用程序VLMCaption-TagCraft，无需python，打包为单个应用程序文件，有Linux与Win双端。目前已经适配了常用的线上API。

这是一款使用 Gradio 构建，可使用GPT-4-vision API、阿里云通义千问VL、Moondream模型或 CogVLM模型进行图像打标的多功能图像处理工具箱。特色功能包括：

一键安装及使用
单图反推及批量打标功能
云端 GPT4V 或 Claude 3 及阿里云通义千问VL & 本地 CogVLM 或 Moondream双模型可选
可视化标签分析与处理
图像分桶预压缩
关键词筛查及水印图像识别
图像自定义识别分类

开发者: Jiaye, LEOSAM是只兔狲, SleeeepyZhou, Fok, GPT4。欢迎有兴趣的朋友加入，对本项目进行进一步的完善改进。

要使用Claude 3，只需将API密钥和URL替换为Claude 3的API密钥和URL (/v1/messages)，并将模型名称更改为"claude-3-opus"（或sonnet）。

安装和启动指南

Windows（如自动安装失败，请参考手动安装说明）

以管理员权限打开命令提示符，并导航到您想要克隆仓库的目录。

使用以下命令克隆仓库：

git clone https://github.com/jiayev/GPT4V-Image-Captioner

双击 install_windows.bat 运行，并安装所有必要的依赖项。
安装完成后，您可以通过双击 start_windows.bat来在终端中启动GPT4V-Image-Captioner。
按住ctrl并点击终端中的URL地址（或复制URL地址在浏览器打开），将在默认浏览器中跳转打开Gradio应用界面。
请在界面最上方输入OpenAI官方或者第三方的GPT-4V API Key与API Url，设置图像地址后，就可以图像打标了。

Linux / macOS

使用以下命令克隆仓库：

git clone https://github.com/jiayev/GPT4V-Image-Captioner

导航到克隆的目录：
```
cd GPT4V-Image-Captioner
```
使用以下命令使安装脚本和启动脚本变为可执行：
```
chmod +x install_linux_mac.sh; chmod +x Start_linux_mac.sh
```
执行安装脚本：
```
./install_linux_mac.sh
```
在终端中执行启动脚本来启动GPT4V-Image-Captioner。
```
./start_linux_mac.sh
```
复制终端中显示的URL地址，在浏览器中打开Gradio应用界面。
请在界面最上方输入OpenAI官方或者第三方的GPT-4V API Key与API Url，设置图像地址后，就可以图像打标了。

Windows 手动安装说明

按 Win + R 打开命令提示符。键入 cmd 然后按 Enter 。

使用下面的命令克隆仓库至本地：

git clone https://github.com/jiayev/GPT4V-Image-Captioner

克隆完成后，切换到克隆的目录中：
```
cd GPT4V-Image-Captioner
```
在安装依赖库之前，在命令提示符中输入以下命令并按 Enter 来检查是否电脑已经安装了 Python：
```
python --version
```
如果未安装，会显示错误信息。请访问 Python 官方下载页面并按照指示进行安装。
创建一个名为 myenv 的虚拟环境以避免污染全局 Python 环境：
```
python -m venv myenv
```
激活你刚创建的虚拟环境：
```
myenv\Scripts\activate
```
更新 pip至最新版本：
```
python -m pip install --upgrade pip
```

在虚拟环境中安装 requests、gradio 、 tqdm 等库：

pip install scipy networkx wordcloud matplotlib Pillow tqdm gradio requests

完成上述步骤后，可通过双击 Start_windows.bat 文件来启动 GPT4V-Image-Captioner。

更新内容

2024年1月6日

更智能的一键安装: 增加了更智能的一键安装 (install_windows.bat) 功能，国内的小伙伴不用再看着pip十几kb慢慢爬了，更加国际化(×，简化了程序的安装。
CogVLM支持: 增加了CogVLM模型的一键安装以及切换页面，没有GPT4的小伙伴也可以靠本地多模态快乐玩耍了（穷哥们狂喜。

2024年1月2日

一键安装和一键启动: 增加了一键安装 (install_windows.bat / install_linux_mac.sh) 和一键启动 (Start_windows.bat / Start_linux_mac.sh) 功能，简化了程序的安装和启动过程。
环境说明补充: 补充了在Windows和Linux环境下程序的安装和启动说明。

2024年1月1日

运行加速: 提高了程序的打标速度。现在可以在2-3秒内完成一张图片的标注。
标签处理: 对于已有标签的图像文件，提供了以下不同处理选项："覆盖", "前置插入", "结尾追加" 和 "跳过"。
子文件夹处理: 新程序能够处理文件夹及其子文件夹中的所有图像文件，支持的图像格式包括：'.png', '.jpg', '.jpeg', '.webp', '.bmp', '.gif', '.tiff', '.tif'。
程序中断: 增加了在批量打标签过程中中断打标的功能。
报错筛查: 可以根据关键词，将所有GPT标记失败的图像（例如NSFW内容）移动到新的文件夹中。
本地化: 增加了对中文的支持。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README-CN.md

README-CN.md

GPT4V-Image-Captioner / GPT4V图像打标器

安装和启动指南

Windows（如自动安装失败，请参考手动安装说明）

Linux / macOS

Windows 手动安装说明

更新内容

2024年1月6日

2024年1月2日

2024年1月1日

Files

README-CN.md

Latest commit

History

README-CN.md

File metadata and controls

GPT4V-Image-Captioner / GPT4V图像打标器

安装和启动指南

Windows（如自动安装失败，请参考手动安装说明）

Linux / macOS

Windows 手动安装说明

更新内容

2024年1月6日

2024年1月2日

2024年1月1日