Dataset_Maker_for_Galgames

从Galgame中提取人物语音和对应文本用于制作SVC/TTS项目的数据集。
Extract character voice and corresponding text from Galgame to create a dataset for SVC/TTS projects.

1. 项目简介

本仓库用于提供从Galgame中提取人物语音和对应文本用于制作SVC/TTS项目的数据集的经验分享与一些辅助脚本。同时也作为个人的解包记录。不过虽说名为Galgame，但可能包含的游戏实际上并不属于Galgame。
本文档为大致的介绍与使用说明。与此同时，每个脚本内也会含有对应的注释。一个成熟的创作者应该学会自己看代码了（逃）
本仓库可能不会提供游戏的解包工具的可执行文件（但会尽量给出源码的链接）或者游戏本体。请利用搜索引擎自行寻找途径。

由于文件体积的原因，本仓库也不会提供解包后的音频文件。请自行解包。部分数据集会传至huggingface.co。但是，本仓库会提供解包方法和用于制作TTS项目数据集所需要的标注文件。具体请在对应文件夹下的README.md中查看。

2. 在开始之前你需要具备：

基础的计算机操作能力。如：如何解压文件，如何运行一个python文件。
基础的计算机知识。如：文件夹，文件，绝对路径，相对路径，终端。
运用搜索引擎的能力。请合理使用搜索引擎，如：Google，Bing，百度。同时，一些社区也会提供很多有用的信息，如：GitHub，百度贴吧。
一些基础的代码阅读能力。并不意味着需要读懂每一句代码，只需要在需要的时候结合注释看懂代码干了什么即可。本仓库的脚本都非常简单，而且会尽可能带有详细的注释。
一些大语言模型也可以提供一些帮助，如：GPT-4，通义千问。这些模型在处理简单的代码时会很好用。
一些基础的英语阅读能力或翻译网站（推荐）

3. 项目结构

由于游戏引擎不同，封包方式也不同。因此，本仓库会根据不同的游戏引擎进行分类，请进入对应的文件夹进行查看。
与此同时，有一些通用的脚本会放在根目录下。

Text_Cleaner.py

用于清理文本中的特殊字符，比如~ ♪ 　 （ ） \n等。这些字符会影响TTS的处理。
与此同时，该脚本还会筛选去除一些不适合作为数据集的文本。比如含有奇怪叫声（毕竟是Galgame）的语音以及包含其它语言的文本。
你可以根据自己的需要修改这个脚本来适配不同游戏。
输入：

绝对路径：包含所有待处理.json文件的文件夹的路径。
其中，所有json文件是由对应游戏的解包工具生成的，格式为{"File": "xxx", "Text": "xxx", "Name": "xxx"}。你可以进入任何一个子文件夹进行查看。对于每个游戏，我会尽量提供制作好的json文件。

输出：

将直接对原文件进行操作。调试时请注意备份！

Dataset_Maker.py

这个脚本的主要功能是从指定的目录中读取JSON文件，并根据这些JSON文件中的信息，从另一个指定的目录中复制音频文件，然后将这些音频文件转换为.wav格式并重采样到44100hz。同时，它还会创建一个与原音频同名的.lab文件，作为标注文件。
可以直接用于Fish_Speech项目的数据集制作。https://github.com/fishaudio/fish-speech

List_Generator.py

用于生成列表文件。这个文件可以用于训练模型。
调整参数以输出适合GPT_Sovits项目https://github.com/RVC-Boss/GPT-SoVITS 和 Bert_VITS2项目。https://github.com/fishaudio/Bert-VITS2

Name		Name	Last commit message	Last commit date
Latest commit History 50 Commits
.idea		.idea
[ANIPLEX.EXE]亚托莉_ATRI		[ANIPLEX.EXE]亚托莉_ATRI
[KEY]小镇家族_CLANNAD		[KEY]小镇家族_CLANNAD
[KEY]时廻者_LOOPERS		[KEY]时廻者_LOOPERS
[KEY]星之终途_Stella_of_The_End		[KEY]星之终途_Stella_of_The_End
[KEY]雪之少女_KANON		[KEY]雪之少女_KANON
[KEY]青空_AIR		[KEY]青空_AIR
[Sphere]悠之空_Haruka_na_Sora		[Sphere]悠之空_Haruka_na_Sora
[Sphere]缘之空_Yosuga_no_Sora		[Sphere]缘之空_Yosuga_no_Sora
[craftegg]世界计划_Project_Sekai		[craftegg]世界计划_Project_Sekai
[craftegg]少女乐团派对_BanG_Dream		[craftegg]少女乐团派对_BanG_Dream
[minori]伊甸_Eden		[minori]伊甸_Eden
[yuzusoft]千恋万花_Senren_Banka		[yuzusoft]千恋万花_Senren_Banka
[yuzusoft]星光咖啡馆与死神之蝶_Cafe_Stella		[yuzusoft]星光咖啡馆与死神之蝶_Cafe_Stella
[yuzusoft]谜语小丑_Riidle_Joker		[yuzusoft]谜语小丑_Riidle_Joker
[yuzusoft]魔女的夜宴_Sabbat_of_the_Witch		[yuzusoft]魔女的夜宴_Sabbat_of_the_Witch
[枕]向日葵的教会与长长的暑假_Himawari_no_Kyoukai_to_Nagai_Natsuyasumi		[枕]向日葵的教会与长长的暑假_Himawari_no_Kyoukai_to_Nagai_Natsuyasumi
[枕]樱之刻_Sakura_no_Toki		[枕]樱之刻_Sakura_no_Toki
[枕]樱之诗_Sakura_no_Uta		[枕]樱之诗_Sakura_no_Uta
[零创游戏]饿殍：明末千里行_The_Hungry_Lamb		[零创游戏]饿殍：明末千里行_The_Hungry_Lamb
pictures		pictures
utils		utils
Dataset_Maker.py		Dataset_Maker.py
List_Generator.py		List_Generator.py
README.md		README.md
Text_Cleaner.py		Text_Cleaner.py
Voice_Cleaner.py		Voice_Cleaner.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Dataset_Maker_for_Galgames

1. 项目简介

2. 在开始之前你需要具备：

3. 项目结构

About

Releases

Packages

Languages

KitsuneX07/Dataset_Maker_for_Galgames

Folders and files

Latest commit

History

Repository files navigation

Dataset_Maker_for_Galgames

1. 项目简介

2. 在开始之前你需要具备：

3. 项目结构

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages