BATS: Bridging Acoustic Transparency in Speech

El reconocimiento de voz se basa en representaciones de señales acústicas, como espectrogramas y MFCCs. Sin embargo, los modelos actuales son en gran medida opacos en cuanto a cómo toman decisiones en este proceso. La naturaleza física de los datos de entrada en el reconocimiento de voz agrega una capa adicional de complejidad, lo que plantea el desafío de mejorar la transparencia y la comprensión de estos modelos para garantizar un reconocimiento de voz más preciso y confiable

Objetivo

El objetivo principal de esta investigación es incorporar explicabilidad a un modelo robusto dedicado a la tarea de reconocimiento de voz mediante métodos post-hoc. Como alternativa, se podría considerar el diseño de un modelo más sencillo y, por lo tanto, más interpretable, que, en un contexto específico de interés, alcance un rendimiento comparable al de los modelos complejos actuales.

Uso

Para ejecutar el código de este repositorio se necesita Python 3.10 y las dependencias especificadas en el archivo requirements.txt. Se recomienda el uso de un entorno virtual para evitar conflictos con otras versiones de las dependencias.

conda create -n bats python=3.10
conda activate bats
pip install -r requirements.txt

Los metodos de explicabilidad se encuentran en la carpeta src/models.

se incluyen los jupyter notebooks slime.ipynb y representation_erasure.ipynb que contienen ejemplos de uso de los metodos de explicabilidad.

Name		Name	Last commit message	Last commit date
Latest commit History 82 Commits
old_files		old_files
paper		paper
slides		slides
src		src
tmp		tmp
.gitignore		.gitignore
README.md		README.md
representation_erasure.ipynb		representation_erasure.ipynb
requirements.txt		requirements.txt
slime.ipynb		slime.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

BATS: Bridging Acoustic Transparency in Speech

Objetivo

Uso

About

Releases

Packages

Contributors 3

Languages

ftcister/BATS

Folders and files

Latest commit

History

Repository files navigation

BATS: Bridging Acoustic Transparency in Speech

Objetivo

Uso

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages