Transcription automatique avec Whisper AI (en local / en ligne)
Vous avez le choix entre deux options :
- soit installer whisper directement sur votre machine (en local, donc) si vous disposez d’un émulateur PYTHON.
- soit (et c’est ce que j’utilise moi) utiliser un émulateur PYTHON en ligne (gg colaboratory).
Télécharger ce projet en cliquant sur < > Code > Download ZIP
(Comme montré ci-dessous) :
Whisper est un logiciel libre de OpenAI. La configuration proposée ci-dessous respecte le cadre de la RGDP puisque les transcriptions sont réalisées en “local.”
Fichiers à télécharger puis installer :
-
python 3.11
- https://www.python.org/downloads/release/python-3110/
- Prendre Windows installer (64-bit)
- https://www.python.org/ftp/python/3.11.0/python-3.11.0-amd64.exe
-
ffmpeg
-
git
- https://git-scm.com/download/win
- prendre la version 64-bit Git for Windows Setup
- laisser coché tout tel quel pendant l’installation
-
pycharm : à installer en dernier
- https://www.jetbrains.com/fr-fr/pycharm/download/download-thanks.html?platform=windows&code=PCC
- prendre pycharm-community-2023.2.51.2
- Lancer pycharm
- Créer un nouveau projet pour toutes les transcriptions par whisper :
- Donner un nom rappelant sa fonction : « whisper », « transcrire », etc.
- Vérifier que venv est coché
- Clic droit sur le dossier
.venv > New > Python File
, nommez le fichier main.py, par exemple.- Copier le contenu d'autoTranscript/main.py et collez-le dans le .venv/main.py que vous venez de créer
- Dans le fichier .venv/main.py, si whisper est souligné en rouge :
- Ouvrir le terminal de l’environnement virtuel venv
- Recopier et entrer :
pip install git+https://github.com/openai/whisper.git
C'est possible que vous ayez un problème avec numpy, pour le régler, faites:
pip install numpy<2
Attention ! Le chemin et le nom des fichiers ne doivent pas comporter d'espaces, d'accents ou tout autres caractères spéciaux.
Privilégiez des_
ou des-
pour remplacer les espaces.
- Télécharger et installer Audacity :
- Audacity
- Choisir : 64 bit installer (recommended).
- Ouvrir Audacity.
- Vérifier que ffmpeg est disponible (une seule fois) :
- Cliquer sur
Edition > Préférences > Bibliothèques
. - Bibliothèque FFmpeg : cliquer sur Localiser... puis, si nécessaire, sur Téléchargement.
- Cliquer sur
- Glisser la vidéo sur l’écran d’Audacity.
Fichier > exporter l’audio
: exporter en mp3.
- Ouvrir PyCharm, et le projet pour Whisper.
- Aller dans le dossier .venv (environnement virtuel), le sous-dossier du projet.
- Ce script a besoin qu'on lui donne 2 paramètres d'entrées :
- Le chemin vers le dossier où sont stockés les enregistrements :
- Dans
Run > Edit Configurations
, remplissez le champ "Script Parameters" avec le chemin de votre dossier (par exemple "C:\Users\admin\Documents\audio") - Cliquez sur le bouton
Apply
puisOK
- Pour récupérer le chemin du dossier : clic droit sur la barre du dossier contenant le fichier mp3, puis choisir Copier l’adresse sous forme de texte.
- Dans
- Ainsi que le modèle de vocabulaire (pour indiquer à la transcription le modèle de vocabulaire à utiliser) :
- "base" : petit, téléchargement immédiat (139 M)
- "medium" : moyen, téléchargement 20 minutes (1.42 G)
- "large" : grand, téléchargement 1 heure (2,88 G)
- Le chemin vers le dossier où sont stockés les enregistrements :
- Exécuter main.py
Le téléchargement du modèle de vocabulaire se fait qu'une fois.
Les fichiers ont pour nom « output_<nom_de_l_audio>_.txt ». Ils sont enregistrés dans le même dossier que l’audio qui a été transcrit.
- Aller sur Google Drive et créer un compte Google (gratuit), si vous n’en avez pas encore un.
- Sur le coin en haut à gauche, cliquer sur
New button > More > Connect more apps
. - En haut du dialogue, écrire dans la fenêtre de recherche Google Colaboratory et lancer la recherche.
- Choisir la première option : “Colaboratory”
- Cliquer sur le bouton Install, puis sur Continue et sur OK pour connecter Google Colaboratory à Google Drive.
- Colaboratory a été installé.
- Cliquer sur le bouton
Done
et fermer la fenêtre “Connect more apps”.
- Aller sur Google Drive et se connecter à son compte Google.
- Sur le coin en haut à gauche, cliquer sur
New button > More > Colaboratory
. Ceci ouvre Colaboratory. - Sur le coin en haut à gauche, donner un nom au fichier en sélectionnant Untitled.ipynb et en le renommant en quelque chose de plus parlant (p. ex. Transcribe_audio.ipynb).
- Cliquer sur le menu
Runtime
et sélectionnerChange runtime type
pour ouvrir le dialogueNotebook settings
- Régler le
Hardware accelerator
surGPU
. Ceci permet d’utiliser la carte graphique, sur laquelle Whisper AI tourne le mieux.
Noter l’adresse du Drive.
- Pour arriver sur mon Drive : https://colab.research.google.com/drive/.....
- Cliquer sur Transcribe_audio.ipynb
- Glisser le fichier à traduire dans l’espace fichiers de ce dossier (icône de dossier sur la marge gauche)
- Pour chaque session d’utilisation, réinstaller whisper :
!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg
!whisper "Titre.mp3" --model large --language fr
Format contenant du texte et des balises de temps en java
Format contenant le numéro de phrase, suivi des balises temporelles, suivi du texte (à ouvrir en UTF8 avec nomenclature pour les accents) :
1 00 :00 :00,000 –> 00 :00 :06,000 Dans le bouquin, non, . . .
Format avec le début en ms, la fin en ms, le texte sur une même ligne (ouvrir en UTF8), un peu comme du csv :
0 6000 Dans le bouquin, non, . . .
Format ne contenant que le texte, découpé par des retours à la ligne (UTF8)
Format avec balises temporelles et texte à la ligne suivante (UTF8) :
00 :00.000 –> 00 :06.000
Dans le bouquin, non,