English | Portuguese | Spanish | 中文
Parsr est une chaîne d'outils de nettoyage, d'analyse et d'extraction de documents (image, pdf) qui génère des données facilement disponibles, organisées et utilisables pour les développeurs et les scientifiques de données (data scientists).
Il fournit aux utilisateurs un ensemble d'informations structurées et enrichies de label propres pour des applications prêtes à l'emploi allant de l'automatisation de la saisie de données à l'analyse de documents, en passant par l'archivage et bien d'autres.
Actuellement, Parsr peut effectuer:
- Régénération de la hiérarchie des documents
- Mots, lignes et paragraphes
- Détection des titres
- Détection et reconstruction des tableaux
- Détection des listes
- Détection de l'ordre des paragraphes
- Reconnaissance des entités nommées (dates, pourcentages, etc.)
- Détection de paires clé-valeur (pour l'extraction d'entrées spécifiques basées sur un formulaire)
- Détection des numéros de page
- Détection d'entête et pied de page
- Détections de liens
- Suppression des espaces blancs
Parsr prend en entrée une image (.jpg, .png, .tiff, ...) ou un pdf et génère les formats de sortie suivants:
- JSON
- Markdown
- Texte
- CSV (pour les tableaux) ou Pandas Dataframes (voir ici)
- Table des matières
- Débuter avec Parsr
- Installation
- Utilisation
- Documentation
- Comment contribuer
- Licences tierces
- Licence
-- Le guide d'installation avancé est disponible ici --
Le moyen le plus rapide pour installer et exécuter l'API Parsr est via l'image docker:
docker pull axarev/parsr
Si vous souhaitez également installer l'interface graphique pour l'envoi de documents et la visualisation des résultats:
docker pull axarev/parsr-ui-localhost
Remarque: Parsr peut également être installé directement sur la machine (sans Docker)" - voir la procédure sur guide d'installation.
-- Le guide d'utilisation avancé est disponible ici --
Pour exécuter l'API, lancez:
docker run -p 3001:3001 axarev/parsr
qui le lancera sur http://localhost:3001. Consultez la documentation sur l'utilisation de l'API.
-
Pour utiliser le client python de Parsr:
pip install parsr-client
Pour utiliser le Jupyter Notebook utilisant ce client, cliquez ici.
-
Pour utiliser l'outil GUI (l'API doit déjà être en cours d'exécution), lancez:
docker run -t -p 8080:80 axarev/parsr-ui-localhost:latest
Ensuite, accédez-y via http://localhost:8080.
Reportez-vous à la Documentation de configuration pour interpréter les options configurables dans l'interface graphique.
Utilisation basée sur l'API et utilisation en ligne de commande sont documentées dans utilisation avancée.
Tous les fichiers de documentation peuvent être trouvés ici - actuellement en anglais seulement.
Veuillez vous référer aux directives de contribution.
Licences de bibliothèques tierces pour ces dépendances:
- QPDF: Apache http://qpdf.sourceforge.net
- ImageMagick: Apache 2.0 https://imagemagick.org/script/license.php
- Pdfminer.six: MIT https://github.com/pdfminer/pdfminer.six/blob/master/LICENSE
- PDF.js: Apache 2.0 https://github.com/mozilla/pdf.js
- Tesseract: Apache 2.0 https://github.com/tesseract-ocr/tesseract
- Camelot: MIT https://github.com/camelot-dev/camelot
- MuPDF (Dépendance optionnelle): AGPL https://mupdf.com/license.html
- Pandoc (Dépendance optionnelle): GPL https://github.com/jgm/pandoc
Copyright 2019 AXA Group Operations S.A. Sous licence Apache 2.0 (voir le fichier LICENSE).