viText cung cấp 1 số công cụ liên quan đến nhận dạng ký tự tiếng Việt như dataset viReceipts, detection hay OCR. Hiện tại viText làm việc tốt nhất với văn bản được scan
Để cài đặt viText các bạn chạy lệnh sau
git clone https://github.com/ndcuong91/viText.git
cd viText
pip install -e .
Bên mình đang xây dựng bộ dataset viReceipts cho dữ liệu hóa đơn bán lẻ ở Việt Nam. Các bạn có thể sử dụng một vài mẫu ở trong thư mục viData/viReceipts nhé
viDet cung cấp một số models để giải quyết bài toán phát hiện text trong văn bản
- DBnet
- EAST (to be continue...)
Bước cuối cùng là OCR sẽ được trích xuất bởi các model như CRNN, vietocr h
- CRNN
- VietOCR
- SRN
- Update viOCR: CRNN
- Update viDet: DBnet
- Update viReceipts
Các bạn có thể tạo PR hoặc liên hệ mình: [email protected]