Skip to content
This repository has been archived by the owner on Sep 7, 2024. It is now read-only.
/ brainhack-24 Public archive
generated from TIL-24/til-24-base

Releases: qitianshi/brainhack-24

NLP: Improve regex matching pattern and fix container health reporting

02 Jun 21:50
Compare
Choose a tag to compare

Accuracy: 1.00000000
Speed: 0.86364811
Tree:

nlp
├── Dockerfile
├── README.md
├── requirements.txt
└── src
    ├── NLPManager.py
    └── api_service.py

ASR: Improve regex matching pattern

02 Jun 21:51
Compare
Choose a tag to compare
Pre-release

Accuracy: 0.9996609403254972
Speed: 0.8045008579629629
Tree:

asr
├── Dockerfile
├── README.md
├── correction_model
│   ├── config.json
│   ├── generation_config.json
│   ├── model.safetensors
│   └── training_args.bin
├── model
│   ├── added_tokens.json
│   ├── config.json
│   ├── merges.txt
│   ├── normalizer.json
│   ├── preprocessor_config.json
│   ├── pytorch_model.bin
│   ├── special_tokens_map.json
│   ├── tokenizer_config.json
│   └── vocab.json
├── requirements.txt
├── src
│   ├── ASRManager.py
│   ├── api_service.py
│   └── correction.py
└── tokenizer
    ├── merges.txt
    ├── special_tokens_map.json
    ├── tokenizer.json
    ├── tokenizer_config.json
    └── vocab.json

4 directories, 24 files

Get assets:

(rm -rf model correction_model tokenizer) && ((gh release download asr-v1.2.2 --pattern model.zip && unzip model.zip && rm model.zip) & (gh release download asr-v1.2.2 --pattern correction_model.zip && unzip correction_model.zip && rm correction_model.zip) & (gh release download asr-v1.2.2 --pattern tokenizer.zip && unzip tokenizer.zip && rm tokenizer.zip))

ASR with reduced image size

02 Jun 04:12
Compare
Choose a tag to compare
Pre-release

Accuracy: 0.9994349005424955
Speed: 0.8167701275925926
Tree:

.
├── Dockerfile
├── README.md
├── correction_model
│   ├── config.json
│   ├── generation_config.json
│   ├── model.safetensors
│   └── training_args.bin
├── model
│   ├── added_tokens.json
│   ├── config.json
│   ├── merges.txt
│   ├── normalizer.json
│   ├── preprocessor_config.json
│   ├── pytorch_model.bin
│   ├── special_tokens_map.json
│   ├── tokenizer_config.json
│   └── vocab.json
├── requirements.txt
├── src
│   ├── ASRManager.py
│   ├── api_service.py
│   └── correction.py
└── tokenizer
    ├── merges.txt
    ├── special_tokens_map.json
    ├── tokenizer.json
    ├── tokenizer_config.json
    └── vocab.json

4 directories, 24 files

Integrated NLP with error correction from ASR

01 Jun 04:37
Compare
Choose a tag to compare

Uses the output from the error correction module in ASR (phonetic Levenshtein distance and BART model)

Accuracy: 1.00000000
Speed: 0.8609881898148148
Tree:

.
├── Dockerfile
├── README.md
├── requirements.txt
└── src
    ├── NLPManager.py
    └── api_service.py

1 directory, 5 files

Error correction with BART and phonetic Levenshtein distance

01 Jun 10:21
Compare
Choose a tag to compare

Accuracy: 0.9996609403254972
Speed: 0.8132662861111111
Tree:

.
├── Dockerfile
├── README.md
├── correction_model
│   ├── config.json
│   ├── generation_config.json
│   ├── model.safetensors
│   ├── optimizer.pt
│   ├── rng_state.pth
│   ├── scheduler.pt
│   ├── trainer_state.json
│   └── training_args.bin
├── model
│   ├── added_tokens.json
│   ├── config.json
│   ├── merges.txt
│   ├── normalizer.json
│   ├── preprocessor_config.json
│   ├── pytorch_model.bin
│   ├── special_tokens_map.json
│   ├── tokenizer_config.json
│   └── vocab.json
├── requirements.txt
├── src
│   ├── ASRManager.py
│   ├── api_service.py
│   └── correction.py
└── tokenizer
    ├── merges.txt
    ├── special_tokens_map.json
    ├── tokenizer.json
    ├── tokenizer_config.json
    └── vocab.json

4 directories, 28 files

Further finetuning of v1.0 model using noisy audio data

31 May 06:12
Compare
Choose a tag to compare

Accuracy: 0.8780515370705244
Speed Score: 0.8204664553703704
Tree:

.
├── Dockerfile
├── README.md
├── model
│   ├── added_tokens.json
│   ├── config.json
│   ├── generation_config.json
│   ├── merges.txt
│   ├── model.safetensors
│   ├── normalizer.json
│   ├── preprocessor_config.json
│   ├── special_tokens_map.json
│   ├── tokenizer_config.json
│   └── vocab.json
├── requirements.txt
└── src
    ├── ASRManager.py
    └── api_service.py

Whisper-small using GPU for inference

26 May 13:39
Compare
Choose a tag to compare
Pre-release

Accuracy: 0.9989828209764918
Speed: 0.8120213340740741
Tree:

.
├── Dockerfile
├── README.md
├── model
│   ├── added_tokens.json
│   ├── config.json
│   ├── merges.txt
│   ├── normalizer.json
│   ├── preprocessor_config.json
│   ├── pytorch_model.bin
│   ├── special_tokens_map.json
│   ├── tokenizer_config.json
│   └── vocab.json
├── requirements.txt
└── src
    ├── ASRManager.py
    └── api_service.py

VLM using pretrained OWL-ViT v2

25 May 17:56
Compare
Choose a tag to compare
Pre-release

Accuracy: 0.71100000
Speed: 0.71575848
Tree:

.
├── Dockerfile
├── README.md
├── example.jpg
├── requirements.txt
└── src
    ├── VLMManager.py
    ├── api_service.py
    ├── config.json
    ├── model.safetensors
    └── v1owlvit21800

Fine-tuned Whisper-small ASR model (1000 steps)

24 May 13:44
Compare
Choose a tag to compare

Accuracy: 0.9989828209764918
Speed: 0.3035445561111111
Tree:

.
├── Dockerfile
├── README.md
├── model
│   ├── added_tokens.json
│   ├── config.json
│   ├── merges.txt
│   ├── normalizer.json
│   ├── preprocessor_config.json
│   ├── pytorch_model.bin
│   ├── special_tokens_map.json
│   ├── tokenizer_config.json
│   └── vocab.json
├── requirements.txt
└── src
    ├── ASRManager.py
    └── api_service.py

Basic NLP using base RoBERTa

22 May 12:41
Compare
Choose a tag to compare
Pre-release

Accuracy: 1.00000000
Speed: 0.84916558

.
├── Dockerfile
├── README.md
├── model
│   ├── config.json
│   ├── pytorch_model.bin
│   └── tokenizer
│       ├── merges.txt
│       ├── special_tokens_map.json
│       ├── tokenizer_config.json
│       └── vocab.json
├── requirements.txt
└── src
    ├── NLPManager.py
    └── api_service.py

3 directories, 11 files