Naver AI Rush 2022

🍓 주제 : 엉터리 문서 검출

🥕 결과 : acc:0.928 / 대회에서 제공한 baseline acc: 0.791

🍋 데이터셋 특징 : 불균형이 굉장히 심함(130000:4000)

🍈 엉터리 문서 정의 : 문맥이 맞지 않는 단어들로 구성된 문서로, 단어의 순서를 바꾸어도 전혀 말이 되지 않는 문장들이 포함된 문서

🥝 최종 스코어 솔루션 : KRElectra + classifier(LSTM기반), 데이터 샘플링(Minority 2만개), Focal Loss사용

🍉 데이터 샘플링 방식 : 내부 데이터에서 정상문서 중 코사인 유사도가 먼 두개의 문서를 셔플하여 엉터리 문서를 만들었음. 해당 방법으로 20000개의 엉터리 문서를 만들어서 함께 학습함.

🍇 보완할 점 : 불균형이 굉장히 심해 학습 방법에 대한 고려가 필요했음. 배치 때마다 엉터리 문서와 정상 문서의 비율을 맞춰서 학습시켰을 때 스코어가 올랐음(0.93이상)

🌷 날 것 그대로의 실험 과정 : experiment

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
.DS_Store		.DS_Store
README.md		README.md
main.py		main.py
model.py		model.py
setup.py		setup.py
train.py		train.py
util.py		util.py

Provide feedback