🍓 주제 : 엉터리 문서 검출
🥕 결과 : acc:0.928 / 대회에서 제공한 baseline acc: 0.791
🍋 데이터셋 특징 : 불균형이 굉장히 심함(130000:4000)
🍈 엉터리 문서 정의 : 문맥이 맞지 않는 단어들로 구성된 문서로, 단어의 순서를 바꾸어도 전혀 말이 되지 않는 문장들이 포함된 문서
🥝 최종 스코어 솔루션 : KRElectra + classifier(LSTM기반), 데이터 샘플링(Minority 2만개), Focal Loss사용
🍉 데이터 샘플링 방식 : 내부 데이터에서 정상문서 중 코사인 유사도가 먼 두개의 문서를 셔플하여 엉터리 문서를 만들었음. 해당 방법으로 20000개의 엉터리 문서를 만들어서 함께 학습함.
🍇 보완할 점 : 불균형이 굉장히 심해 학습 방법에 대한 고려가 필요했음. 배치 때마다 엉터리 문서와 정상 문서의 비율을 맞춰서 학습시켰을 때 스코어가 올랐음(0.93이상)
🌷 날 것 그대로의 실험 과정 : experiment