Skip to content

whatsbirddd/Fake-Documents-Detection

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Naver AI Rush 2022

🍓 주제 : 엉터리 문서 검출

🥕 결과 : acc:0.928 / 대회에서 제공한 baseline acc: 0.791

🍋 데이터셋 특징 : 불균형이 굉장히 심함(130000:4000)

🍈 엉터리 문서 정의 : 문맥이 맞지 않는 단어들로 구성된 문서로, 단어의 순서를 바꾸어도 전혀 말이 되지 않는 문장들이 포함된 문서

🥝 최종 스코어 솔루션 : KRElectra + classifier(LSTM기반), 데이터 샘플링(Minority 2만개), Focal Loss사용

🍉 데이터 샘플링 방식 : 내부 데이터에서 정상문서 중 코사인 유사도가 먼 두개의 문서를 셔플하여 엉터리 문서를 만들었음. 해당 방법으로 20000개의 엉터리 문서를 만들어서 함께 학습함.

🍇 보완할 점 : 불균형이 굉장히 심해 학습 방법에 대한 고려가 필요했음. 배치 때마다 엉터리 문서와 정상 문서의 비율을 맞춰서 학습시켰을 때 스코어가 올랐음(0.93이상)

🌷 날 것 그대로의 실험 과정 : experiment

About

CLOVA AI Rush 2022 @naver AI Lab

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages