Skip to content

Latest commit

 

History

History
22 lines (12 loc) · 1.03 KB

README.md

File metadata and controls

22 lines (12 loc) · 1.03 KB

단순 이진 문장분류 전처리기

[문제 정의] 다양한 뉴스를 검색할 때, 동음이의어가 존재한다. 그 동음이의어를 제거해, 학습 시키기전에 문장이 무엇을 의미하는지 라벨링하는 프로젝트

해당 저장소에는 Korean으로 '효성'이라는 기업에만 해당하는 전처리기

  1. 단어를 추출해 적합한 단어인지 아닌지 분석하기
    : 주피터노트북으로 활용해 '효성'이란 단어가 들어간 가장 빈도수 높은 단어 추출
  2. 추출된 단어와 효성의 계열사을 불용어에 합하여 정규표현식으로 라벨링하기.
  • 명백하게 종목인 단어들 (효성ixt, ...) 포함하면 => 레이블 1
  • (명백하게 종목인 단어들 + 애매한 단어들 (효성도))을 하나도 포함 안 하는 문장 => 레이블 0
  • 애매한 단어들, 명백하게 종목이 아닌 단어들 -> 나머지 문장은 노가다....

예상외로 애매한 단어는 한개도 없었음.

//TODO 학습 시키는 모델도 추가 할 예정