단순 이진 문장분류 전처리기

[문제 정의] 다양한 뉴스를 검색할 때, 동음이의어가 존재한다. 그 동음이의어를 제거해, 학습 시키기전에 문장이 무엇을 의미하는지 라벨링하는 프로젝트

해당 저장소에는 Korean으로 '효성'이라는 기업에만 해당하는 전처리기

단어를 추출해 적합한 단어인지 아닌지 분석하기
: 주피터노트북으로 활용해 '효성'이란 단어가 들어간 가장 빈도수 높은 단어 추출
추출된 단어와 효성의 계열사을 불용어에 합하여 정규표현식으로 라벨링하기.

명백하게 종목인 단어들 (효성ixt, ...) 포함하면 => 레이블 1
(명백하게 종목인 단어들 + 애매한 단어들 (효성도))을 하나도 포함 안 하는 문장 => 레이블 0
애매한 단어들, 명백하게 종목이 아닌 단어들 -> 나머지 문장은 노가다....

예상외로 애매한 단어는 한개도 없었음.

//TODO 학습 시키는 모델도 추가 할 예정