아래와 같은 질문으로 예를 들어보겠습니다.
-
질문 1 (나이)
ⓐ 20대 ⓑ 30대 ⓒ 40대 ⓓ 50대 이상
-
질문 2 (활동 선호)
ⓐ 운동 ⓑ 독서 ⓒ 영화 보기 ⓓ 여행
-
질문 3 (성격)
ⓐ 외향적 ⓑ 내향적 ⓒ 혼합형
여기서 질문 1 - ⓑ
질문 2 - ⓒ
질문 3 - ⓐ
를 선택했다고 가정해봅시다.
One-Hot Encoding
방식으로 이를 Vectorize하게 되면 아래와 같은 과정을 거칩니다.
- 질문 1 - [0,1,0,0]
- 질문 2 - [0,0,1,0]
- 질문 3 - [1,0,0]
으로 구성됩니다.
이를 벡터화하게 되면
[[0,1,0,0],[0,0,1,0],[1,0,0]]
과 같은 다차원 vector가 형성되게 됩니다.