딥러닝 텍스트 전처리
1. 텍스트 정제(Cleaning) 및 토큰화(Tokenization)이 단계는 텍스트를 기계가 처리하기 쉬운 단위로 쪼개는 과정입니다.정제: 불필요한 HTML 태그, 특수 문자, 이모지 등을 제거하거나 표준화합니다.토큰화: 문장을 의미를 가지는 최소 단위(단어, 형태소, 서브 워드 등)로 분리합니다. (예: "나는 학생이다" -> ['나', '는', '학생', '이다'])2. 단어(또는 서브 워드) 사전(Vocabulary) 생성토큰화된 결과물을 바탕으로 전체 데이터셋에 존재하는 고유한 단어들의 집합을 만듭니다.역할: 모델이 인지할 수 있는 모든 단어들의 목록을 정의합니다.특징: 빈도수가 낮은 단어는 제거하여 사전 크기를 줄이고, 모르는 단어(OOV, Out-Of-Vocabulary)를 처리하기 위해 ..