분류 전체보기 297

RNN(Recurrent Neural Networks)

1. RNN이란 무엇인가?RNN은 입력과 출력을 순서대로 처리하며, 이전 단계의 계산 결과를 저장했다가 다음 단계의 계산에 사용하는 '순환(Recurrence)' 구조를 가진 신경망입니다.핵심 아이디어: 메모리 (Memory)일반적인 신경망(MLP, CNN)은 현재 입력만 처리하지만, RNN은 **은닉 상태(Hidden State, $h\_t$)**라는 형태의 **'내부 메모리'**를 통해 과거 정보를 요약하여 저장합니다. 이 메모리가 현재의 입력과 결합되어 다음 출력을 결정하는 데 사용됩니다.순환 구조: RNN의 은닉 계층에서 출력된 값이 다시 다음 시점의 입력으로 사용되는 구조를 가집니다.2. RNN의 작동 원리RNN은 각 시점(Time Step, $t$)에서 동일한 함수와 가중치 집합($W$)을 사..

CNN(Convolutional neural network)

1. CNN이란 무엇인가?CNN은 인간의 시각 시스템과 유사하게 동작하도록 설계된 인공신경망의 한 종류입니다. 일반적인 신경망(Fully Connected Layer, 완전 연결 계층)과는 달리, 이미지의 픽셀 정보를 직접 처리하지 않고 **특징(Feature)**을 추출하는 데 특화되어 있습니다.핵심 아이디어지역적 연결(Local Connectivity): 뉴런들이 입력 전체가 아닌 입력의 일부 영역에만 연결됩니다.가중치 공유(Weight Sharing): 동일한 특징 추출기(필터/커널)를 입력 이미지의 여러 위치에 적용하여 학습해야 할 파라미터(가중치) 수를 획기적으로 줄입니다.2. CNN의 주요 구성 요소CNN은 크게 특징 추출(Feature Extraction) 부분과 분류(Classificati..

LDA (Latent Dirichlet Allocation)

LDA (Latent Dirichlet Allocation: 잠재 디리클레 할당)1. LDA의 정의 및 특징LDA는 토픽 모델링의 대표적인 알고리즘으로, 주어진 문서들에 대해 각 문서에 어떤 주제들이 존재하는지에 대한 확률 모델입니다.핵심은 다음 두 가지 분포를 모두 추정하는 것입니다.토픽별 단어의 분포문서별 토픽의 분포2. LDA의 가정LDA는 문서를 구성하는 방식에 대해 다음과 같이 가정합니다.문서 = 여러 토픽이 섞인 것토픽 = 여러 단어가 섞인 것3. 학습 과정LDA의 학습은 문서 집합에서 토픽-단어 분포와 문서-토픽 분포를 역으로 추정하는 과정입니다. 즉, 이미 존재하는 문서와 그 안의 단어들을 보고 그 이면에 있는 토픽의 구조를 파악해 냅니다.4. 토픽 모델링문서의 집합에서 토픽을 찾아내는 프..

LSA (Latent Semantic Analysis)

LSA (Latent Semantic Analysis, 잠재 의미 분석)LSA는 수많은 문서와 단어 속에 숨겨진 **"잠재적인 의미 구조(Latent Semantic Structure)"**를 찾아내기 위한 자연어 처리 기법입니다.1. 작동 방식: 차원 축소LSA는 다음과 같은 과정을 통해 작동합니다.1. 입력 (Input)거대한 표(TF-IDF 행렬): 분석 대상이 되는 문서들을 행(Row)으로, 그 문서들에 나타난 모든 단어들을 열(Column)로 구성한 행렬을 사용합니다. 행렬의 각 칸은 해당 단어가 문서에 얼마나 중요한지를 나타내는 TF-IDF(Term Frequency-Inverse Document Frequency) 값을 가집니다.입력: 문서 $\times$ 단어 TF-IDF 행렬2. 핵심 ..

SVM(LinearSVC)

SVM(Support Vector Machine)서로 다른 두 클래스(예: 긍정 vs 부정)를 가장 잘 분리할 수 있는 선(또는 초평면)을 찾는 모델.목표는 두 클래스 사이의 간격(margin)을 최대화하는 결정 경계를 만드는 것. Margin(마진)결정 경계 양쪽에 생기는 여유 공간을 의미.마진이 넓을수록 모델은데이터 노이즈에 강하고일반화 성능이 좋아짐. Support Vectors마진에 가장 가깝게 위치한 점들.이 점들이 실제로 결정 경계를 만드는 핵심 역할을 함.전체 데이터 중 극히 일부만 경계에 영향을 줌. 텍스트(TF-IDF)에서 SVM이 잘 맞는 이유텍스트 벡터(TF-IDF)는 차원이 수천~수만으로 매우 큼.고차원 공간에서는 서로 다른 클래스를 선형(직선 또는 초평면)으로 분리하기가 쉬워짐.그..

카테고리 없음 2025.11.20

나이브 베이즈 (MultinomialNB)

베이즈 정리를 사용한 확률 기반 분류기목적문장 X가 들어왔을 때이 문장이 긍정(1) 일 확률 vs 부정(0) 일 확률을 비교하는 것수식 P(c) = 사전확률(prior)→ 데이터 전체에서 긍정 리뷰가 얼마나 되는가?예)전체 리뷰 10만개 중긍정 7만 → P(긍정) = 0.7부정 3만 → P(부정) = 0.3즉, 원래부터 긍정이 많았는지, 부정이 많았는지 반영하는 값. P(X|c) = 우도(likelihood)→ 문장 X 안의 단어들이 클래스 c에서 등장할 확률예를 들어,긍정 리뷰에서는 “재밌다”가 자주 나오고부정 리뷰에서는 “지루하다”가 자주 나온다는 것.즉,해당 단어(들)가 그 클래스에서 얼마나 잘 나타나는지를 의미.이게 사실상 분류의 핵심. P(X) = 증거(evidence)→ 모든 클래스(긍/부정..

TF-IDF

TF-IDF (Term Frequency – Inverse Document Frequency) TF (Term Frequency)한 문서 안에서 얼마나 자주 나왔나→ BoW에서 쓰던 “횟수” 혹은 “비율”IDF (Inverse Document Frequency)전체 문서 중에서 얼마나 희귀한 단어인가→ 모든 문서에 다 나오는 단어는 중요도가 떨어짐 핵심 아이디어한 문서 안에서 자주 나오고 (TF ↑),다른 문서에서는 잘 안 나오는 단어 (IDF ↑)→ 그 문서를 잘 대표하는 “좋은 단어”로 가중치를 크게 준다.TF(w) = (특정 단어 w의 문서 내 등장 횟수) / (해당 문서 내 총 단어 수)IDF(w) = log(총 문서 수 / 특정 단어 w를 포함한 문서 수)TF-IDF(w) = TF(w) × ID..

Bag-of-Word(BOW)

코퍼스(corpus) 문서들의 묶음 (전체 데이터)문서(document) 한 개의 글 (한 줄 리뷰, 기사 하나 등)단어(토큰, token) 공백이나 규칙으로 나눈 최소 단위어휘집(vocabulary) 코퍼스에서 등장한 단어들의 집합 (중복 제거) Bag-of-Words(BOW)문장을 문법과 순서는 무시하고, 단어가 몇 번 나왔는지만 세는 방식예 문서1: "오늘 날씨 정말 좋다" 문서2: "오늘 기분 정말 좋다" 전체 단어집(vocab): [오늘, 날씨, 정말, 좋다, 기분] BoW 벡터  문서1: [1, 1, 1, 1, 0]  문서2: [1, 0, 1, 1, 1]장점 단순, 빠름, 기본적인 ML 모델에 바로 넣기 좋음단점 단어 순서 정보가 사라짐 문서가 길어질수록 큰 벡터, 희소(sparse)함 아주 ..

텍스트 전처리

원문 텍스트 수집정규화(Normalization): 소문자화, 공백 정리, 반복 문자(ㅋㅋㅋㅋ) 축약, 숫자/기호 처리 등토큰화(Tokenization): 한글: 형태소 분석기(Okt)로 단어/형태소 단위 자르기어간/표제어 처리(Stemming/Lemmatization): “먹었다 → 먹다”, “했습니다 → 하다”처럼 기본형으로 통일불용어(Stopwords) 제거: “은/는/이/가/그리고/하지만…” 같은 의미 정보 적은 단어 삭제벡터화: Bag-of-Words, TF-IDF, Word2Vec, BERT 토큰 등 숫자 벡터로 변환 morphsmorphs(phrase, norm=False, stem=False)문장을 형태소 단위의 리스트로 변환 phrase: 형태소 분석을 수행할 입력 문장norm (기본값:..

인공신경망(ANN : Artificial Neural Network)

딥러닝은 머신러닝의 한 종류로 인공신경망(ANN)에 기반을 둔 학습 방법머신러닝은 정형데이터 학습에 딥러닝은 이미지, 소리, 텍스트와 같은 비정형 데이터 학습에 주로 사용 전이학습 : 풍부한 데이터를 이용해서 학습된 pre-trained model을 가져와 부족한 사용자 데이터 환경에 맞도록 새롭게 모델을 학습 시키는 일련의 과정 입력층, 은닉층, 출력층 3개 층 구성(SLP: 은닉층 없음, MLP: 1개 이상의 은닉층) 파라미터(매개변수) : 가중치(weight)하이퍼 파라미터 : 인공신경망의 학습률(learning rate), 배치(batch) 크기, hidden neuron, hidden layer 수 퍼셉트론(Perceptron)생물학적 뇌의 뉴런을 모방하여 만든 인공신경망(ANN)의 기본 단위 ..