데이터 분석/머신러닝, 딥러닝

머신러닝

fullfish 2025. 11. 3. 10:27

AI: 사람의 생각, 판단을 컴퓨터가

머신러닝(ML): 데이터로 부터 규칙을 배우도록

딥러닝(DL): 머신러닝 안에서 신경망을 쌓아 복잡한거 품. 비정형 데이터에 강함

 

지도학습: 문제와 정답이 같이 있는 데이터 학습 ex) 가격 예측, 사진 분류

비지도학습: 정답 라벨 없이 숨은 구조/패턴 찾기 ex) 고객을 비슷한 그룹으로 묶기, 차원 축소, 연관 분석

강화학습: 정답 대신 보상을 받으며 시행착오로 전략 학습

 

지도학습

공통 포맷: 입력 -> 모델 -> 출력

 

회귀(숫자 예측)
선형회귀: 입력과 출력이 직선 관계라고 봄.쉽고 빠름

다항회귀: 직선으로 부족할 때 곡선 허용

랜덤 포레스트 회귀: 여러 결정 트리의 평균으로 안정적 예측. 비선형에 강함

XGBoost/LightGBM: 트리를 단계적으로 고도화(부스팅). 성능과 속도 좋음

예: 면적.방수 -> 집값 / 광고비 -> 매출

 

분류(범주 예측)
로지스틱 회귀: A냐 B냐 확률로 예측. 해석 쉬움

KNN: 가장 가까운 이웃 다수결. 직관적이나 데이터 많으면 느림

나이브 베이즈: 조건부 확률 기반, 텍스트 분류에 강함 빠름

결정트리 / 랜덤 포레스트: 규칙이 나무처럼 분기. 해석 쉽고 성능 안정적

SVM: 클래스 사이 여백을 최대화하는 경계 찾기. 고차원에 강함

신경망(MLP): 딥러닝의 기본. 비선형 패턴 학습

예: 이메일 -> 스팸/정상(이진 분류), 사진 -> 고양이, 개, 여우(다중 분류)

 

평가 지표

회귀: MAE, MSE, RMSE,

분류: 정확도(Accuracy), 정밀도/재현율/F1, ROC-AUC

교차검증, 과적합(훈련만 잘 맞고 새 데이터엔 약함) 주의 -> 훈련/검증/테스트 분리

 

비지도 학습

클러스터링(군집)

K-means: K개 중심을 기준으로 가까운것끼리 묶기. 빠르고 기본

계층적 클러스터링: 작은 군집을 합치거나 큰 군집을 쪼개며 트리 구조로 묶기

DBSCAN: 밀도가 높은 영역을 군집으로. 노이즈 분리에 유리

예: 고객 세그먼트 나누기, 뉴스 기사 주제별 묶기

 

차원 축소(요약,시각화)
PCA: 데이터 분산이 큰 방향으로 축을 재구성해 정보 유지하며 축소

t-SNE / UMAP: 고차원 데이터를 2~3차원으로 가깝게 보존해 시작화에 탁월

예: 수집 개 지표를 2D로 줄여 분포 확인

 

이상치 탐지

Isolation Forest / One-Class SVM : 정상 패턴에서 벗어난 이례 찾기
: 결제 사기 의심 거래 탐지, 센서 고장 감지

 

연관규칙 학습

Apriori / FP-Growth: “A 사면 B 함께 산다” 같은 규칙 찾기.
지표: 지지도(Support), 신뢰도(Confidence), 향상도(Lift)

 

토픽 모델링(텍스트)

LDA: 문서 더미에서 **숨은 주제(토픽)** 확률적으로 추출.
: 리뷰 묶어 “배송/품질/가격” 같은 주제 비중 파악

'데이터 분석 > 머신러닝, 딥러닝' 카테고리의 다른 글

랜덤 포레스트(Random Forest)  (0) 2025.11.05
앙상블 기법  (0) 2025.11.05
결정 트리(Decision Tree)  (0) 2025.11.05
LogisticRegression  (0) 2025.11.04
K-Nearest Neighbors(KNN) 최근접 이웃 알고리즘  (0) 2025.11.03