
AI: 사람의 생각, 판단을 컴퓨터가
머신러닝(ML): 데이터로 부터 규칙을 배우도록
딥러닝(DL): 머신러닝 안에서 신경망을 쌓아 복잡한거 품. 비정형 데이터에 강함
지도학습: 문제와 정답이 같이 있는 데이터 학습 ex) 가격 예측, 사진 분류
비지도학습: 정답 라벨 없이 숨은 구조/패턴 찾기 ex) 고객을 비슷한 그룹으로 묶기, 차원 축소, 연관 분석
강화학습: 정답 대신 보상을 받으며 시행착오로 전략 학습
지도학습
공통 포맷: 입력 -> 모델 -> 출력
회귀(숫자 예측)
선형회귀: 입력과 출력이 직선 관계라고 봄.쉽고 빠름
다항회귀: 직선으로 부족할 때 곡선 허용
랜덤 포레스트 회귀: 여러 결정 트리의 평균으로 안정적 예측. 비선형에 강함
XGBoost/LightGBM: 트리를 단계적으로 고도화(부스팅). 성능과 속도 좋음
예: 면적.방수 -> 집값 / 광고비 -> 매출
분류(범주 예측)
로지스틱 회귀: A냐 B냐 확률로 예측. 해석 쉬움
KNN: 가장 가까운 이웃 다수결. 직관적이나 데이터 많으면 느림
나이브 베이즈: 조건부 확률 기반, 텍스트 분류에 강함 빠름
결정트리 / 랜덤 포레스트: 규칙이 나무처럼 분기. 해석 쉽고 성능 안정적
SVM: 클래스 사이 여백을 최대화하는 경계 찾기. 고차원에 강함
신경망(MLP): 딥러닝의 기본. 비선형 패턴 학습
예: 이메일 -> 스팸/정상(이진 분류), 사진 -> 고양이, 개, 여우(다중 분류)
평가 지표
회귀: MAE, MSE, RMSE, R²
분류: 정확도(Accuracy), 정밀도/재현율/F1, ROC-AUC
교차검증, 과적합(훈련만 잘 맞고 새 데이터엔 약함) 주의 -> 훈련/검증/테스트 분리
비지도 학습
클러스터링(군집)
K-means: K개 중심을 기준으로 가까운것끼리 묶기. 빠르고 기본
계층적 클러스터링: 작은 군집을 합치거나 큰 군집을 쪼개며 트리 구조로 묶기
DBSCAN: 밀도가 높은 영역을 군집으로. 노이즈 분리에 유리
예: 고객 세그먼트 나누기, 뉴스 기사 주제별 묶기
차원 축소(요약,시각화)
PCA: 데이터 분산이 큰 방향으로 축을 재구성해 정보 유지하며 축소
t-SNE / UMAP: 고차원 데이터를 2~3차원으로 가깝게 보존해 시작화에 탁월
예: 수집 개 지표를 2D로 줄여 분포 확인
이상치 탐지
Isolation Forest / One-Class SVM 등: 정상 패턴에서 벗어난 이례값 찾기
예: 결제 사기 의심 거래 탐지, 센서 고장 감지
연관규칙 학습
Apriori / FP-Growth: “A를 사면 B도 함께 산다” 같은 규칙 찾기.
지표: 지지도(Support), 신뢰도(Confidence), 향상도(Lift)
토픽 모델링(텍스트)
LDA: 문서 더미에서 **숨은 주제(토픽)**를 확률적으로 추출.
예: 리뷰 묶어 “배송/품질/가격” 같은 주제 비중 파악
'데이터 분석 > 머신러닝, 딥러닝' 카테고리의 다른 글
| 랜덤 포레스트(Random Forest) (0) | 2025.11.05 |
|---|---|
| 앙상블 기법 (0) | 2025.11.05 |
| 결정 트리(Decision Tree) (0) | 2025.11.05 |
| LogisticRegression (0) | 2025.11.04 |
| K-Nearest Neighbors(KNN) 최근접 이웃 알고리즘 (0) | 2025.11.03 |