전체 글 312

딥러닝 텍스트 전처리

1. 텍스트 정제(Cleaning) 및 토큰화(Tokenization)이 단계는 텍스트를 기계가 처리하기 쉬운 단위로 쪼개는 과정입니다.정제: 불필요한 HTML 태그, 특수 문자, 이모지 등을 제거하거나 표준화합니다.토큰화: 문장을 의미를 가지는 최소 단위(단어, 형태소, 서브 워드 등)로 분리합니다. (예: "나는 학생이다" -> ['나', '는', '학생', '이다'])2. 단어(또는 서브 워드) 사전(Vocabulary) 생성토큰화된 결과물을 바탕으로 전체 데이터셋에 존재하는 고유한 단어들의 집합을 만듭니다.역할: 모델이 인지할 수 있는 모든 단어들의 목록을 정의합니다.특징: 빈도수가 낮은 단어는 제거하여 사전 크기를 줄이고, 모르는 단어(OOV, Out-Of-Vocabulary)를 처리하기 위해 ..

폰 분실 대비 2. (GPS. 이동 경로 보내기)

요약핸드폰 분실 했을 시정해진 트리거가 작동 했을때GPS를 1분 단위로 계속 저장,이동 경로를 kml형태로 메일로 전송 트리거 . 정해진 패턴이 들어간 문자 수신시GPS 저장 시작, GPS 저장 중지, 모든 데이터 전송, 정해진 기간 데이터 전송(@start, @stop, @send all, @send 2025-11-26_19:00 2025-11-26_23:59)헤맨점. 위치정보의 provider이 GPS가 정확도가 높지만 실내에서는 안됨.먼저 GPS 탐색 실패시 network 탐색을 했는데 GPS 실패시 1분간의 유휴시간이 발생(성공후 바로 같은 provider 탐색은 1초 미만으로 걸림) 유휴시간을 없애고자 GPS 실패시 해당 프로세서 kill하고 바로 실행 시켜 보려고 하였으나 안드로이드 단계에서 ..

폰 분실 대비 (사진, GPS, 녹음)

요약핸드폰 분실 했을 시정해진 트리거가 작동 했을때전 후면 카메라, 현재 GPS, 녹음해서 내 메일로 보내게 하기 트리거 1. 비밀번호 틀렸을 시트리거 2. 정해진 패턴이 들어간 문자 수신시 (@show) 핸드폰에 termux를 깔아 리눅스 환경을 만들고Tasker로 트리거와 해당 트리거에서 실행할것들 정해준다 헤맨점 1. 녹음을 백그라운드에서 돌리면서 나머지 실행했는데 카메라 찍을 때 녹음이 꺼짐-> 독립적으로 실행 시킴 헤맨점 2. 위치정보의 provider이 GPS가 정확도가 높지만 실내에서는 안됨. 먼저 GPS 탐색 실패시 network 탐색을 했는데 GPS 실패시 1분간의 유휴시간이 발생(성공후 바로 탐색은 1초 미만으로 걸림) 유휴시간을 없애고자 GPS 실패시 해당 프로세서 kill하고 바로..

K-means Document Clustering

1. K-means 문서 군집화란?데이터를 $k$개의 그룹(클러스터)으로 나누는 대표적인 비지도 학습 알고리즘입니다. 텍스트 분석에서는 주로 TF-IDF 등으로 벡터화된 문서들이 주어졌을 때, 내용이 비슷한 문서끼리 같은 그룹으로 묶는 데 사용됩니다.주요 과정임의의 중심(centroid) k개를 설정합니다.모든 데이터를 가장 가까운 중심에 배정합니다.군집 내 데이터들의 평균을 구해 중심을 새롭게 이동합니다.중심의 위치가 변하지 않을 때까지 위 과정을 반복합니다.활용 예시배송 불만 리뷰, 가격 만족 리뷰 등을 자동으로 분류할 때 사용합니다.sklearn 라이브러리의 KMeans 클래스를 사용하여 구현하며, n_clusters (군집 개수) 설정이 필수적입니다.kmeans = KMeans( n_clus..

Cosine 유사도

1. 코사인 유사도 정의코사인 유사도는 두 벡터의 **크기(길이)**가 아닌, 두 벡터가 이루는 각도의 코사인 값을 측정하여 유사도를 판단하는 지표입니다.A. 텍스트에서의 활용텍스트가 TF-IDF와 같은 방식으로 벡터화되면, 각 문서는 여러 단어를 축으로 가지는 고차원 벡터가 됩니다.이때 코사인 유사도는 두 문서 벡터의 방향이 얼마나 일치하는지를 측정합니다.B. 각도와 유사도의 관계각도 (방향)코사인 값유사도의미작을수록 ($0^\circ$에 가까울수록)1에 가까움높음 ($\uparrow$)두 문서의 내용과 주제가 매우 비슷함$90^\circ$ (직각)0거의 없음두 문서가 서로 독립적이거나 관련이 거의 없음$180^\circ$ (반대 방향)-1반대 관계(텍스트에서는 흔치 않음)C. 값의 범위일반적으로 텍스..

RNN(Recurrent Neural Networks)

1. RNN이란 무엇인가?RNN은 입력과 출력을 순서대로 처리하며, 이전 단계의 계산 결과를 저장했다가 다음 단계의 계산에 사용하는 '순환(Recurrence)' 구조를 가진 신경망입니다.핵심 아이디어: 메모리 (Memory)일반적인 신경망(MLP, CNN)은 현재 입력만 처리하지만, RNN은 **은닉 상태(Hidden State, $h\_t$)**라는 형태의 **'내부 메모리'**를 통해 과거 정보를 요약하여 저장합니다. 이 메모리가 현재의 입력과 결합되어 다음 출력을 결정하는 데 사용됩니다.순환 구조: RNN의 은닉 계층에서 출력된 값이 다시 다음 시점의 입력으로 사용되는 구조를 가집니다.2. RNN의 작동 원리RNN은 각 시점(Time Step, $t$)에서 동일한 함수와 가중치 집합($W$)을 사..

CNN(Convolutional neural network)

1. CNN이란 무엇인가?CNN은 인간의 시각 시스템과 유사하게 동작하도록 설계된 인공신경망의 한 종류입니다. 일반적인 신경망(Fully Connected Layer, 완전 연결 계층)과는 달리, 이미지의 픽셀 정보를 직접 처리하지 않고 **특징(Feature)**을 추출하는 데 특화되어 있습니다.핵심 아이디어지역적 연결(Local Connectivity): 뉴런들이 입력 전체가 아닌 입력의 일부 영역에만 연결됩니다.가중치 공유(Weight Sharing): 동일한 특징 추출기(필터/커널)를 입력 이미지의 여러 위치에 적용하여 학습해야 할 파라미터(가중치) 수를 획기적으로 줄입니다.2. CNN의 주요 구성 요소CNN은 크게 특징 추출(Feature Extraction) 부분과 분류(Classificati..

LDA (Latent Dirichlet Allocation)

LDA (Latent Dirichlet Allocation: 잠재 디리클레 할당)1. LDA의 정의 및 특징LDA는 토픽 모델링의 대표적인 알고리즘으로, 주어진 문서들에 대해 각 문서에 어떤 주제들이 존재하는지에 대한 확률 모델입니다.핵심은 다음 두 가지 분포를 모두 추정하는 것입니다.토픽별 단어의 분포문서별 토픽의 분포2. LDA의 가정LDA는 문서를 구성하는 방식에 대해 다음과 같이 가정합니다.문서 = 여러 토픽이 섞인 것토픽 = 여러 단어가 섞인 것3. 학습 과정LDA의 학습은 문서 집합에서 토픽-단어 분포와 문서-토픽 분포를 역으로 추정하는 과정입니다. 즉, 이미 존재하는 문서와 그 안의 단어들을 보고 그 이면에 있는 토픽의 구조를 파악해 냅니다.4. 토픽 모델링문서의 집합에서 토픽을 찾아내는 프..

LSA (Latent Semantic Analysis)

LSA (Latent Semantic Analysis, 잠재 의미 분석)LSA는 수많은 문서와 단어 속에 숨겨진 **"잠재적인 의미 구조(Latent Semantic Structure)"**를 찾아내기 위한 자연어 처리 기법입니다.1. 작동 방식: 차원 축소LSA는 다음과 같은 과정을 통해 작동합니다.1. 입력 (Input)거대한 표(TF-IDF 행렬): 분석 대상이 되는 문서들을 행(Row)으로, 그 문서들에 나타난 모든 단어들을 열(Column)로 구성한 행렬을 사용합니다. 행렬의 각 칸은 해당 단어가 문서에 얼마나 중요한지를 나타내는 TF-IDF(Term Frequency-Inverse Document Frequency) 값을 가집니다.입력: 문서 $\times$ 단어 TF-IDF 행렬2. 핵심 ..

SVM(LinearSVC)

SVM(Support Vector Machine)서로 다른 두 클래스(예: 긍정 vs 부정)를 가장 잘 분리할 수 있는 선(또는 초평면)을 찾는 모델.목표는 두 클래스 사이의 간격(margin)을 최대화하는 결정 경계를 만드는 것. Margin(마진)결정 경계 양쪽에 생기는 여유 공간을 의미.마진이 넓을수록 모델은데이터 노이즈에 강하고일반화 성능이 좋아짐. Support Vectors마진에 가장 가깝게 위치한 점들.이 점들이 실제로 결정 경계를 만드는 핵심 역할을 함.전체 데이터 중 극히 일부만 경계에 영향을 줌. 텍스트(TF-IDF)에서 SVM이 잘 맞는 이유텍스트 벡터(TF-IDF)는 차원이 수천~수만으로 매우 큼.고차원 공간에서는 서로 다른 클래스를 선형(직선 또는 초평면)으로 분리하기가 쉬워짐.그..

카테고리 없음 2025.11.20