n-gram 3

17일차 / n-Gram구현 및 개선, 리벤슈타인 거리 시간,공간 복잡도 개선

n-Gram n-gram에 대해 내가 쓴 글들 https://fullfish.tistory.com/109 n-Gram n-Gram이란 문장의 유사도를 비교하는 방법중 하나로 문장을 쪼개서 비교한다 예를 들어 3-gram으로 '과자중에 제일 맛있는건 새우깡' '제일 맛있는 과자는 무엇일까' 이 두문장을 비교한다면 각 문 fullfish.tistory.com https://fullfish.tistory.com/110 n-Gram 개선 및 고찰 자음 모음단위로 n-Gram 저번에 구현한 n-gram https://fullfish.tistory.com/109 n-Gram n-Gram이란 문장의 유사도를 비교하는 방법중 하나로 문장을 쪼개서 비교한다 예를 들어 3-gram으로 '과자중에 제일 맛있.. fullfi..

n-Gram 개선 및 고찰

자음 모음단위로 n-Gram 저번에 구현한 n-gram https://fullfish.tistory.com/109 n-Gram n-Gram이란 문장의 유사도를 비교하는 방법중 하나로 문장을 쪼개서 비교한다 예를 들어 3-gram으로 '과자중에 제일 맛있는건 새우깡' '제일 맛있는 과자는 무엇일까' 이 두문장을 비교한다면 각 문 fullfish.tistory.com 에서는 글자를 음절 단위로 잘라서 썼었다 예를 들어 안녕하세요를 3-Gram으로 한다면 ['안녕하', '녕하세', '하세요']로 나눴는데 활용하기 나름이지만 이번에는 자음 모음단위로 나뉘어 봤다 ['ㅇㅏㄴ', 'ㅏㄴㄴ', 'ㄴㄴㅕ' ...] 해당 방법의 장점은 오타나 어미가 달라도 검색이 될 가능성이 높아지게끔 허들을 낮출 수 있다 우선은 문자..

n-Gram

n-Gram이란 문장의 유사도를 비교하는 방법중 하나로 문장을 쪼개서 비교한다 예를 들어 3-gram으로 '과자중에 제일 맛있는건 새우깡' '제일 맛있는 과자는 무엇일까' 이 두문장을 비교한다면 각 문장을 3글자씩 자른다. "과자중에 제일 맛있는건 새우깡" [ '과자중', '자중에', '중에 ', '에 제', ' 제일', '제일 ', '일 맛', ' 맛있', '맛있는', '있는건', '는건 ', '건 새', ' 새우', '새우깡' ] "제일 맛있는 과자는 무엇일까" [ '제일 ', '일 맛', ' 맛있', '맛있는', '있는 ', '는 과', ' 과자', '과자는', '자는 ', '는 무', ' 무엇', '무엇일', '엇일까' ] 그리고 각 요소를 비교해서 유사도를 측정한다 https://too-marc..