컴퓨터이야기

한글 유사도 측정/ 정규화 방법관련

스마트큐브 2016. 11. 20. 17:44

학부때 교수에  우현히  형태소 분석기 VC++ 로 다뤄보고  한자/한글 자동 변환기 에 대해 작성했었을때는 

그저 그냥 귀찮은 일이였었는데 조금더  열정을 가지고 학문적으로 깊게 공부를 했더라면 지금이 좀 더 편했지 않았을까 하는 생각이 드는 오늘이다. 


검색 속도 때문에 인덱스의 효율을 최대로 끌어내기 위해  및 유사검색(=like 검색)을 가급적 하지 않도록 이것저거 

머리를 쥐어짜고 있는데   문득  검색엔진이 하고 있는 제안어는 도데체 어떤 알고리즘으로 동작하는지 궁금하기 시작했다. 


구글링 시작한지 얼마안되서 '아~~ 이게 쉽지 않는 일이구나' 라는 걸 금방알 수 있었다. 


하지만 난 이문제를 해결해야한다.  일단 도움이 되는 링크들 몇개를 적어두고 이해할때까지 파도록하자!


Bigram을 이용한 오타 검색어 정정, 검색어 제안 기능 (PHP, MySQL)


문자열 유사도(Similarity)


두 문자열의 유사도 측정방법