분류 전체보기
-
한글 유사도 측정/ 정규화 방법관련컴퓨터이야기 2016. 11. 20. 17:44
학부때 교수에 우현히 형태소 분석기 VC++ 로 다뤄보고 한자/한글 자동 변환기 에 대해 작성했었을때는 그저 그냥 귀찮은 일이였었는데 조금더 열정을 가지고 학문적으로 깊게 공부를 했더라면 지금이 좀 더 편했지 않았을까 하는 생각이 드는 오늘이다. 검색 속도 때문에 인덱스의 효율을 최대로 끌어내기 위해 및 유사검색(=like 검색)을 가급적 하지 않도록 이것저거 머리를 쥐어짜고 있는데 문득 검색엔진이 하고 있는 제안어는 도데체 어떤 알고리즘으로 동작하는지 궁금하기 시작했다. 구글링 시작한지 얼마안되서 '아~~ 이게 쉽지 않는 일이구나' 라는 걸 금방알 수 있었다. 하지만 난 이문제를 해결해야한다. 일단 도움이 되는 링크들 몇개를 적어두고 이해할때까지 파도록하자! Bigram을 이용한 오타 검색어 정정, ..
-
오라클 정규식 활용Oracle 2016. 11. 7. 16:12
-- 날짜 형식 체크 정규식 ymd 는 YYYYMMDD 형식의 데이터 필드 select ymd, (CASE WHEN ymd IS NULL THEN 'NULL' WHEN NOT REGEXP_LIKE(ymd, '^[0-9]{4}(((0[13578]|(10|12))(0[1-9]|[1-2][0-9]|3[0-1]))|(02(0[1-9]|[1-2][0-9]))|((0[469]|11)(0[1-9]|[1-2][0-9]|30)))$') THEN '날짜형식이 틀림' WHEN NOT REGEXP_LIKE(SUBSTR(ymd, 1, 4), '((1[6-9]|[2-9]\d)([02468][48]|[2468][048]|[13579][26]))|((16|[2468][048]|[3579][26])00)') AND SUBSTR(ymd..