- edited description
'떨어진 조사' (조사 과적용) 이슈
Issue #1
resolved
이슈 설명
한국어의 특성상 조사는 앞의 형태소와 붙여 쓰는 게 원칙인데, mecab은 특정 형태소 앞에 공백(스페이스)의 여부를 가지고 학습할 방법이 딱히 없어보인다. 때문에 mecab-ko-dic에는 다음과 같은 조사 과 적용의 문제가 발생한다.
‘화학 이외의 것’ -> 화학(명사) 이(조사) 외(명사)의(조사) 것(명사)
‘합참 의장’ -> 합참(명사) 의(조사) 장(명사)
해결 방법 제안
위의 문제를 해결하기 위해 다음의 두 가지 방법을 모두 적용할 계획이다.
1. 명사+특정 조사의 연접 비용을 늘림.
자주 문제가 되는 이/JKS의 경우, mecab-ko-dic에서 명사와의 연접 비용을 늘려서 과다하게 조사로 판단되는 확률을 줄인다. (추후 문제가 되는 조사 발견시에 추가될 수 있음)
2. mecab-ko-lucene-analyzer에서 조사로 판단된 node가 공백을 가지고 있을 경우 후보정을 한다.
위의 경우 실제로 조사로 쓰이지 않은 경우이므로, 다음과 같이 보정한다.
- 해당 형태소의 오른쪽의 형태소와도 공백이 존재하는 경우, 명사로 판단하고 그대로 토큰을 뽑는다.
ex) ‘합참 의 장’. -> 합참(명사) 의(조사->명사) 장(명사)
- 해당 형태소가 오른쪽 형태소와 붙여 쓰기 됐을 경우, 오른쪽의 형태소와 합쳐진 형태소라 판단하여, 오른쪽 형태소의 문자열을 더한 토큰을 하나 더 생성한다.
ex) ‘합참 의장’ -> 합참(명사) 의(조사->명사) 장(명사)/의장(명사)
Comments (4)
-
reporter -
reporter 해결 방법 제안 1 mecab-ko-dic에 적용 4dfeb49
-
reporter - edited description
-
reporter - changed status to resolved
두가지 모두 적용하였음.
- Log in to comment