'떨어진 조사' (조사 과적용) 이슈

Issue #1 resolved
Yong-woon Lee created an issue

이슈 설명

한국어의 특성상 조사는 앞의 형태소와 붙여 쓰는 게 원칙인데, mecab은 특정 형태소 앞에 공백(스페이스)의 여부를 가지고 학습할 방법이 딱히 없어보인다. 때문에 mecab-ko-dic에는 다음과 같은 조사 과 적용의 문제가 발생한다.

‘화학 이외의 것’ -> 화학(명사) 이(조사) 외(명사)의(조사) 것(명사)
‘합참 의장’ -> 합참(명사) 의(조사) 장(명사)

해결 방법 제안

위의 문제를 해결하기 위해 다음의 두 가지 방법을 모두 적용할 계획이다.

1. 명사+특정 조사의 연접 비용을 늘림.

자주 문제가 되는 이/JKS의 경우, mecab-ko-dic에서 명사와의 연접 비용을 늘려서 과다하게 조사로 판단되는 확률을 줄인다. (추후 문제가 되는 조사 발견시에 추가될 수 있음)

2. mecab-ko-lucene-analyzer에서 조사로 판단된 node가 공백을 가지고 있을 경우 후보정을 한다.

위의 경우 실제로 조사로 쓰이지 않은 경우이므로, 다음과 같이 보정한다.

  • 해당 형태소의 오른쪽의 형태소와도 공백이 존재하는 경우, 명사로 판단하고 그대로 토큰을 뽑는다.

ex) ‘합참 의 장’. -> 합참(명사) 의(조사->명사) 장(명사)

  • 해당 형태소가 오른쪽 형태소와 붙여 쓰기 됐을 경우, 오른쪽의 형태소와 합쳐진 형태소라 판단하여, 오른쪽 형태소의 문자열을 더한 토큰을 하나 더 생성한다.

ex) ‘합참 의장’ -> 합참(명사) 의(조사->명사) 장(명사)/의장(명사)

Comments (4)

  1. Log in to comment