ES Index Analyzer 에서 지정된 품사 이외의 다른 품사가 indexing 됨

Issue #6 resolved
Former user created an issue

현재 ES Analyzer 2.3.1 을 사용하고 있습니다.

아래와 같이 Tokenizer setting 을했습니다.

"seunjeon_default_tokenizer": {
"index_eojeol": "false",
"index_poses": [
"N"
,
"SL"
,
"SH"
,
"SN"
,
"UNK"
],
"decompound": "false",
"pos_tagging": "false",
"type": "seunjeon_tokenizer",
"deinflect": "false"
}

그런데 실제 index analyzer 를 실행해보았을 때, 지정된 품사가 아닌 것들도 같이 indexing 을 위한 tokenized keyword 로 나오고 있습니다.

query : /_analyze?analyzer=seunjeon_index&text=왕의%20딸로%20태어났다고%20합니다

{
"tokens": [
{
"token": "왕",
"start_offset": 0,
"end_offset": 1,
"type": "N",
"position": 0
},
{
"token": "딸",
"start_offset": 3,
"end_offset": 4,
"type": "N",
"position": 1
},
{
"token": "태어났",
"start_offset": 6,
"end_offset": 9,
"type": "V+EP",
"position": 2
},
{
"token": "합니다",
"start_offset": 12,
"end_offset": 15,
"type": "V+E",
"position": 3
}
]
}

버전을 변경해야할까요? 아니면 다른 조합의 옵션을 더 줘야할까요?

실제 코드를 봤을 때는 contains 로 포함된 품사가 있는 Node 만 대상이 되는거 같아서요. (isIndexNode ? )

혹시 잘못 사용하고 있거나 버전 업그레이드 등이 필요한지 조언 부탁 드립니다.

Comments (2)

  1. Log in to comment