Информация из Stanford Parser в simple english

Issue #435 new
Oleg Sychev repo owner created an issue

Необходимо извлечь все доступные данные из Stanford Parser и корректно разместить информацию в агрегированных в processed string объектах для simple englih (кстати, Мамонтов - может он уже не simple если туда такое навернуть?).

Однозначно в токены идет информация: а) часть речи б) члены предложения (вопрос как определять, пока по связям) в) является ли собственным г) является ли первым словом в предложении

Также на основе связей строится синтаксическое дерево.

Вопрос - куда располагать информацию о coreferences. В дерево их включать нельзя - они сделают его структуру не древовидной. Варианты а) в токены, они все равно часть потока б) делать отдельный класс потока лексем, наследуемый - и обеспечить языкам возможность определять свои классы-наследники token_stream.

Жду мнений.

Comments (1)

  1. Oleg Sychev reporter

    @dmitry_mamontov подписываемся, жду мнений по расположению данных о coreference и не только

    @vsgurtovoy подписывайтесь, задавайте вопросы, участвуйте в обсуждении

    @vad23klev высылайте конкретные предложения по классам, их полям и методам - а также правилам построения деревьев, прикладывая файлы к этому иссью и комментируя в нем

  2. Log in to comment