Информация из Stanford Parser в simple english
Необходимо извлечь все доступные данные из Stanford Parser и корректно разместить информацию в агрегированных в processed string объектах для simple englih (кстати, Мамонтов - может он уже не simple если туда такое навернуть?).
Однозначно в токены идет информация: а) часть речи б) члены предложения (вопрос как определять, пока по связям) в) является ли собственным г) является ли первым словом в предложении
Также на основе связей строится синтаксическое дерево.
Вопрос - куда располагать информацию о coreferences. В дерево их включать нельзя - они сделают его структуру не древовидной. Варианты а) в токены, они все равно часть потока б) делать отдельный класс потока лексем, наследуемый - и обеспечить языкам возможность определять свои классы-наследники token_stream.
Жду мнений.
Comments (1)
-
reporter - Log in to comment
@dmitry_mamontov подписываемся, жду мнений по расположению данных о coreference и не только
@vsgurtovoy подписывайтесь, задавайте вопросы, участвуйте в обсуждении
@vad23klev высылайте конкретные предложения по классам, их полям и методам - а также правилам построения деревьев, прикладывая файлы к этому иссью и комментируя в нем