Стандартизация qtype_correctwriting_string_pair

Issue #309 closed
Oleg Sychev repo owner created an issue

Originally reported on Google Code with ID 309

У нас сейчас этот класс представляет собой свалку информации, при которой однородная
информация от разных анализаторов хранится в разных формах, а хранимая информация многократно
дублируется (например перечни индексов перемещнных, добавленных и т.д. лексем вычисляются
из lcs, и sequence mistakes тоже).

Это надо устаканить, для чего составить описание что есть и проект, а потом уже делать.

Принципы:
1) информация должна дублироваться только там, где она многократно используется;
2) однотипная информация должна хранится в стандартном виде
3) дублированная информация должна вычисляться по мере надобности, чем позже тем лучше,
т.к. более поздние анализаторы могут корректировать данные более ранних;
4) информация должна хранится по возможности в наиболее удобной для использования форме.

Reported by oasychev on 2014-11-25 13:06:37

Comments (8)

  1. Oleg Sychev reporter
    К началу обзора: block_formal_langs_string_pair
    matches - хранит набор объектов matched_pair и агрегирующую информацию. matched_pair
    является одним соответствием и хранит тип соответствия, массивы индексов участвующих
    лексемы из обеих строк и дополнительные данные типа веса ошибки и сообщения о ней.
    
    Я так понимаю mappings играют ту же роль, но хранят данные по другому - в виде двух
    массивов, элементы с одинаковыми индексами которых соответствуют друг другу.
    
    Мне кажется, что в данном случае использование потомков matched_pair перспективнее,
    т.к. они хранят данные о соответствии в одном объекте и содержат массу полезной дополнительной
    информации.
    
    Однако возможно актуальна также доработка полей и методов в matches_group с целью более
    производительного получения списка всех соответствий одного типа или от одного анализатора.
    
    Дмитрий, ваше мнение? Остальные тоже могут высказываться...
    

    Reported by oasychev on 2014-11-25 13:13:24

  2. Former user Account Deleted
    Здесь большую роль будет играть мнение Матюшечкина - ему как раз под него подстраиваться.
    Пускай он за неделю выяснить степень удобства. Я - тем временем решу те старые проблемы,
    что у нас есть пока.
    

    Reported by mamontov.dp on 2014-11-25 14:46:18

  3. Oleg Sychev reporter
    Не лучшее решение, это уж нам с вами обсуждать надо как общую архитектуру и с учетом
    квалификации.
    Как у нас сейчас хранятся mistakes?
    

    Reported by oasychev on 2014-11-25 22:29:40

  4. Former user Account Deleted
    Как мы уже смотрели в понедельник - в массиве объектов.
    

    Reported by mamontov.dp on 2014-11-26 05:16:19

  5. Oleg Sychev reporter
    Ясно что в массиве, вопрос как ведется индексация этого массива.
    

    Reported by oasychev on 2014-11-26 22:41:23

  6. Former user Account Deleted
    Просто обычный линейный массив объектов.
    

    Reported by mamontov.dp on 2014-11-27 04:52:47

  7. Log in to comment