Бахтеев О. Ю.,
и др.
Докладчик: Бахтеев О. Ю.
Рассматривается задача поиска почти-дубликатов в коллекции школьных сочинениях. Актуальность задачи обсуловлена наличием больших библиотек школьных сочинений, которые могут использоваться школьниками в качестве источника заимствования при написании собственного сочинения. Данная проблема является важной для системы образования, что было обозначено в ряде работ, посвященных анализу нарушений, выявляемых при написании сочинений и прохождении академических испытаний. Несмотря на массовость проблемы, на текущий момент не существует автоматических методов анализа сочинений на наличие корректных и некорректных цитирований, а также заимствований. Задача поиска почти-дубликатов рассматривается как задача информационного поиска. Предполагается, что авторы сочинений с допущенными заимствованиями используют в качестве источника заимствования только один текст.Сочинение представляется набором изображений рукописного текста, написанного автором. Традиционные системы поиска почти-дубликатов и заимствований рассматривают в качестве объекта печатный текст. Основные работы в области анализа текстов рукописных сочинений основаны на методах распознавания текста. Несмотря на успехи в области распознавания печатного текста, а также рукописного текста, написанного с использованием сенсорных устройств, применение данных методов для рассмотренной задачи затруднительно. В отличие от методов, применяемых для распознавания печатного текста, методы распознавания рукописного текста обладают достаточно низким качеством, не позволяющим использовать их для поиска заимствований в тексте сочинений. Основной проблемой при обработке школьных сочинений является невозможность системы распознавания текста адаптироваться к большому числу вариантов почерка. Поскольку сочинения пишутся разными людьми, то возможность провести дообучение системы по почерку автора отсутствует, что также усложняет задачу. Другой проблемой методов поиска почти-дубликатов, основанных на распознавании текста, является обязательное наличие разметки - соответствия между регионом изображения и соответствующим ему текстом. Разметка подобного рода для рукописных текстов является трудозатратной, и встречается в открытом доступе крайне редко. Предлагаемый метод поиска почти-дубликатов не требует наличия детально размеченного текста, что позволяет применять его в большом количестве задач, связанных с извлечением информации из изображений рукописного текста. Для решения задачи предлагается рассматривать текст, находящийся в изображении, как последовательность. Предлагается метод, заключающийся в выделении слов в изображении для дальнейшего извлечения графических признаков. В качестве алгоритма извлечения слов применяется метод, основанный на выделении компонент связности. Текст характеризуется последовательностью признаков, получение которых значительно проще, чем распознавание самого слова, что позволяет эффективнее работать с различными вариантамами почерка. Примером таких признаков являются длина и высота слова в изображении, наличие для слова характерных лигатур. В рамках проведенного эксперимента текст характеризуется нормализованными длинами извлеченных из изображения слов. Полученные статистики являются инвариантными по отношению к почерку автора, а также могут использоваться как для рукописных, так и для машиночитаемых текстов. В качестве функции схожести полученных признаковых описаний школьных сочинений рассматривается набор методов выравнивания последовательностей и временных рядов. Для подтверждения работоспособности метода проводится эксперимент на выборке изображений рукописных текстов школьных сочинений.
@conference{бахтеев2020иои,
presenter = {Бахтеев О. Ю.},
presenter_en = {Oleg Bakhteev},
abbr = {ИОИ},
abbr_en = {IDP},
title_en = {Near-duplicate detection in handwritten school essays},
title = {Поиск почти-дубликатов в рукописных текстах школьных сочинений },
author_en = {Oleg Bakhteev et al.},
author = {Бахтеев, О. Ю. and и, др.},
booktitle_en = {Intelligent Data Processing: Theory and Applications},
booktitle = {Интеллектуализация обработки информаци},
note_en = {Online conference},
note = {Онлайн-конференция},
year = {2020},
supp = {https://www.youtube.com/watch?v=ZuT6xs_mTvI},
pdf = {http://www.machinelearning.ru/wiki/images/3/31/Idp20.pdf}
}