Текст извлечен с помощью ocr - IT Справочник
Llscompany.ru

IT Справочник
23 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Текст извлечен с помощью ocr

Что такое OCR в антиплагиате?

OCR, или Optical Character Recognition, дословно переводится как «оптическое распознавание символов». Этот механизм успешно используется на протяжении уже долгого времени в различных сферах деятельности человека. Самой известной программой по распознаванию текста на сегодняшний день является ABBYY FineReader. Данная программа способна переводить текст со сканированных изображений, фотографий и картинок в редактируемые форматы, такие как .doc, .docx или .txt. Таким образом, стало возможным не только преобразовывать в печатный формат бумажные книги, журналы и периодические издания, но и появилась возможность их редактирования, изменения и форматирования.

Несмотря на то, что оптическое распознавание текста активно используется уже достаточно долгое время, Антиплагиат внедрил в свой механизм проверки модуль OCR сравнительно недавно.

  • 1. Что такое OCR в антиплагиате?
  • 2. Текст извлечен с помощью OCR – что это значит?
  • 3. Как обойти OCR в антиплагиате?

Что такое OCR в антиплагиате?

Давайте теперь поподробнее разберем, что такое OCR в антиплагиате. На самом деле, сам механизм распознавания текста остался неизменным, но приобрел новое значение. С помощью OCR система Антиплагиат уже не просто сканирует исходный машинописный текст, а сначала трансформирует его в изображение, делая своего рода фотографию, а уже потом производит оптическое распознавание. Распознанный текст в конечном итоге и подвергается проверке на уникальность. Звучит достаточно сложно, так зачем же такие трудности?

Дело в том, что система OCR в антиплагиате позволяет исключить все устаревшие способы искусственного завышения уникальности. Теперь программа будет работать именно с изображением текста, а не с текстом как таковым.

Еще одной фишкой модуля OCR является то, что теперь распознаваться будут изображения и таблицы, включенные в документ. Если раньше таблицы и изображения системой не распознавались и воспринимались антиплагиатом как уникальный текст, то теперь дела обстоят иначе – проверке будут подвергаться все элементы курсовой или дипломной работы.

Конечно, как и любые другие поисковые модули, модуль OCR не бесплатный. Доступен он только в системе Антиплагиат.ВУЗ или же его можно подключить на одну проверку в Антиплагиат.ру, минимальная цена которой 270 рублей.

Для использования OCR во время проверки работы необходимо поставить галочку напротив «Использовать распознавание текста (OCR)».

Разработчики антиплагиата предупреждают, что при проверке документа с помощью распознавания текста, скорость обработки файла может значительно увеличится.

Текст извлечен с помощью OCR – что это значит?

Нередко студенты сталкиваются с фразой, представленной в полных отчетах системы Антиплагиат.ВУЗ, «Текст извлечен с помощью OCR». Это значит, что перед проверкой работы преподаватель подключил модуль OCR – поставил галочку напротив «Использовать распознавание текста (OCR)». С помощью этого модуля в файле будут подвергаться проверке только видимые элементы, а это значит, что искусственное завышение уникальности с помощью скрытых символов в 90% случаев не сработает. Поскольку для того, чтобы использовать распознавание текста при проверке документа его сначала нужно подключить, многие преподаватели просто забывают о такой возможности, однако если же этот модуль действительно включен, информация об этом обязательно отобразиться в полном отчете о проверке.

После того как мы разобрали принципы распознавания текста OCR и что это в антиплагиате, стоит подробней остановиться на способах повышения уровня оригинальности текста и на том, как можно обойти модуль OCR.

Как обойти OCR в антиплагиате?

Использование преподавателями при проверке студенческих работ функции OCR действительно осложнило ситуацию, особенно если она используется в совокупности с множеством дополнительных модулей поиска.

Старые методы искусственного завышения с появлением модуля OCR уже не действуют. Благодаря тому, что функция распознавания позволяет работать не с текстом как таковым, а с его видимым изображением, то замена букв и прочие устаревшие методы повышения уникальности никак не повлияют на процент в антиплагиате, а только обеспечат вам пометку «подозрительный документ», что наверняка не обрадует вашего научного руководителя. Однако обойти OCR все же возможно.

Самым действенным и честным способом остается самостоятельное написание работы. Так вы можете быть уверены, что успешно пройдете любые проверки на антиплагиате и получите отличную оценку. Конечно, далеко немногие студенты могут позволить себе самостоятельно писать курсовую или диплом вввиду своей загруженности, а написание качественного и оригинального материала требует много времени и сил.

Можно также заказать работу на профильном сайте, предлагающем услуги авторов по различным направлениям подготовки. Этот способ обойдется достаточно дорого, ведь на хорошие, качественные работы цены очень высокие. Кроме того, всегда есть шанс попасть на недобросовестного исполнителя, который срывает все сроки и предоставляет скопированный текст.

Глубокий, основательный рерайт – это еще один способ значительно повысить уровень оригинальности работы. Воспользовавшись данным методом, вы получите совершенно новый текст. Несмотря на очевидные плюсы, глубокий рерайт занимает очень много времени и совершенно не подходит для ситуаций, когда действовать приходится в сжатые сроки.

Сервис ПОВЫСИТЬ-АНТИПЛАГИАТ.РФ поможет вам добиться высокого процента уникальности даже при проверке с включенным модулем OCR. Обработка документа занимает не более 2 минут, текст внешне не меняется. Стоимость услуги — 100 рублей за файл с любым количеством страниц.

OCR распознавание текста из PDF и изображений

Как работает наш OCR сервис

Что такое OCR

Вы когда-нибудь хотели иметь возможность найти в печатном цифровом материале или отсканированном документе конкретный текст? Или возникла ли у вас необходимость отредактировать содержимое журнала или отсканированного PDF-документа, не перепечатывая весь документ? Классическим решением во всех этих случаях было бы перенабрать весь контент и его отредактировать. Это все еще нормальная практика, когда дело доходит до редактирования печатных контрактов, брошюр или страниц журнала. Но мы все знаем, насколько трудоемким и беспокойным может стать это решение, если источник представляет собой обыкновенное изображение. Бесплатный OCR сервис — это то, что может решить вашу проблему, сэкономить деньги, сэкономить ваше драгоценное время и обеспечить быстрые и эффективные результаты всего за несколько шагов.

Оптическое распознавание символов или OCR — это технология, позволяющая преобразовывать печатные или рукописные документы в редактируемые текстовый материал. Просто отсканировав напечатанные документы с помощью программного обеспечения для распознавания текста OCR, вы можете легко конвертировать файлы в печатные копии, которые можно редактировать, копировать или распространять согласно вашим требованиям. Сканеры текста OCR очень универсальны и могут сканировать текст из изображений, печатных документов и файлов PDF. Программное обеспечение OCR можно загрузить или использовать в качестве онлайн-сервисов.

Как работает OCR

Хотя понятие «машинного распознавания текста» не ново и появилось еще в 1960-х годах, в то время компьютер мог считать единственный вариант шрифта, называемый OCR-A. С развитием технологии сканеры текста OCR стали более продвинутыми и позволили пользователям использовать эту технологию для более широкого спектра приложений. В настоящее время текстовые сканеры OCR в основном используют два различных метода для преобразования печатного текста в редактируемый.

Читать еще:  Вирус блокирует сайты антивирусов
Метод сопоставления матриц

Первый метод — это метод сопоставления матриц. Этот метод работает по принципу сопоставления печатного текста с базой данных шаблонов символов и шрифтов. Сканер текста OCR сканирует напечатанный текст, сравнивает его с существующей библиотекой шаблонов и, когда совпадение найдено, преобразует данные в соответствующий код ASCII. Затем вы можете манипулировать этими данными в соответствии с вашими требованиями. Этот метод быстро возвращает результаты, но из-за ограниченной базы данных символов метод сопоставления матриц имеет свои ограничения. Алгоритм завершается ошибкой, когда он пытается распознать текст, которого нет в его базе данных, и выводит неверный текст. Следовательно, пользователи должны сохранять бдительность при использовании этого метода, поскольку он может генерировать ошибки, которые необходимо будет впоследствии исправить вручную.

Метод извлечения особенностей

Другой метод, используемый программным обеспечением OCR, — это метод извлечения признаков текста. Этот метод основан на искусственном интеллекте, где онлайн программное обеспечение OCR предназначено для определения общих точек в форме букв, таких как искривления, наклоны и пробелы в алфавите. Сканеры текста OCR ищут эти общие точки в тексте и возвращают результаты в коде символов ASCII после того, как найден определенный процент «совпадения». Следовательно, этот метод ищет повторяющиеся шаблоны или правила, которые представляют букву, и программное обеспечение может предсказать букву, просто просматривая общие точки, найденные в шаблоне. Метод является более гибким и может работать с большим количеством печатных или рукописных документов.

Кроме того, искусственный интеллект постоянно обновляет свои знания о различных почерках и шрифтах, что делает его более универсальным в использовании и оставляет возможности дальнейших улучшений и модернизаций алгоритма.

OCR онлайн сервисы

Самый простой способ сконвертировать распечатанные файлы в редактируемую версию — использование онлайн-сервисов OCR, в том числе нашим сервисом. Использовать онлайн-сервисы OCR чрезвычайно просто, поскольку вам нужно только отсканировать документ, загрузить его, и файл будет преобразован в редактируемую версию. Бесплатный сервис OCR — это отличная возможность для бизнеса сэкономить своё драгоценное время и деньги.

Есть несколько преимуществ использования бесплатных услуг OCR онлайн сервисов. Эти преимущества включают в себя:

  • Время, затрачиваемое на весь процесс, значительно сокращается, и большие документы можно подготовить всего за несколько минут. Редактировать контракты, страницы журналов и брошюры теперь стало очень просто.
  • Упрощение процесса извлечения данных из сложных документов.
  • Снижение вероятности человеческой ошибки, связанной с методом чтения и перепечатывания.
  • Устранение трудозатрат в часах, необходимых для затратного процесса ввода данных.
  • Сканеры текста OCR являются сложными и могут также распознавать сложные почерки, которые могут занять время, чтобы человеческий глаз мог их прочитать и обработать.

Благодаря более быстрому циклу обработки и современным сканерам распознавания текста, эта технология может сэкономить достаточно значительное количество времени и средств для пользователей, которые смогут распорядиться своим временем более эффективно.

Модуль OCR в антиплагиате — что это простыми словами

В 2018 году Антиплагиат анонсировал большую новость. Сайт внедряет в свою систему проверки, модуль OCR. По заявлениями разработчиков компании Анти-плагиат, внедрение данного модуля автоматически означает, что искусственное повышение уникальности текста (кодирование, макросы, технический подъем) теперь будут неэффективны.

Так ли это? Давайте разбираться. В статье мы расскажем, что такое модуль OCR в антиплагиате и так ли он страшен и непроходим, как о нем говорят.

МОДУЛЬ OCR В АНТИПЛАГИАТЕ — ЧТО ЭТО ПРОСТЫМИ СЛОВАМИ

OCR – дословно, переводится как “оптическое распознавание символов”. Для лучшего понимания приведем пример. Все знают, что такое сканер. И многие не раз делали такую процедуру – сканировали какой нибудь текст с книги, а затем, с помощью программы (самая известная Abbyy FineReader) производили распознавание текста. В результате текст с книги оказывался в печатном виде на компьютере.

Именно это и внедрил Антиплагиат в свою систему проверки, пока правда, только в платную его версию Антиплагиат ВУЗ.

МОДУЛЬ OCR – КАК ЭТО РАБОТАЕТ?

По замыслу разработчиков Антиплагиата, при анализе текста с помощью модуля OCR (оптическое распознование текста), система будет, по простому говоря, делать фотографию проверяемого – видимого текста, после чего он будет распознаваться онлайн и именно уже распознанный текст, будет подвергаться проверке на уникальность в программе.

Логично, что если это действительно будет работать, то все фишки со скрытым текстом, символами и прочими махинациями с текстом, направленные на повышения уникальности, будет неэффективны. Они попросту не будут распознаны.

МОДУЛЬ ОКР НА ПРАКТИКЕ (ПРИ ПРОВЕРКЕ)

На практике, дела обстоят совершенно иначе.

Данная функция уже больше года присутствует в системах проверки антиплагиата и ей уже можно пользоваться, однако, алгоритм с распознаванием не работает.

Антиплагиат заявляет, что оптическое распознавание символов внедрено, но по факту его нет. Это мы проверили на практике.

На деле, никакого оптического рапознавания не происходит, а вместо OCR происходит более глубокий анализ документа с показанием более низкого процента.

Включение модуля OCR действительно делает процесс технического повышения уникальности текста более сложным, но все равно обойти антиплагиат возможно, без больших проблем.

К тому же данный модуль в антиплагиате не включен автоматически. Чтобы его активировать, нужно нажать на галочку(см.фото)

На практике преподаватели практически не пользуются OCR при проверках. Лишь 1 преподаватель из 10000 подключает данную функцию перед проверкой документа.

Несколько десятков вузов вообще отказались от данной функции, ведь стоит она дорого, а эффекта особого не приносит.

Настоящее оптическое распознавание символов (ОКР) в антиплагиате это утопия. Кто активно пользуется системой Антиплагиат, часто сталкиваются с дикими перегрузками на сайте, даже в обычные месяцы.

А в месяцы сессии, одну работу система может проверять по часу. Сервера по-просту не выдерживают нагрузки.

Если же внедрить полноценный модуль OCR в антиплагиат, что бы он работал действительно используя распознавание текста, процесс анализа документов затянется на часы.

Системе антиплагиат нужно будет вначале сделать фото текста, затем совершить онлайн распознавание текст и лишь затем, провести его проверку на оригинальность.

Проверять работу по несколько десятков минут и даже часов никому не интересно, в результате от системы Антиплагиат будут отказываться. Речь идет именно о вузовской версии Антиплагиат вуз, за которую ежегодно, компания получает около 1 миллиона рублей с учебного заведения.

Читать еще:  Как проверить антивирус касперского

Более того, создать непроходимую систему антиплагиата, элементарно, не выгодно самим разработчикам.

Сегодня более 80% студентов повышают антиплагиат используя кодирование и технический подъем. Если система станет не проходимой, нас ждет миллионы отчисленных студентов, что вызовет огромный общественный резонанс и возможно, отмену системы Антиплагиат в принципе.

“Хозяевам” антиплагиата это совершенно не выгодно. Ведь кормушка под названием “Антиплагиат” приносит колосальные прибыли их владельцам.

КАК ОБОЙТИ OCR В АНТИПЛАГИАТЕ

Обойти модуль OCR в антиплагиате может программа Антиплагиат киллер, которая выпускается разработчиками компании Анти-антиплагиат.

Если вам необходимо повысить уникальность текста таким образом, чтобы при проверке с OCR процент показало высокий, можете обратиться к нам, мы поможем сделать это каждому клиенту.

Мы имеет доступ к системе Антиплагиат ВУЗ в которой подключен данный модуль, и сделаем кодировку таким образом, что документ пройдет проверку на уникальность даже с подключением OCR.

Мы работаем без предоплаты. Высылаем работу вперед, оплатить услугу можно после проверки текста на уникальность.

Лучшие программы для распознавания и сканирования текста

Программы для распознавания и сканирования текста

Представляем вашему вниманию программы для распознавания и сканирования текста, с помощью которых можно оптимизировать процесс оцифровки документов, рукописных или бумажных книг.

Рассматриваемые нами приложения легко переводят png, jpg, pdf и «бумажные файлы» в удобный для редактуры в Word формат и другие офисные ПО, редактируют распечатанный или сфотографированный материал в полноценный текст.

ABBYY FineReader скачать

Приложение легко распознает печатные символы и преобразовывает отсканированные документы в цифровые форматы. Считается лидером в своей категории, поскольку выполняет свои задачи качественно и быстро, в отличие от подобных аналогов. Эбби ФайнРидер имеет свою OCR технологию обработки материала, функции для захвата данных на разных источниках, а также инструменты для обработки PDF-объектов, их редактирования и комментирования. Также доступна автоматизированная конвертация, сохранение разметок, обработка текста на разных языках, поддержка подключаемых устройств и интегрированный редактор. Бесплатная версия ограничивает работу софта после 15 дней использования.

OCR CuneiForm скачать

Программа специализируется на идентификации сканированного или сфотографированного текста, сохраняя его структурирование и гарнитуру шрифта. Понимает любой печатный шрифт, отправляет распознанный результат во встроенный редактор текста, переделывает электронные копии и графические файлы в удобный вид для редактуры. В состав комплекса входят два программных обеспечения для пакетной и одиночной обработок. Распознанные документы легко сохранить в удобном формате или отыскать их в поиске. Дополнительно прога может определять таблицы, текстовые блоки и графические картинки вне зависимости от сложности, объема и четкости текста.

Adobe Reader скачать

Популярный просмотрщик всех видов PDF-файлов с базовыми функциями работы с документацией. Позволяет просматривать, копировать, менять ориентацию или отправлять на печать документы. Для слабовидящих юзеров доступна опция масштабирования, увеличивающая размер шрифта до нужных параметров. Также можно воспользоваться функцией трёхмерного изображения и воспроизведения интегрированных в мультимедийный контент объектов. Доступен поиск в PDF картах, портфолио и файлах, а также комментирование файлов, присоединение электронных подписей и настройка плагинов для веб-навигаторов. Из минусов бесплатной версии отметим ограниченный только просмотром функционал.

WinScan2PDF скачать

Портативная утилита для считывания данных со сканеров и сохранения материала в PDF. Софт переводит содержимое документов в цифровые форматы, одновременно обрабатывает несколько книг с последующим сохранением в один файл с соответствующим количеством страниц. В настройках можно выбирать качество сохраняемой работы, создавать много страниц в одном документе, менять язык интерфейса. ВинСкан2ПДФ позволит быстро отсканировать бумажную документацию, обработать сразу несколько страниц и создать многостраничный ПДФ.

VueScan скачать

Программа-имитатор работы драйвера для расширения функциональных возможностей разнообразных моделей сканеров. Быстро подключается к устройствам сканирования, работает с негативами, старыми фотоснимками и слайдами без потери качества. В пользовательских настройках можно настраивать все этапы сканирования, сохранять отсканированную документацию в TIFF, JPEG и PDF форматах, распознавать тексты, использовать глубокую настройку готовой работы и применять множество установок. Фри-версия накладывает водяные знаки на работу.

SimpleOCR скачать

Утилита распознает рукописный и машинный текст на датском, английском и французском языках, имеет интегрированный редактор и большой словарный запас. СимплеОЦР считывает данные со сканеров и проводит конвертацию материала в TXT, TIFF и DOC форматы, переводит напечатанный на бумаге текст и рукопись в цифровой формат, идентифицирует картинки и шрифты. Также доступно сравнение отсканированного ранее текста с полученным, а также внесение изменений. Бесплатная версия предоставляет только 14 дней распознавания текстов.

Readiris Pro скачать

Один из лидеров в категории OCR программ, который сканирует и распознает бумажную и рукописную документацию, работает с более 100 языками и имеет интегрированный редактор. Позволяет отсканировать и оцифровать материал, а с помощью редактора внести изменения. Реадирис конвертирует в формат изображения, таблицы и документа, работает с облачными хранилищами и ftp-папками, экспортирует в DJVU. В настройках можно улучшать качество документа, поворачивать его или сохранять в виртуальном хранилище. Ознакомительная версия активна 10 дней и дает на обработку только 100 страниц.

Microsoft OneNote скачать

Является дополнением к Office Mobile пакету и предоставляет расширения для создания списков задач, покупок или заметок. В функционале доступно создание маркированных списков, отметка галочкой выполненных пунктов, ввод рукописных примечаний сенсорным нажатием или цифровым пером, добавление графических картинок. Немаловажным плюсом утилиты является работа мобильной версии с OneDrive для хранения всех правок заметок, их просмотра или редактуры. Понятный русскоязычный интерфейс и бесплатное распространение станут приятными плюсами в работе с этой удобной прогой.

Freemore OCR Features скачать

Качественное ПО для оптического распознавания текста из изображений и ПДФ-документации. Доступно извлечение текста из картинки, которая получена с цифровой камеры, сканера или мобильного телефона, дешифровка и зашифровка символов, сохранение материала в TXT и Word, редактура метаданных, предпросмотр документации, применение пароля или цифровой подписи. Софт имеет методику сверхскоростной обработки и передовой кодировки, пресеты с оптимальной настройкой, поддерживает многоядерные процессоры. Продукт совместим со многими известными фирмами сканеров, открывает картинки разных форматов, защищает работу паролем и в реальном времени быстро обрабатывает материал.

TopOCR скачать

Программа легко оптически распознает, редактирует и читает текстовую документацию. Благодаря своей многофункциональности может распознать и отсканировать материал, а также внести изменения с помощью опций графического редактора и электронного переводчика. Приложение озвучивает текст на 11 языках, быстро переводит документацию и создает аудиокниги. Поддерживает многие распространенные форматы, работает напрямую со сканером и озвучивает текст. Из минусов отметим отсутствие русскоязычной поддержки.

Читать еще:  Как убрать вирусную рекламу

Текст извлечен с помощью ocr

Апрель 2020
«Образование и бизнес: ставка на life learning»

  • Дмитрий КЛИМИШИН: «Ключевой принцип — дойти до конечного потребителя»
  • Цифровое образование: цели, ценности и вопросы доверия
  • Модельная перезагрузка: итоги 2019 г.
  • Кибербезопасность: обучение снижает риски

Интервью

Книжный рынок

Вузовские издательства

Искусство издавать

Библиотеки

Образование

Инновационные технологии

Электронные библиотеки

Культура книги

Библиогеография

Библиотехнологии

Выставки и конференции

Конкурсы и премии

Документы

Copyright.ru

КНИГА+

Год литературы

Журнал Онлайн

Система «Антиплагиат» уже много лет является надёжным помощником преподавателей из России, Казахстана, Белоруссии, Кыргызстана и других государств. Около 1 тыс. учебных и научных организаций используют сервис в своей работе. «Антиплагиат» ежедневно проверяет сотни тысяч документов.

Авторы Юрий ЧЕХОВИЧ, исполнительный директор компании «Антиплагиат»; Андрей ИВАХНЕНКО, руководитель отдела внедрения и эксплуатации компании «Антиплагиат»

Наши исследования показали, что довольно много пользователей используют «порочные» практики применения систем обнаружения заимствований [1] , которые ориентированы только на определение процента оригинальности. Зная такой порядок оценки результатов, обучающиеся затрачивают минимальные усилия, зачастую отдавая подготовку диплома или курсовой авторам работ на заказ. Таким образом появился целый рынок обхода систем обнаружения заимствований. Задача стоит простая: необходимо так модифицировать документ с проверяемой работой, чтобы процент оригинальности был выше порога, установленного в конкретном вузе.

С точки зрения повышения оригинальности текста самым надёжным способом является «глубокий рерайт», т.е. переписывание текста своими словами. Это относительно честный и трудноопределимый способ повышения оригинальности текста. Однако он требует больших затрат, а значит стоит дорого.

Мошенники используют менее трудозатратный способ повышения оригинальности. Решение тут довольно простое и прямолинейное: необходимо, чтобы текст, извлекаемый системой обнаружения заимствований, был оригинальным, а для этого он должен отличаться от того, что видит проверяющий, который читает распечатанный документ. Конечно, такие простые возможности, как замена символов на сходные по написанию из других алфавитов, давно раскрыты, но существует огромное множество других и появляются они регулярно, по мере того как мы справляемся с существующими (подобно головам, отрастающим у Лернейской гидры).

Не прекращая борьбу с новыми лазейками, но понимая, что по этому пути можно идти слишком долго, мы сменили подход к решению проблемы в корне. «Антиплагиат» должен проверять на заимствования именно тот текст, который видит человек. Для этого идеально подходят средства OCR (Optical Character Recognition – оптическое распознавание символов), которые позволяют получать текст из изображений текста (сканов, фотографий, скриншотов).

Ещё в 2014 г. мы встроили этот механизм в наш поисковый робот-краулер и начали индексировать сканы книг и документов, находящихся в свободном доступе в сети Интернет. С тех пор мы подбирали оптимальные настройки и готовили инфраструктуру введения нового способа извлечения текстов. И вот летом 2017 г. началось постепенное включение нового способа извлечения текстов с помощью OCR в системы «Антиплагиат.ВУЗ» и «Антиплагиат.Эксперт».

Теперь порядок обработки следующий. Документы всех поддерживаемых форматов, как и раньше, загружаются в систему. Загруженный файл распечатывается на виртуальном принтере с необходимым для распознавания качеством. «Электронная» распечатка оригинала документа гораздо лучше, чем скан высокого качества: при этом обеспечивается минимум искажений и шумов. А чем выше качество изображения, тем лучше работает алгоритм распознавания. После того как получился набор «электронных» распечаток страниц, они подаются в систему OCR, где осуществляется распознавание текста. Затем отдельные страницы сводятся в единый документ. Дальше действует отработанный алгоритм поиска заимствований текста и подготовки отчёта.

Кардинальная трансформация одного из центральных и важных компонентов системы не может обойтись без изменения характеристик системы обнаружения заимствований. Так произошло и с внедрением нового способа извлечения текста через OCR.

Первое, что заметит опытный пользователь системы «Антиплагиат», это, к сожалению, увеличившееся время загрузки документа. Дело в том, что извлечение текста с помощью OCR – процесс на несколько порядков более ресурсоёмкий, чем тот, который использовался ранее. Извлечение текста с одной страницы занимает около 10 секунд на одном ядре процессора. Несложно подсчитать, что документ размером 160 страниц (размер типичной кандидатской диссертации) на сервере с 16 ядрами будет обрабатываться около 100 секунд. Мы провели замеры и выяснили, что среднее время обработки документа увеличилось с 10 секунд до полутора минут.

Ещё одним побочным эффектом можно считать появление случайных символов, возникающих при распознавании иллюстраций. Рассмотрим пример с фрагментом статьи о русском алфавите из «Википедии» [2]. Из первого абзаца этой статьи и таблицы с алфавитом был подготовлен документ, исходный вид которого представлен на рис. 1 в формате отчёта о заимствовании системы «Антиплагиат.ВУЗ».

На рис. 2 приведён текст, извлечённый из этого документа. Видно, что мелкий подстрочный текст, обозначающий название буквы, распознался как знаки препинания, а некоторые буквы алфавита попали в блоки заимствований. Таким образом, возможно появление незначительного числа случайных символов из рисунков в проверяемых документах. Они незначительно увеличат объём текста, а значит несущественно увеличится и процент оригинальности.

С другой стороны, у системы «Антиплагиат» появилась новая возможность, которая позволяет мириться и с возросшим временем обработки документа, и со случайными символами, возникающими вследствие распознавания рисунков. Теперь системы семейства «Антиплагиат» могут искать заимствования в скриншотах, вставленных сканах страниц, иллюстрациях, т.е. объектах, которые были ранее недоступны для поиска заимствований. Естественно, чуда ждать не следует, и если вы вставите в документ скан плохого качества или смазанную фотографию текста, полученную при плохом освещении, то получите набор случайных символов. Но вот способ «обхода» системы путём вставки скриншота вместо самого текста, так чтобы при распечатке ничего не было заметно, уже не пройдёт.

Что же получается в результате? После внедрения извлечения текста с помощью OCR время обработки больших документов заметно увеличилось, но осталось в приемлемых рамках нескольких минут. Возможно наличие небольших «артефактов» в тексте от распознавания картинок (незначительно, на доли процента может увеличиться процент оригинальности). Но зато коренным образом решена проблема обхода системы целыми семействами алгоритмов, а также появилась возможность искать заимствования в сканах, диаграммах, рисунках, скриншотах и т.п.

Мы не собираемся останавливаться на достигнутом. В планах:

увеличение скорости обработки документов, для того чтобы вернуться к привычному для наших пользователей, почти мгновенному поиску заимствований;

совершенствование техник постобработки текстов для отсева случайных символов;

совершенствование предобработки документов, для того чтобы чудо всё же произошло и появилась возможность искать заимствования в любом документе, который может прочитать человек.

Ссылка на основную публикацию
ВсеИнструменты 220 Вольт
Adblock
detector