Программы оптического распознавания документов (8 класс)

Кроме текстовых процессоров, предназначенных для создания и обработки текстов на компьютере, существует ряд программ, позволяющих автоматизировать работу человека с текстовой информацией. К ним можно отнести программы оптического распознавания документов, компьютерные словари и программы-переводчики.

Очень часто возникает необходимость ввести в компьютер несколько страниц текста из книги, статью из журнала или газеты и т. д. Конечно, можно затратить определённое время и просто набрать этот текст с помощью клавиатуры. Но чем больше исходный текст, тем больше времени будет затрачено на его ввод в память компьютера.

Судите сами. Предположим, кто-то из ваших одноклассников, освоивших клавиатурный тренажёр, может вводить текстовую информацию со скоростью 150 символов в минуту. Выясним, сколько времени ему понадобится для того, чтобы ввести в память компьютера текст романа А. Дюма «Три мушкетёра». Одно из изданий этого романа выполнено на 590 страницах; каждая страница содержит 48 строк, в каждую строку входит в среднем 53 символа.

Вычислим общее количество символов в романе: 590 • 48 • 53 = 1 500 960 (симв.).

Вычислим время, необходимое для ввода этого массива символов в память компьютера: 1500960 : 150 ≈ 10000 (мин.). А это приблизительно 167 часов.

При этом мы не обсуждаем вопрос о времени на исправление возможных ошибок при таком способе ввода текста, не принимаем в расчёт усталость человека.

Для ввода текстов в память компьютера с бумажных носителей используют сканеры и программы распознавания символов. Одной из наиболее известных программ такого типа является АВВУУ Fine Reader. Упрощённо работу с подобными программами можно представить так:

  1. Бумажный носитель помещается под крышку сканера.
  2. В программе отдаётся команда Сканировать и распознать. Сначала создаётся цифровая копия исходного документа в формате графического изображения. Затем программа анализирует структуру документа, выделяя на его страницах блоки текста, таблицы, картинки и т. п. Строки разбиваются на слова, а слова – на отдельные буквы. После этого программа сравнивает найденные символы с шаблонными изображениями букв и цифр, хранящимися в её памяти. Программа рассматривает различные варианты разделения строк на слова и слов на символы. В программу встроены словари, обеспечивающие более точный анализ и распознавание, а также проверку распознанного текста. Проанализировав огромное число возможных вариантов, программа принимает окончательное решение и выдает пользователю распознанный текст.
  3. Распознанный текст переносится в окно текстового редактора (например, Microsoft Word).

Вместо сканера можно использовать цифровой фотоаппарат или камеру мобильного телефона. Например, при работе с книгами в библиотеке вы можете сфотографировать интересующие вас страницы. Скопировав снимки на компьютер, вы можете запустить АВВУУ Fine Reader, распознать тексты и продолжить работу с ними в текстовом процессоре.

Оптическое распознавание документа

Самое главное:

  • Для ввода текстов в память компьютера с бумажных носителей используют сканеры и программы распознавания символов.

Вопросы и задания:

  1.  В каких случаях программы распознавания текста экономят время и силы человека?
  2.  Сколько времени потребуется для ввода в память компьютера текста романа А. Дюма «Три мушкетёра» с помощью сканера и программы АВВУУ Fine Reader, если известно, что на сканирование одной страницы уходит 3 с, на смену страницы в сканере - 5 с, на распознавание страницы — 2 с?
    (Решение:
    Для ввода одной страницы требуется: 3 + 5 + 2 = 10 секунд;
    Для всей книги: 590 • 10 = 5900 (сек) ≈ 98 (мин)
    Ответ: ≈ 98 мин)
  3. Найдите в Интернете информацию о технологии сканирующего листания. В чём её суть?

Содержание