Распознавание с обучением

Как было отмечено, программа ABBYY FineReader позволяет вводить тексты разного качества, напечатанные практически любыми шрифтами. Тексты хорошего и среднего качества, а также шрифты обычного начертания распознаются без предварительного обучения.

Режим "Распознавание с обучением" используется для:

  1. распознавания текстов, для набора которых использованы декоративные шрифты;
  2. распознавания текстов, в которых встречаются специальные символы (например, отдельные математические символы);
  3. распознавания большого объема (более 100 страниц) текста плохого качества.
В других случаях Распознавание с обучением использовать не рекомендуется, т.к. затраты на обучение будут больше, чем полученный выигрыш в качестве распознавания.

Обучение проводится при распознавании одной-двух страниц текста в специальном режиме. В результате создается эталон букв, встречающихся в тексте. Этот эталон в дальнейшем используется при распознавании основного объема текста. Некоторые пары или тройки символов в тексте могут склеиваться. Если при обучении вам не удается переместить описывающий прямоугольник так, чтобы он заключал в себя один целый символ и не содержал при этом части соседних, то Вы можете обучить программу сочетанию символов, которые невозможно "расклеить". Такие неразделяемые сочетания двух или трех символов называются лигатурами. Это, например, такие сочетания, как ед, от, ff, ffi, ffl и другие.

Внимание!

  1. Созданный эталон можно использовать только для распознавания текстов, использующих тот же шрифт и размер шрифта и отсканированных с тем же разрешением, что и документ, на котором данный эталон создавался.
  2. При удалении пакета эталон также удаляется.

    Вы можете сохранить созданный эталон для работы с другими пакетами. Для этого сохраните настройки пакета в файл набора опций (*.fbt).

  3. При переходе к распознаванию текстов, напечатанных другим шрифтом, не забудьте отключить эталон (на закладке Распознать, меню Сервис>Опции установите переключатель в положение Не использовать пользовательский эталон).

Последовательность действий при распознавании с обучением:

  1. Установите режим Распознавание с обучением (на закладке Распознать диалога Опции (меню Сервис>Опции) в группе Обучение выберите пункт  Распознавание с обучением). В строке состояния появится название эталона (по умолчанию default).
  2. Нажмите кнопку 2-Распознать.
  3. Обучите эталон, распознав одну-две страницы в режиме распознавание с обучением. Обучаемые символы заносятся в эталон, создаваемый системой по умолчанию. По окончании обучения система сохранит созданный эталон (default.ptn) в папке, где хранится пакет.
  4. Отредактируйте эталон.
  5. Отмените режим Распознавание с обучением (на закладке Распознать в группе Обучение выберите пункт Распознавание с пользовательским эталоном).
  6. Запустите распознавание основного текста, нажав на кнопку 2-Распознать.

Замечания.

  1. Чтобы создать несколько эталонов для одного пакета, воспользуйтесь диалогом Редактор эталонов (вызывается с закладки Распознать с помощью нажатия кнопки Эталоны или из меню Сервис>Редактор эталонов). Создайте новый эталон (нажмите в диалоге на кнопку Новый) и выберите его для работы (нажмите на кнопку Выбрать). Далее работа с созданным эталоном происходит так же, как и работа с default-эталоном, см. выше пп 1-5.
  2. Если в процессе обучения было создано несколько эталонов, то подключается последний созданный эталон. Название подключенного эталона пишется в строке состояния.

    Чтобы подключить другой эталон для распознавания, в диалоге Редактор эталонов (меню Сервис>Редактор эталонов) в списке эталонов выберите эталон и нажмите кнопку Выбрать. На закладке Распознать в группе Обучение выберите опцию Распознавание с пользовательским эталоном.

  3. Если на закладке Распознать отмечена опция Использовать встроенные эталоны, то в режиме Распознавание с обучением программа предложит обучить только неуверенно распознанные символы.

    Если вы обучаете программу декоративным или нестандартным шрифтам (например, тибетскому) и при этом используете встроенные эталоны, программа может распознать часть символов неправильно, не предложив их выучить. В этом случае рекомендуется снять отметку с опции Использовать встроенные эталоны: будет производиться обучение каждому символу.