Распознавание с обучением

Как было отмечено, программа FineReader позволяет вводить тексты разного качества, напечатанные практически любыми шрифтами. Тексты хорошего и среднего качества, а также шрифты обычного начертания распознаются без предварительного обучения. 

Режим "Распознавание с обучением" используется для:

  1. распознавания текстов, использующих декоративные шрифты;
  2. распознавания текстов, в которых встречаются специальные символы (например, отдельные математические символы);
  3. распознавания большого объема (более 100 страниц) текста плохого качества.
В других случаях Распознавание с обучением использовать не рекомендуется, т.к. затраты на обучение будут больше, чем полученный выигрыш в качестве распознавания.

Обучение проводится при распознавании одной-двух страниц текста в специальном режиме. В результате создается эталон букв, встречающихся в тексте. Этот эталон в дальнейшем используется при распознавании основного объема текста. Некоторые пары или тройки символов в тексте могут склеиваться. Если при обучении Вам не удается переместить описывающий прямоугольник так, чтобы он заключал в себя один целый символ и не содержал при этом части соседних, то Вы можете обучить программу сочетанию символов, которые невозможно "расклеить". Такие неразделяемые сочетания двух или трех символов называются лигатурами. Это, например, такие сочетания, как ед, от, ff, ffi, ffl и другие.

Внимание!

  1. Созданный эталон можно использовать только для распознавания текстов, использующих тот же шрифт и размер шрифта и отсканированных с тем же разрешением, что и документ, на котором данный эталон создавался.
  2. При удалении пакета эталон также удаляется.

    Вы можете сохранить созданный эталон для работы с другими пакетами. Для этого сохраните настройки пакета в формате шаблон пакета (*.fbt).

  3. При переходе к распознаванию текстов, напечатанных другим шрифтом, не забудьте отключить эталон (на закладке Распознавание, меню Сервис>Опции установите переключатель в положение Не использовать пользовательский эталон).

Последовательность действий при распознавании с обучением:

  1. Установите режим Распознавание с обучением (на закладке Распознавание, меню Сервис>Опции в группе Распознавание с обучением установите переключатель в положение Распознавание с обучением). В строке состояния появится название эталона (по умолчанию default).
  2. Нажмите кнопку 2-Распознать.
  3. Обучите эталон, распознав одну-две страницы в режиме распознавание с обучением.
    Обучаемые символы заносятся в эталон, создаваемый системой по умолчанию. По окончании обучения система сохранит созданный эталон (default.ptn) в папке, где хранится пакет.
  4. Отредактируйте эталон.
  5. Отмените режим Распознавание с обучением (на закладке Распознавание в группе Обучение установите переключатель Распознавание с пользовательским эталоном).
  6. Запустите распознавание основного текста, нажав на кнопку 2-Распознать.

Замечания.

  1. Чтобы создать несколько эталонов на один пакет, воспользуйтесь диалогом Редактор эталонов (вызывается с закладки Распознавание по кнопке Эталоны или из меню Сервис>Редактор эталонов). Создайте новый эталон (нажмите в диалоге на кнопку Новый) и выберите его для работы (нажмите на кнопку Выбрать). Далее работа с созданным эталоном происходит так же, как и работа с default-эталоном, см. выше пп 1-5.
  2. Если в процессе обучения было создано несколько эталонов, то подключается последний созданный эталон. Название подключенного эталона пишется в строке состояния.

    Чтобы подключить другой эталон для распознавания, в диалоге Редактор эталонов (меню Сервис>Редактор эталонов) в списке эталонов выберите эталон и нажмите кнопку Выбрать. На закладке Распознавание в группе Обучение установите переключатель в положение Распознавание с пользовательским эталоном.

  3. Если на закладке Распознавание отмечена опция Использовать встроенные эталоны, то в режиме Распознавание с обучением программа предложит обучить только неуверенно распознанные символы.

    Если Вы обучаете программу декоративным или нестандартным шрифтам (например, тибетскому) и при этом используете встроенные эталоны, программа может распознать часть символов неправильно, не предложив их обучить. В этом случае рекомендуется снять отметку с опции Использовать встроенные эталоны: обучение будет производиться каждому символу.