Примеры

Документ с артикулами (создание нового языка)

Описание ситуации: большое количество ошибок при распознавании артикулов.

(NewLang.tif)

При распознавании программа опирается на знание о языке, указанном в качестве языка распознавания. Она использует словарь (проверяет слова по словарю), морфологическую модель языка, правила написания текста. При обработке текстов, содержащих много "неестественных" конструкций, например, артикулы, программа распознает их посимвольно, не используя дополнительной информации о построении данных конструкций, что увеличивает вероятность возникновения ошибок распознавания.

Решение: Перед распознаванием данного документа необходимо создать новый язык: артикулы (Codes).

Чтобы создать новый язык распознавания:

  1. В меню Сервис выберите пункт Редактор языков... и нажмите кнопку Новый.  В открывшемся диалоге установите переключатель в положение Создать новый язык на основе существующего и выберите язык, на основе которого Вы создаете новый: в данном случае Английский.
  2. Откроется диалог Свойства языка.

При создании нового языка нужно определить следующие параметры (все параметры задаются в диалоге Свойства языка):

  1. Имя нового языка - Codes.
  2. В поле Алфавит языка указан алфавит языка, на основе которого Вы создаете новый язык. Нажмите кнопку , чтобы отредактировать алфавит.

    В нашем случае алфавит языка должен содержать следующие символы: .0123456789BDFGLRW

  3. Словарь, который будет использоваться системой при распознавании и проверке распознанного текста.

    В данном случае мы создадим пользовательский словарь на основе регулярного выражения. Для этого в группе Словарь установите переключатель в положение Регулярное выражение и введите следующее регулярное выражение:

    DRG|(B[0-9][0-9]|22.5)|(L[0-9])|(F[0-9][0-9][0-9])|(W([0-9]+)) Более подробно о написании регулярных выражений см. Регулярные выражения.

Далее следует подключить данный язык к распознаванию: для всего документа установите Английский язык распознавания (выберите его из списка языков на панели Стандартная), а для колонки с артикулами - новый язык - Codes. Чтобы установить свой язык распознавания на колонку таблицы:

  • Выделите необходимую колонку, щелкните правой кнопкой мыши и в локальном меню выберите пункт Свойства. В открывшемся диалоге Свойства на закладке Блок в поле Язык распознавания укажите соответствующий язык распознавании и в группе Применить к установите переключатель в положение Выделенным ячейкам