Глоссарий

А Б Д З И К Л М Н О П Р С Т Ф Ш Э Я

ABBYY Hot Folder & Scheduling - приложение-планировщик, с помощью которого можно назначить время обработки документов из выбранной папки. Открытие файлов и распознавание изображений может быть выполнено в то время, когда компьютер наименее загружен, например, ночью.

ABBYY Screenshot Reader - приложение, позволяющее сделать снимок выбранной области экрана и распознать текст, содержащийся на нем.

ADF (Automatic Document Feeder) - устройство автоматической подачи бумаги, позволяющее отсканировать большое количество документов без ручного вмешательства. ABBYY FineReader поддерживает сканирование многостраничных документов.

dpi (Dots per Inch) - количество точек на дюйм; единица измерения разрешения.

Scan&Read - главная кнопка программы, по нажатию на которую система сканирует изображение и распознает (анализирует макет страницы и распознает документ).

TWAIN, TWAIN-диалог - диалог сканера.

Unicode - стандарт, разработанный концерном Unicode. Управляет процессом кодирования символов и предоставляет шестнадцатибитную международную расширяемую систему кодировки символов для обработки информации на большинстве языков народов мира. Стандарт Unicode определяет кодировку символа, а также свойства и алгоритмы, используемые при реализации этого процесса.

А

Аббревиатура - сокращение, образованное из начальных букв слов. Например, МГУ, MS-DOS и т.д.

Активация - процесс получения пользователем в компании ABBYY специального кода, необходимого для обеспечения работы программы в полнофункциональном режиме на конкретном компьютере.

Активационный код - код, который выдается пользователю после прохождения процедуры активации (для версии Professional Edition). Предназначен для активации продукта на той машине, на которой был получен Installation ID.

Активационный файл – файл, который выдается пользователю после прохождения процедуры активации (для версии Corporate Edition). В нем содержится информация, необходимая для активации сервера или компьютера (в случае установки на отдельное рабочее место). Рабочие станции активируются сервером.

Автоподбор яркости - автоматический подбор яркости, производится сканером или системой ABBYY FineReader. Автоподбор позволяет подбирать яркость для каждого участка изображения в отдельности.

Активный блок - блок, над которым выполняется большинство производимых действий (например, удаление, изменение типа и т.д.). На углах такого блока имеются "квадратики".

Анализ макета страницы (выделение блоков) - процесс выделения блоков на изображении. Блоки могут быть разных типов. Анализ макета может проводиться автоматически одновременно с распознаванием при нажатии кнопки 2-Распознать или вручную до распознавания.

Б

Блок - участок изображения, выделенный в рамку.

Д

Драйвер - программа, управляющая устройством.

К началу

З

Запрещенные символы - в качестве запрещенных символов для текущего языка указываются те, которые заведомо не могут встречаться в текстах, распознаваемых с подключением данного языка. Указание таких символов может существенно увеличить скорость и надежность распознавания. Например, при распознавании текстов, в которых встречаются только заглавные буквы, в качестве запрещенных следует указать все строчные буквы.

Зона распознавания - блок используется для распознавания и автоматического анализа части изображения. После нажатия на кнопку 2-Распознать выделенный блок автоматически анализируется и распознается.

И

К началу

Игнорируемые символы - в качестве игнорируемых символов указываются те, которые могут встречаться внутри слова, например, знаки слогоделения или ударения в словарях. При проверке по словарю программа не учитывает эти знаки. В распознанном тексте эти символы сохраняются, но при проверке орфографии не учитываются.

Инвертированное изображение - изображение, текст которого напечатан на темном фоне светлыми буквами.

К

К началу

Картинка - блок, используемый для выделения картинок. Он может содержать картинку или любую другую часть текста, которую вы хотите передать в распознанный текст в качестве картинки.

Кодовая страница - таблица, в которой задано отношение между кодами символов и их начертаниями. В системе ABBYY FineReader кодовая страница представлена как набор символов, из которого можно выбрать нужные символы.

Л

К началу

Лигатура - пара или тройка букв, которые из-за особенностей начертания склеиваются между собой. Например, ге, го, fe, ffi, tt и т.п.

М

Мастер Scan&Read - специальный режим сканирования и распознавания, в котором система контролирует действия пользователя и подсказывает ему, что делать, чтобы получить тот или иной результат.

Макет страницы - расположение текста, таблиц и картинок в документе, разбиение на абзацы, гарнитура и размер шрифта, колонки, направление текста, цвет букв и фон текста.

Менеджер лицензий - приложение, в котором осуществляется управление лицензиями и активация ABBYY FineReader 8.0 Corporate Edition.

Менеждер сценариев - встроенный менеджер, позволяющий запускать выполнение сценариев, создавать сценарии и настраивать их, а также удалять неиспользуемые пользовательские сценарии.

Моноширинный шрифт - любой шрифт, буквы которого имеют одинаковую ширину (моно). Например, шрифт Courier New. Для улучшения качества распознавания моноширинных шрифтов на закладке Распознать в пункте Тип печати установите переключатель в положение Пишущая машинка.

Мягкий перенос - перенос (¬) показывает, в каком именно месте должно быть разорвано слово или словосочетание (например, "Автоформат"), если оно попадает на конец строки (например, "Авто-формат"). Все переносы в словарных словах ABBYY FineReader заменяет на мягкий перенос.

Н

Набор опций - совокупность значений опций, расположенных на закладках Сканировать/Открыть, Распознать, Проверить и Сохранить диалога Опции, а также в диалогах Форматы и Дополнительные опции. В набор опций также входят пользовательские языки и эталоны. Набор опций можно сохранить и затем использовать (загружать) в другие пакеты ABBYY FineReader.

Начертание шрифта - способ выделения в тексте (полужирный, наклонный, с подчеркиванием, перечеркнутый, верхний индекс, нижний индекс, малые прописные).

Начальная форма - форма, в которой слова даются в словаре. Для существительных это форма именительного падежа единственного числа; для прилагательных - форма мужского рода единственного числа именительного падежа; для глаголов, причастий и деепричастий - это неопределенная форма (инфинитив).

О

Обучение - создание пар "растровое изображение - название символа".

Омнифонтовая система - система распознавания, которая распознает символы практически любых размеров и начертаний.

Очистка изображения - удаление отдельных мелких черных точек на изображении.

П

К началу

Пакет — это папка, в которой хранятся изображения и рабочие файлы программы. В пакете может содержаться до 9999 страниц. В один пакет для удобства работы рекомендуется объединять изображения, логически связанные между собой (например, страницы одной книги, тексты на одном языке или изображения с однотипным расположением текста и т.д.).

Парадигма - совокупность всех грамматических форм слова.

Параметры защиты PDF - ограничения на открытие, редактирование копирование и печать PDF документа. В эти параметры входят пароль открытия документа, пароль для изменения прав доступа и уровень шифрования.

Пароль для изменения прав доступа - пароль, присваиваемый PDF документам. Пользователи могут распечатать или внести изменения в PDF документ только после ввода пароля, заданного автором документа. При использовании защиты PDF документа пользователи также должны будут указать  этот пароль, для того чтобы изменить параметры защиты PDF.

Пароль открытия документа - пароль, присваиваемый PDF документам. Пользователи могут открыть PDF документ только после ввода пароля, заданного автором документа.

Префиксы - небуквенные символы, которые могут встречаться в абсолютном начале слова.

Принцип одной кнопки - принцип, когда при нажатии на одну кнопку (Scan&Read) система сканирует и распознает документ.

Р

К началу

Разделители - символы, которые могут разделять слова, например, /, \, тире и т.п. и которые пишутся отдельно от слов.

Разрешение - параметр сканирования, показывает кол-во точек на единицу длины. 300 dpi (размер шрифта 10 и более пунктов), 400-600 dpi для текстов, набранных мелким шрифтом (9 и менее пунктов).

С

Свойства документа — свойства, присваиваемые документу и позволяющие выполнять поиск документов и их сортировку. Свойства документа включают  описательное название, имя автора, тему и ключевые слова.

Сканер - устройство, предназначенное для ввода изображений в компьютер.

Сложное слово - слово, отсутствующее в словаре, но которое может быть образовано из имеющихся в словаре слов.

Сценарий ABBYY FineReader - это набор последовательных шагов, каждый из которых соответствует одному этапу обработки документа. В программе ABBYY FineReader 8.0 предусмотрено три встроенные сценария, полностью готовых к использованию, также можно создавать собственные - пользовательские сценарии. Запуск сценария осуществляется по кнопке Scan&Read.

Суффиксы - небуквенные символы, которые могут встречаться в абсолютном конце слова.

К началу

Т

Таблица - блок, используемый для выделения таблиц или текста, имеющего табличную структуру. При распознавании программа разбивает данный блок на строки и столбцы и формирует табличную структуру. В выходном тексте данный блок передается таблицей.

Теги PDF - специальные теги, используемые для выделения логических частей и разметки таблиц и картинок в PDF документе. Теги, встариваемые в PDF документ, обеспечивают удобство просмотра документа на экранах разного размера, например, экранах карманных компьютеров.

Текст - блок, используемый для выделения текстовых областей. Он должен содержать только одноколоночный текст.

Тип изображения - параметр сканирования; изображение может быть черно-белым, серым или цветным.

Тип (печати) входного текста - особенность в начертании символов входного текста, в зависимости от того, каким образом он напечатан (в типографии, на матричном принтере в черновом режиме, на пишущей машинке). Для типографского текста следует устанавливать режим Авто, для машинописного - режим Пишущая машинка, для текста, напечатанного на матричном принтере в черновом режиме - режим матричный принтер.

Тип блока - блок может быть Зоной распознавания, Текстовым, Картинкой, Таблицей, Штрих-кодом.

Ф

Фоновое распознавание - режим, позволяющий одновременно с распознаванием редактировать и сохранять распознанные страницы.

Ш

Шаблон блоков - в шаблоне описано положение и размеры блоков на странице.

Штрих-код - блок, используемый для участков изображения, содержащих штрих-код.

Э

Эталон — набор пар "усредненное точечное изображение символа - его название", который создается в процессе обучения системы на конкретном тексте.

Я

Яркость - параметр сканирования, определяет контрастность, т.е. различие между черными и белыми участками текста. При правильной настройке яркости качество распознавания возрастает.