Глоссарий

А Д З И К Л М Н О П Р С Т Ш Э Я

ABBYY Hot Folder — приложение-планировщик, с помощью которого можно назначить время обработки документов из выбранной папки. Открытие файлов и распознавание изображений может быть выполнено в то время, когда компьютер наименее загружен, например, ночью.

ABBYY Screenshot Reader — приложение, позволяющее сделать снимок выбранной области экрана и распознать текст, содержащийся на снимке.

ADF (Automatic Document Feeder) — устройство автоматической подачи бумаги, позволяющее отсканировать большое количество документов без ручного вмешательства. ABBYY FineReader поддерживает сканирование многостраничных документов.

ADRT® (Adaptive Document Recognition Technology) — технология адаптивного распознавания документов, которая повышает качество конвертирования многостраничных документов. В частности, она позволяет определять такие элементы структуры документа, как заголовки, колонтитулы, сноски, нумерацию страниц, подписи.

dpi (dots per inch) — количество точек на дюйм; единица измерения разрешения.

Product ID — параметр, который создается на основе данных о конфигурации компьютера в момент активации.

Unicode — стандарт, разработанный концерном Unicode. Управляет процессом кодирования символов и предоставляет шестнадцатибитную международную расширяемую систему кодировки символов для обработки информации на большинстве языков народов мира. Стандарт Unicode определяет кодировку символа, а также свойства и алгоритмы, используемые при реализации этого процесса.

А

Аббревиатура — сокращение, образованное из начальных букв слов. Например, МГУ, MS-DOS и т.д.

Активация — процесс получения пользователем в компании ABBYY специального кода, необходимого для обеспечения работы программы в полнофункциональном режиме на конкретном компьютере.

Активационный код — код, который выдается пользователю после прохождения процедуры активации ABBYY FineReader 10. Предназначен для активации продукта на той машине, на которой был получен Product ID.

Активная область — выделенная область, над которой выполняются такие действия, как удаление, изменение типа и т.д. Для того чтобы сделать область активной, достаточно щелкнуть на ней курсором мыши. Толщина рамки такой области — полужирная, а на ее углах имеются «квадратики».

Анализ документа — процесс выделения элементов логической структуры и областей различных типов в документе. Анализ документа может выполняться автоматически или вручную.

К началу

Д

Драйвер — программа, управляющая устройством (например, сканером, монитором и т.д.).

Документ ABBYY FineReader — это объект, который создается программой ABBYY FineReader для работы с одним входным документом с учетом его целостной структуры. Он содержит изображения страниц, соответствующий им распознанный текст (если есть), настройки программы (опции сканирования, распознавания, сохранения и т.п.).

З

Запрещенные символы — в качестве запрещенных символов для текущего языка указываются те, которые заведомо не могут встречаться в текстах, распознаваемых с подключением данного языка. Указание таких символов может существенно увеличить скорость и надежность распознавания.

Зона распознавания — область, которая используется для распознавания и автоматического анализа части изображения. После нажатия на кнопку Распознать выделенная область автоматически анализируется и распознается.

И

Игнорируемые символы — в качестве игнорируемых символов указываются те, которые могут встречаться внутри слова, например, знаки слогоделения или ударения в словарях. При проверке по словарю программа не учитывает эти знаки. В распознанном тексте эти символы сохраняются, но при проверке орфографии не учитываются.

Инвертированное изображение — изображение, текст которого напечатан на темном фоне светлыми буквами.

К

Картинка — область, используемая для выделения картинок. Она может содержать картинку или любую другую часть текста, которую вы хотите передать в распознанный текст в качестве картинки.

Кодовая страница — таблица, в которой задано отношение между кодами символов и их начертаниями. В системе ABBYY FineReader кодовая страница представлена как набор символов, из которого можно выбрать нужные символы.

К началу

Л

Лигатура — пара или тройка букв, которые из-за особенностей начертания склеиваются между собой. Например, ге, го, fe, ffi, tt и т.п.

М

Менеджер лицензий — приложение, в котором осуществляется управление лицензиями и активация ABBYY FineReader 10 Corporate Edition.

Менеджер сценариев — встроенный менеджер, позволяющий запускать выполнение сценариев, создавать сценарии и настраивать их, а также удалять неиспользуемые пользовательские сценарии.

Моноширинный шрифт — любой шрифт, буквы которого имеют одинаковую ширину (моно). Например, шрифт Courier New. Для улучшения качества распознавания моноширинных шрифтов на закладке Документ диалога Опции в пункте Тип печати установите переключатель в положение Пишущая машинка.

Мягкий перенос — перенос (¬) показывает, в каком именно месте должно быть разорвано слово или словосочетание (например, «Автоформат»), если оно попадает на конец строки (например, «Авто-формат»). Все переносы в словарных словах ABBYY FineReader заменяет на мягкий перенос.

Н

Настройки документа — совокупность значений опций, расположенных на закладках диалога Опции (меню Сервис>Опции...). В набор опций также входят пользовательские языки и эталоны. Набор опций можно сохранить и затем использовать (загружать) в другие документы ABBYY FineReader.

Начертание шрифта — способ выделения в тексте (полужирный, наклонный, с подчеркиванием, перечеркнутый, верхний индекс, нижний индекс, малые прописные).

Начальная форма — форма, в которой слова даются в словаре. Для существительных это форма именительного падежа единственного числа; для прилагательных — форма мужского рода единственного числа именительного падежа; для глаголов, причастий и деепричастий — это неопределенная форма (инфинитив).

Неуверенно распознанные символы — символы, которые могут быть распознаны неверно.

Неуверенно распознанные слова — слова, которые содержат неуверенно распознанные символы.

К началу

О

Область — участок изображения, заключенный в рамку. Перед распознаванием программа выделяет области с текстом, картинками, таблицами и штрих-кодами. Области выделяются для того, чтобы указать системе, какие участки изображения надо распознавать и в каком порядке.

Обучение — создание пар «растровое изображение — название символа». Подробнее см. в разделе «Распознавание с обучением».

Оформление страницы — расположение текста, таблиц и картинок в документе, разбиение на абзацы, гарнитура и размер шрифта, колонки, направление текста, цвет букв и фон текста.

Омнифонтовая система — система распознавания, которая распознает символы практически любых размеров и начертаний.

П

Парадигма — совокупность всех грамматических форм слова.

Параметры защиты PDF — ограничения на открытие, редактирование копирование и печать PDF-документа. В эти параметры входят пароль открытия документа, пароль для изменения прав доступа и уровень шифрования.

Пароль для изменения прав доступа — пароль, присваиваемый PDF-документам. Пользователи могут распечатать или внести изменения в PDF-документ только после ввода пароля, заданного автором документа. При использовании защиты PDF-документа пользователи также должны будут указать этот пароль, для того чтобы изменить параметры защиты PDF.

Пароль открытия документа — пароль, присваиваемый PDF-документам. Пользователи могут открыть PDF-документ только после ввода пароля, заданного автором документа.

К началу

Р

Разделители — символы, которые могут разделять слова, например, /, \, тире и т.п. и которые пишутся отдельно от слов.

Разрешение — параметр сканирования, показывающий, какое количество точек приходится на единицу длины. Ед. 300 dpi соответствует размеру шрифта 10 и более пунктов, 400-600 dpi для текстов, набранных мелким шрифтом (9 и менее пунктов).

С

Сканер — устройство, предназначенное для ввода изображений в компьютер.

Сложное слово — слово, образованное путем сложения двух основ (корней), отсутствующее в словаре. Оно может состоять из имеющихся в словаре слов.

Сценарий ABBYY FineReader — это набор последовательных шагов, каждый из которых соответствует одному этапу обработки документа. В программе ABBYY FineReader 10 предусмотрены встроенные сценарии, полностью готовые к использованию. Также можно создавать собственные — пользовательские сценарии. Запуск встроенного сценария осуществляется из окна Основные сценарии.

Т

Таблица — область, используемая для выделения таблиц или текста, имеющего табличную структуру. При распознавании программа разбивает данную область на строки и столбцы и формирует табличную структуру. В выходном тексте данная область передается таблицей.

Теги PDF — специальные теги, используемые для выделения логических частей и разметки таблиц и картинок в PDF-документе. Теги, встраиваемые в PDF-документ, обеспечивают удобство просмотра документа на экранах разного размера, например, на экранах карманных компьютеров.

Текст — область, используемая для выделения текста. Она должна содержать только одноколоночный текст.

Тип изображения — параметр сканирования; изображение может быть черно-белым, серым или цветным.

Тип печати входного документа — особенность в начертании символов входного текста в зависимости от того, каким образом он напечатан (в типографии, на пишущей машинке и т.д.). Для типографского текста следует устанавливать режим Авто, для машинописного — режим Пишущая машинка, для распечатанного факсимильного сообщения — режим Факс.

Ш

Шаблон областей — в шаблоне описано положение и размеры областей на странице.

Штрих-код — область, используемая для выделения участков изображения, содержащих штрих-код.

Э

Эталон — набор пар «усредненное точечное изображение символа» — его название, который создается в процессе обучения системы на конкретном тексте.

Я

Яркость — параметр сканирования, определяет контрастность, т.е. различие между черными и белыми участками текста. При правильной настройке яркости качество распознавания возрастает.

К началу