Для повышения качества распознавания газетной страницы ее рекомендуется сканировать в сером режиме. Серый тип изображения обеспечивает более высокую степень сохранения информации о буквах сканируемого текста, что приводит к улучшению качества распознавания документов среднего и низкого качества печати.
Газетные страницы представляют собой многоколоночный текст с картинками, некоторые участки которого могут располагаться поверх картинки, что иногда может привести к неправильному выделению блоков при автоматическом анализе. О том, что делать в случае неправильного выделения блоков, подробно написано в разделе
"Сложная журнальная страница". |