Правило сегментации 

Правило сегментации задает границу сегмента текста оригинала. Правила сегментации могут быть заданы простым или регулярным выражением, которое описывает, что считать (правило) или не считать (исключение) границей сегмента.

Алгоритм построения простого правила:

Алгоритм построения правила c регулярным выражением:

Пример:

Пусть имеется следующий текст: “Курс доллара составил 28.5 рублей.”. С одной стороны естественно считать точку границей сегмента и написать вот такое простое правило:

Тип

Строка до

Разделитель

Строка после

правило

 

.

 

 Применение этого правила даст следующие 2 сегмента:

Курс доллара составил 28.

5 рублей.

Глядя на получившийся результат, становится ясно, что десятичную точку границей сегмента считать нельзя. Каким образом решить эту проблему? Простыми правилами здесь не обойтись, т.к. заранее неизвестно, какое именно число встретится в тексте. Необходимо исключение с регулярным выражением

Тип

Выражение

Учет регистра

исключение

\d+{\.}\d+

Нет

По умолчанию, программа автоматически формирует стандартный набор правил сегментации, причем для различных языков эти наборы правил различны.