Правило сегментации 

Правило сегментации задает границу сегмента текста оригинала. Правила сегментации могут быть заданы простым или регулярным выражением, которое описывает, что считать (правило) или не считать (исключение) границей сегмента.

Алгоритм построения простого правила:

Алгоритм построения правила c регулярным выражением:

Пример:

Пусть имеется следующий текст: “Курс доллара составил 28.5 рублей.”. С одной стороны естественно считать точку границей сегмента и написать вот такое простое правило:

Тип

Строка до

Разделитель

Строка после

правило

 

.

 

 Применение этого правила даст следующие 2 сегмента:

Курс доллара составил 28.

5 рублей.

Глядя на получившийся результат, становится ясно, что десятичную точку границей сегмента считать нельзя. Каким образом решить эту проблему? Простыми правилами здесь не обойтись, т.к. заранее неизвестно, какое именно число встретится в тексте. Необходимо исключение с регулярным выражением

Тип

Выражение

Учет регистра

исключение

\d+{\.}\d+

Нет

По умолчанию, программа автоматически формирует стандартный набор правил сегментации, причем для различных языков эти наборы правил различны.

500 Internal Server Error

Internal Server Error

The server encountered an internal error or misconfiguration and was unable to complete your request.

Please contact the server administrator at webmaster@informationworker.forsenergy.ru to inform them of the time this error occurred, and the actions you performed just before this error.

More information about this error may be available in the server error log.

Additionally, a 500 Internal Server Error error was encountered while trying to use an ErrorDocument to handle the request.