Posts tagged as:

indexing

Рассмотрим как работает индексация документов в Oracle UCM.

Любой документ, который загружается в UCM сначала попадает в хранилище оригинальных версий (native) – Vault. Затем, если настроена конвертация документов, он отправляется на сервер конвертации (Inbound Refinery). Полученное Web-представление загружается в хранилище Web-представлений – WebLayout. Если для типа документа, который загружается установлен тип конвертации Pass-Thru (стоит по умолчанию для всех типов), то документ автоматически загружается в хранилище WebLayout, минуя стадию конвертации. Если для документа применим некоторый процесс обработки (Workflow), то он запускается, в противном случае документ отправляется на индексацию. Индексация – это процесс, который  включает в себя в первую очередь полнотекстовую индексацию тела документа и дополнительно полнотекстовую индексаци атрибутов, которые помечены как полнотекстовые (Zone Fields). Для индексации UCM использует технологию OutsideIn и в частности утилиту textexport, которая входит в состав платформо-зависимых компонентов ContentAccess. Например, для Linux она располагается в папке: [ECM_HOME]/ucm/idc/components/ContentAccess-linux/linux/textexport. Задача данной утилиты  преобразовать файл любого формата (поддерживаются +400 форматов) в текстовый файл. Затем этот текстовый файл индексируется базой данных. По умолчанию UCM использует хранилище WebLayout для индексации. Для того, чтобы настроить индексацию файлов из хранилища Vault, надо в конфигурационном файле config.cfg установить параметр:

UseNativeFormatInIndex=true.

{ 0 комментарии }