Главная » Решения » Интеграция разнородных баз данных

Интеграция разнородных баз данных

Интеграция разнородных баз данных
 
Ситуация:
 Практически в каждой крупной российской организации существует некоторый набор информационных систем, которые введены в реальную эксплуатацию. Каждая такая отдельная система содержит базу данных, в которой располагается структурированная информация, связанная с тем или иным аспектом деятельности организации.
Кроме базы данных в информационной системе должны быть как минимум две подсистемы: подсистема ввода информации и подсистема ее представления пользователям. Данные, располагающиеся в информационных системах могут быть по смыслу взаимосвязаны между собой.
Основные виды взаимосвязей: Персона (ФИО) Организация Дата Другие ключевые слова, описывающие то или иное явление. Тот факт, что система находится в эксплуатации, говорит о том, что она разработана несколько лет назад, следовательно базируется на СУБД. В большинстве случаев системы создавались разными разработчиками и в силу различных причин их модернизация невозможна или экономически нецелесообразна. Практически ни одна система не поддерживает SOA (Web-сервисы), работает через интерфейс типа «толстый клиент». В настоящее время увеличивается рост объемов неструктурированной информации, которая не вносится в базы данных, и по этой причине практически не используется в работе организации.
 
Проблема:
Необходимо найти решение, в результате которого: Все базы данных информационных систем будут доступны через интернет-браузер; Будут автоматически выявляться взаимосвязи (см. выше) между информацией в разнородных информационных системах и неструктурированных данных; Не будут вноситься изменения в технологический процесс (подсистему) ввода информации, который требует их коренной модернизации и переобучения персонала.Срок решения проблемы – около 1 месяца.
Дополнительные проблемы:  Наследование ограничений доступа к данным в исходных информационных системах при работе через web-браузер; Наращивание набора фиксируемых взаимосвязей между данными в разнородных информационных системах; Повышение качества правил выявления персон и организаций; Улучшение эргономики пользовательского интерфейса. Срок решения проблемы – около 6 месяцев.
Описание метода решения проблемы:  В настоящее время доведены до состояния готовности к промышленной эксплуатации средства полнотекстовой индексации и семантической обработки текстовой информации. В связи с эти открывается возможность обработки структурированной информации методами работы с неструктурированной информацией.
Данная процедура состоит из двух этапов: Преобразование структурированных данных в неструктурированную форму (с сохранением структурированной части в виде оформленных метаданных); Семантическая реструктуризация в соответствии с автоматически выявленными взаимосвязями. Подобная реструктуризация заключается в полнотекстовом индексировании и семантической обработке сведений, содержащихся в базах данных с последующем их интегрированном представлением в интерфейсе пользователя.
 
Реализация на платформе Exalead:
1. Exalead обладает набором модулей-коннекторов, обеспечивающих получение данных из большинства хранилищ (в том числе СУБД через ODDBC) с приведением их к текстовому формату и единой кодировке и соблюдением прав доступа
2. Для обработки записей из базы данных на этапе настройки системы определяется набор SQL-запросов, каждый из которых обеспечивает получение данных по определенному типу объектов из базы данных исходной информационной системы
3. Exalead обеспечивает полнотекстовое индексирование данных без их копирования в промежуточное хранилище. При индексировании учитывается морфология русского языка и распределение данных по полям таблиц исходной БД. Скорость индексации на двухпроцессорном сервере – 40 млн. записей в час.
4. На этапе индексирования может проводиться рубрикация данных по заранее заданному тематическому рубрикатору и выявление сущностей в текстах по настраиваемым правилам
5. Путем выполнения запросов к сформированному полнотекстовому индексу могут быть выполнены операции, представленные на приведенной выше схеме. Скорость выполнения на двухпроцессорном сервере - 20 запросов в секунду.
6. Система легко масштабируется, работает в распределенной архитектуре, реализована в соответствии с SOAP, открыта. Базовые поисковые функции в интерфейсе Exalead Поиск по страницам из интернет- сайтов с выявлением сущностей, рубрикацией и фильтрацией. В качестве источников могут служить различные базы данных информационных систем и их фрагменты. Форма представления данных может меняться без их повторной обработки и программирования. Возможно значительное изменение дизайна интерфейса в кратчайшие сроки.
 
Дополнительные функции на примере демо-приложений:
Автоматическая разметка найденного текста ссылками на проиндексированные записи в базах данных информационных систем. В данном примере – ссылками на статьи в американской энциклопедии Wikipedia. Приложение доступно по адресу http://wikifier.labs.exalead.com (только для англоязычных текстов).          
Автоматическое составление досье на персону на основе данных, содержащихся в различных базах данных и выявление связей между выявленными персонами. В данном примере – базой данных является американская энциклопедия Wikipedia. Приложение доступно по адресу http://miiget.labs.exalead.com (только для англоязычных текстов)
 
Примеры внедренных проектов по интеграции разнородных баз данных:
  

Sal.Oppenheim jr. & Cie

Банки и страховые компании

Немецкое банковское сообщество Sal. Oppenheimjr. & Cie. выбрало технологию Exalead для обеспечения поиска по Интернету и десяткам баз данных.

BNP New York

 

Банки и страховые компании

Нью-Йоркский офис французской банковской группы выбрал технологию Exalead для обеспечения интегрированной среды для колл-центра Remedy (BMC), баз данных и файлов Lotus Notes.

INRIA

Образование и исследовательские центры

Французский национальный исследовательский институт вычислительной техники выбрал Exalead для обеспечения поиска на своих Интернет и интранет порталах. Сеть порталов INRIA включает в себя сайты, расположенные на более чем 200 серверах. 

 

AIR LIQUIDE

 

Наука

С помощью платформы Exalead - AIR LIQUIDE обеспечивает корпоративный интранет поиск и навигацию по сотням тысяч документов из различных источников (базы данных Lotus Notes, Livelink. Системы управления контентом файловые системы, интранет сайты и т.д.) для более чем 30.000 пользователей.