к библиотеке   к оглавлению   к ТПОИ   к экономической информатике   к дискретной математике

Метаданные и их место в хранилище данных

  1. Представление метаданных с помощью XML
  2. Метаданные Хранилища данных
  3. Роль метаданных в хранилище данных
  4. XML и метаданные
  5. Бизнес-процессы с использованием диалекта XML BPEL
  6. Проблемы XML
  7. Кто есть кто

Представление метаданных с помощью XML

Метаданные, metadata - (от греч. Meta и лат. Data), буквально переводится как "данные о данных", информация о другом наборе данных. Метаданные - это структурированные, кодированные данные, которые описывают характеристики объектов-носителей информации, способствующие идентификации, обнаружению, оценке и управлению этими объектами.

Тема эта поднимается с тех пор, как существуют данные: метаданные были необходимы для описания значения и свойств информации с целью лучшего ее понимания, управления и использования. Классическим примером являются библиотеки. Книги (данные) можно классифицировать, управлять ими и находить только с помощью соответствующих метаданных (т.е. заголовка, автора и ключевых слов содержания).

Обычно под метаданными понимается любая информация, необходимая в IT для анализа, проектирования, построения, внедрения и применения компьютерной системы. В случае информационных систем метаданные особенно упрощают управление, создание запросов, полноценное использование и понимание данных. Многие недавние проекты, как научные, так и практические, направлены на изучение метаданных. Генерирование, хранение и управление метаданными помогают в поддержке использования огромных объемов информации, доступных в наши дни в любой электронной форме. Так как все, с чем работает компьютер, по сути является данными, и своего рода метаданные сопровождают любые данные, то это понятие имеет место быть в любой сфере приложений и принимает различные формы в зависимости от применения.

Метаданные Хранилища данных

Популярность Хранилищ данных в последние годы существенно возросла. Конкурентоспособные организации находятся на пути построения ХД либо расширения, перепроектирования и усовершенствования уже имеющихся. Метаданные считаются ключевым фактором успеха в проектах по внедрению Хранилищ. Они содержат всю информацию, необходимую для извлечения, преобразования и загрузки данных из исходных систем, а также для последующего использования и интерпретации содержимого ХД.

Метаданные систем Хранилищ данных иногда подразделяют на два типа:

  1. служебные метаданные, используемые для функций извлечения, преобразования и загрузки, для переноса OLTP-данных (информации из транзакционных систем) в Хранилище;
  2. интерфейсные метаданные, использующиеся для описания экранов и создания отчетов.

Ральф Кимболл (Ralph Kimball) перечисляет следующие типы метаданных в Хранилище:

Роль метаданных в хранилище данных

Лучше всего объяснить суть метаданных, описывая их роль и назначение в реализации процессов ХД. Метаданные можно использовать тремя способами:

Создание и управление метаданными служит двум целям:

  1. минимизации работ по разработке и администрированию ХД;
  2. более эффективному извлечению информации из ХД.

Первая цель в основном относится к:

Вторая цель относится к эффективному извлечению информации, а точнее к:

  • Правила проверки качества данных необходимо задать, сохранить в виде метаданных и проверять при каждом обновлении Хранилища. Кроме того, высокое качество требует поддержки контроля данных. Метаданные обеспечивают информацию о времени создания и об авторе данных, об источнике, значении данных в момент получения (о наследовании данных), и о дальнейшем пути от источника к текущему местоположению (data lineage — о происхождении данных). Таким образом пользователи могут восстановить цепочку, по которой проходят данные за время преобразования, и проверить точность возвращенной информации;
  • улучшению взаимодействия внутри системы ХД. Взаимодействие происходит как посредством выполнения простых запросов и отчетных приложений, так и с использованием сложных аналитических инструментов. Метаданные обеспечивают сведения о значении данных, терминологию и бизнес-концепции предприятия, а также их связь с данными. Поэтому метаданные повышают качество выполняемых запросов за счет более точной и строгой формулировки, а также сокращают расходы на пользователей, которым необходимы доступ, оценка и применение соответствующей информации;
  • улучшению анализа данных. Методы анализа данных представлены широко — начиная от простых приложений отчетности и OLAP и заканчивая сложными приложениями data mining. В этом направлении метаданные необходимы для понимания предметной области и ее представления в Хранилище, с тем чтобы адекватно применить и интерпретировать результаты;
  • применению общей терминологии и языка взаимодействия внутри корпорации. Доступность метаданных как уникального источника документации для пользователей имеет и другие преимущества. Она гарантирует согласованные средства взаимодействия и интерпретации информации из Хранилища. А также устраняет двусмысленность и обеспечивает согласованность сведений внутри компании, позволяет разделять знания и опыт.
  • Метаданные системы ХД содержатся в репозитории — структурированной системе хранения и извлечения, реализованной на основе СУБД. Для интерпретации метаданных необходимо хранить структуру репозитория (то есть схему метаданных) и их семантику.

    Существуют различные способы определения и хранения метаданных в хранилище данных. Один из методов — использование технологии XML.

    XML и метаданные

    XML в наше время охватывает практически все аспекты информационных технологий. Что касается метаданных, то переоценить использование XML тут сложно, оно распространяется на множество приложений, в том числе и на Хранилища данных.

    Основная функция XML - определять другие языки разметки. XML — это метаязык, а поэтому он оказывается очень эффективным форматом представления и обмена метаданными.

    XML имеет множество преимуществ, которые делают его идеальным средством описания:

    1. Он относительно понятен людям в чтении и написании (правда, чрезвычайно критичен к ошибкам). А следовательно, доступен новичкам и не вызывает страха.
    2. Это открытая технология. Стандарт XML предложен W3C. Никто им не имеет прав собственности на этот язык. Он — платформо-независимый.
    3. XML может применяться повсеместно. Анализатор XML можно найти везде, и, используя соответствующие инструменты, несложно сразу же внедрить эту технологию.
    4. Язык гибок. Пожалуй, одна из главных причин использования XML в том, что нет четких рамок применения. Каждый самостоятельно решает, как использовать его в своем приложении.
    5. XML недорог для внедрения как в большой, так и в малой организации.

    Можно привести и иные причины использования XML, а не других средств. В первую очередь, структура метаданных часто бывает сложной, в ней множество вложенных отношений, а некоторые элементы метаданных могут повторяться. Во-вторых, если для хранения метаданных используется, например, РСУБД (реляционная система управления базой данных), то таблицы в базе не отражают сложных связей между элементами метаданных (трудно сгенерировать определения таблиц для описания отношений). И наоборот, XML задает структуру документа “самоописательным” образом. Его можно использовать для задания не только содержания, но и схемы. А следовательно, не сложно найти взаимосвязь между различными участками XML-документа.

    XML позволяет публиковать метаданные, используемые любой программой или базой данных, в виде языка общения. XML обеспечивает связь между структурированной базой и неструктурированным текстом, передаваемым в формате XML. Так как XML позволяет задавать свой собственный язык разметки, то можно использовать все расширенные гипертекстовые возможности для хранения самих метаданных или ссылок в любом формате.

    Если имеется программное обеспечение, которое может прочесть и расшифровать XML-файлы, то метаданные в любом Хранилище можно представить в виде обычного XML-файла, созданного на основе общего DTD (document type definition — описание типа документа).

    Очевидно, что XML становится все популярнее в компаниях, так как решает задачи хранения и доступа к метаданным. Многие стремятся к созданию приложений управления метаданными по принципу повторного использования и обеспечения активного применения схем и DTD. Всем известно, что необходимо создавать стандарты и определения данных, классифицируемые по бизнес-функциональности. Очевидно, что XML надо использовать не потому, что это новая и популярная технология, но потому, что это правильный бизнес-выбор.

    Однако кто же будет решать эти задачи? В большинстве организаций программисты, дизайнеры, интеграторы и менеджеры проектов “переступают” через XML-технологию и даже не вспоминают о том, что ее можно использовать для управления ресурсами данных. Не стоит удивляться, если вдруг в одном из XML-файлов, описывающих метаданные, обнаружатся проблемы: один и тот же атрибут пишется в разных местах по-разному, используются всевозможные стандарты именования полей, несогласованные форматы данных.

    А что будет, если таких XML файлов окажется 1000, причем все они будут написаны в соответствии с разными стандартами? Вроде бы у современных грамотных специалистов этого не должно случиться. XML — открытый стандарт, в распоряжении специалистов есть DTD и схемы, и в нужный момент появятся необходимые инструменты. Но так ли это? Где же эти инструменты, стандарты, где профессионалы, решающие такие проблемы? Не похоже, что они занимаются написанием XML-кода.

    Проблемы XML

    А кто готов перед лицом руководства поставить следующие задачи, возникающие в XML-среде:

    Если найдутся такие энтузиасты, то XML-сообщество будет им признательно. Но смелость потребует немалых жертв в борьбе с руководством, которое стремится к краткосрочным целям и ждет скорых результатов. Однако, со временем метаданные будут признаны критически важным компонентом в инфраструктуре компаний, так же как и XML-стратегия.

    Очевидно, что метаданные еще пять лет назад были в поле зрения большинства крупных компаний. Сегодня они на передовой линии XML-технологии, и это их лучшее место.

    Кто есть кто

    Майкл Брэкет (Michael Brackett) — признанный лидер в области обработки данных. Основатель справочного интернет-портала проектирования и моделирования ресурсов данных (Data Resource Design and Remodeling — http://members.aol.com/mhbrackett/). Работал координатором ресурсов данных штата Вашингтон, где разрабатывал общую архитектуру данных штата. Кроме того, занимался преподаванием проектирования и моделирования данных в Университете Вашингтона и написал пять книг по этой теме, в том числе “Проблема Хранилища данных: устранение хаоса данных” (The Data Warehouse Challenge: Taming Data Chaos). Занимает должность президента ассоциации DAMA International.

    Адриен Танненбаум (Adrienne Tannenbaum) — президент консалтинговой компании Database Design Solutions (www.dbdsolutions.com), специализирующейся на восстановлении корпоративных данных. Является автором двух популярных книг о метаданных: “Решения для метаданных: использование метамоделей, репозиториев, XML и корпоративных порталов для генерации информации” (Metadata Solutions: Using Metamodels, Repositories, XML, and Enterprise Portals to Generate Information on Demand) (2001, изд. Addison Wesley) и “Внедрение корпоративного репозитория” (Implementing a Corporate Repository) (1994, изд. Wiley).

    Ральф Кимболл (Ralph Kimball) (ralph@kimballgroup.com) известен во всем мире как новатор, писатель, преподаватель, лектор и консультант в области Хранилищ данных.

    к библиотеке   к оглавлению   к ТПОИ   технологии программирования

    Знаете ли Вы, как разрешается парадокс Ольберса?
    (Фотометрический парадокс, парадокс Ольберса - это один из парадоксов космологии, заключающийся в том, что во Вселенной, равномерно заполненной звёздами, яркость неба (в том числе ночного) должна быть примерно равна яркости солнечного диска. Это должно иметь место потому, что по любому направлению неба луч зрения рано или поздно упрется в поверхность звезды.
    Иными словами парадос Ольберса заключается в том, что если Вселенная бесконечна, то черного неба мы не увидим, так как излучение дальних звезд будет суммироваться с излучением ближних, и небо должно иметь среднюю температуру фотосфер звезд. При поглощении света межзвездным веществом, оно будет разогреваться до температуры звездных фотосфер и излучать также ярко, как звезды. Однако в дело вступает явление "усталости света", открытое Эдвином Хабблом, который показал, что чем дальше от нас расположена галактика, тем больше становится красным свет ее излучения, то есть фотоны как бы "устают", отдают свою энергию межзвездной среде. На очень больших расстояниях галактики видны только в радиодиапазоне, так как их свет вовсе потерял энергию идя через бескрайние просторы Вселенной. Подробнее читайте в FAQ по эфирной физике.

    НОВОСТИ ФОРУМА

    Форум Рыцари теории эфира


    Рыцари теории эфира
     10.11.2021 - 12:37: ПЕРСОНАЛИИ - Personalias -> WHO IS WHO - КТО ЕСТЬ КТО - Карим_Хайдаров.
    10.11.2021 - 12:36: СОВЕСТЬ - Conscience -> РАСЧЕЛОВЕЧИВАНИЕ ЧЕЛОВЕКА. КОМУ ЭТО НАДО? - Карим_Хайдаров.
    10.11.2021 - 12:36: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от д.м.н. Александра Алексеевича Редько - Карим_Хайдаров.
    10.11.2021 - 12:35: ЭКОЛОГИЯ - Ecology -> Биологическая безопасность населения - Карим_Хайдаров.
    10.11.2021 - 12:34: ВОЙНА, ПОЛИТИКА И НАУКА - War, Politics and Science -> Проблема государственного терроризма - Карим_Хайдаров.
    10.11.2021 - 12:34: ВОЙНА, ПОЛИТИКА И НАУКА - War, Politics and Science -> ПРАВОСУДИЯ.НЕТ - Карим_Хайдаров.
    10.11.2021 - 12:34: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Вадима Глогера, США - Карим_Хайдаров.
    10.11.2021 - 09:18: НОВЫЕ ТЕХНОЛОГИИ - New Technologies -> Волновая генетика Петра Гаряева, 5G-контроль и управление - Карим_Хайдаров.
    10.11.2021 - 09:18: ЭКОЛОГИЯ - Ecology -> ЭКОЛОГИЯ ДЛЯ ВСЕХ - Карим_Хайдаров.
    10.11.2021 - 09:16: ЭКОЛОГИЯ - Ecology -> ПРОБЛЕМЫ МЕДИЦИНЫ - Карим_Хайдаров.
    10.11.2021 - 09:15: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Екатерины Коваленко - Карим_Хайдаров.
    10.11.2021 - 09:13: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Вильгельма Варкентина - Карим_Хайдаров.
    Bourabai Research - Технологии XXI века Bourabai Research Institution