Хранилище данных - Обзор

Термин «Хранилище данных» был впервые введен Биллом Инмоном в 1990 году. По словам Инмона, хранилище данных представляет собой предметно-ориентированный, интегрированный, изменяющийся во времени и энергонезависимый сбор данных. Эти данные помогают аналитикам принимать обоснованные решения в организации.

Операционная база данных ежедневно подвергается частым изменениям из-за проводимых транзакций. Предположим, что руководитель бизнеса хочет проанализировать предыдущие отзывы о любых данных, таких как продукт, поставщик или любые данные о потребителе, тогда у руководителя не будет данных, доступных для анализа, поскольку предыдущие данные были обновлены в результате транзакций.

Хранилища данных предоставляют нам обобщенные и консолидированные данные в многомерном представлении. Наряду с обобщенным и консолидированным представлением данных хранилища данных также предоставляют нам инструменты онлайн-аналитической обработки (OLAP). Эти инструменты помогают нам в интерактивном и эффективном анализе данных в многомерном пространстве. Этот анализ приводит к обобщению данных и интеллектуальному анализу данных.

Функции интеллектуального анализа данных, такие как сопоставление, кластеризация, классификация, прогнозирование, могут быть интегрированы с операциями OLAP для улучшения интерактивного интеллектуального анализа знаний на нескольких уровнях абстракции. Вот почему хранилище данных стало важной платформой для анализа данных и аналитической обработки в Интернете.

Понимание хранилища данных

  • Хранилище данных - это база данных, которая хранится отдельно от оперативной базы данных организации.

  • В хранилище данных нет частых обновлений.

  • Он обладает консолидированными историческими данными, которые помогают организации анализировать свой бизнес.

  • Хранилище данных помогает руководителям организовывать, понимать и использовать свои данные для принятия стратегических решений.

  • Системы хранилищ данных помогают в интеграции разнообразных прикладных систем.

  • Система хранилища данных помогает в консолидированном анализе исторических данных.

Почему хранилище данных отделено от оперативных баз данных

Хранилища данных хранятся отдельно от операционных баз данных по следующим причинам:

  • Оперативная база данных создается для хорошо известных задач и рабочих нагрузок, таких как поиск определенных записей, индексация и т. Д. В контрактах запросы к хранилищу данных часто являются сложными и представляют общую форму данных.

  • Операционные базы данных поддерживают одновременную обработку нескольких транзакций. Механизмы контроля и восстановления параллелизма необходимы для действующих баз данных, чтобы обеспечить надежность и согласованность базы данных.

  • Оперативный запрос к базе данных позволяет читать и изменять операции, в то время как для запроса OLAP требуется только доступ только для чтения к хранимым данным.

  • Оперативная база данных поддерживает текущие данные. С другой стороны, хранилище данных поддерживает исторические данные.

Особенности хранилища данных

Ключевые особенности хранилища данных обсуждаются ниже -

  • Предметно-ориентированный. Хранилище данных является предметно-ориентированным, поскольку предоставляет информацию по предмету, а не по текущим операциям организации. Такими субъектами могут быть продукт, клиенты, поставщики, продажи, выручка и т. Д. Хранилище данных не ориентировано на текущие операции, а сосредоточено на моделировании и анализе данных для принятия решений.

  • Интегрированный. Хранилище данных создается путем интеграции данных из разнородных источников, таких как реляционные базы данных, плоские файлы и т. Д. Эта интеграция повышает эффективность анализа данных.

  • Вариант времени - данные, собранные в хранилище данных, идентифицируются с определенным периодом времени. Данные в хранилище данных предоставляют информацию с исторической точки зрения.

  • Энергонезависимый - энергонезависимый означает, что предыдущие данные не стираются при добавлении новых данных. Хранилище данных хранится отдельно от оперативной базы данных, поэтому частые изменения в оперативной базе данных не отражаются в хранилище данных.

Примечание. Хранилище данных не требует обработки транзакций, восстановления и управления параллелизмом, поскольку оно физически хранится и отделено от операционной базы данных.

Приложения хранилища данных

Как обсуждалось ранее, хранилище данных помогает руководителям предприятий организовывать, анализировать и использовать свои данные для принятия решений. Хранилище данных служит единственной частью системы обратной связи «план-выполнение-оценка» для управления предприятием. Хранилища данных широко используются в следующих областях -

  • Финансовые услуги
  • Банковские услуги
  • Потребительские товары
  • Розничные секторы
  • Контролируемое производство

Типы хранилищ данных

Обработка информации, аналитическая обработка и извлечение данных - это три типа приложений хранилища данных, которые обсуждаются ниже:

  • Обработка информации - хранилище данных позволяет обрабатывать хранящиеся в нем данные. Данные могут быть обработаны с помощью запросов, базового статистического анализа, отчетности с использованием кросс-таблиц, таблиц, диаграмм или графиков.

  • Аналитическая обработка - хранилище данных поддерживает аналитическую обработку информации, хранящейся в нем. Данные могут быть проанализированы с помощью основных операций OLAP, включая срезы и детали, детализацию, детализацию и поворот.

  • Интеллектуальный анализ данных. Интеллектуальный анализ данных поддерживает обнаружение знаний путем поиска скрытых закономерностей и ассоциаций, построения аналитических моделей, выполнения классификации и прогнозирования. Эти результаты добычи могут быть представлены с использованием инструментов визуализации.

Sr.No. Хранилище данных (OLAP) Оперативная база данных (OLTP)
1 Он включает в себя историческую обработку информации. Это включает в себя ежедневную обработку.
2 Системы OLAP используются работниками умственного труда, такими как руководители, менеджеры и аналитики. Системы OLTP используются клерками, администраторами баз данных или специалистами по базам данных.
3 Используется для анализа бизнеса. Он используется для ведения бизнеса.
4 Это сосредотачивается на Информации. Он фокусируется на данных в.
5 Он основан на схеме «звезда», «снежинка» и «схеме фактов». Он основан на модели отношений сущностей.
6 Это сосредотачивается на Информации. Это ориентировано на приложения.
7 Содержит исторические данные. Содержит текущие данные.
8 Он предоставляет обобщенные и сводные данные. Он предоставляет примитивные и очень подробные данные.
9 Он обеспечивает обобщенное и многомерное представление данных. Это обеспечивает детальное и плоское реляционное представление данных.
10 Количество пользователей исчисляется сотнями. Количество пользователей в тысячах.
11 Количество обращений к записи в миллионах. Количество записей достигло десятков.
12 Размер базы данных составляет от 100 ГБ до 100 ТБ. Размер базы данных составляет от 100 МБ до 100 ГБ.
13 Это очень гибкие. Это обеспечивает высокую производительность.