f g h = > : g g u obek.sibadi.org/fulltext/bn1160.pdf · m > 004 32.97 73 f z j d b j h \ d g...

32
Серия внутривузовских методических указаний СибАДИ Министерство науки и высшего образования Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования «Сибирский государственный автомобильно-дорожный университет (СибАДИ)» Кафедра «Прикладная информатика в экономике» МНОГОМЕРНЫЕ МАССИВЫ ДАННЫХ Методические указания к дисциплине «Многомерные массивы данных» Составитель С.Ю.Пестова, Е.О.Шершнева Омск 2018

Upload: others

Post on 22-Aug-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

С е р и я в н у т р и в у з о в с к и х

м е т о д и ч е с к и х у к а з а н и й С и б А Д И

Министерство науки и высшего образования Российской Федерации

Федеральное государственное бюджетное образовательное учреждение высшего образования

«Сибирский государственный автомобильно-дорожный университет (СибАДИ)»

Кафедра «Прикладная информатика в экономике»

МНОГОМЕРНЫЕ МАССИВЫ

ДАННЫХ

Методические указания к дисциплине

«Многомерные массивы данных»

Составитель С.Ю.Пестова, Е.О.Шершнева

Омск 2018

Page 2: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

УДК 004

ББК 32.97

М 73

Рецензент

Доктор технических наук, профессор, С.Н. Чуканов

(Заведующий кафедрой «Компьютерные информационные

автоматизированные системы» ФГБОУ ВО СибАДИ.)

Работа утверждена редакционно-издательским советом университета в

качестве методических указаний.

М 73 Многомерные массивы данных [Электронный ресурс] :

Методические указания / сост. С.Ю. Пестова, Е.О.Шершнева – (Серия

внутривузовских методических указаний СибАДИ). – Электрон. дан. – Омск :

СибАДИ, 2018. – Режим доступа: http://bek.sibadi.org/fulltext/bn1160.pdf, свободный после авторизации. – Загл. с экрана.

По темам изложен материал, необходимый для выполнения лабораторных

работ, дана рекомендуемая литература и перечень дополнительных ресурсов,

необходимых для освоения дисциплины «Многомерные массивы данных». Для

самостоятельной подготовки к промежуточной аттестации сформированы

вопросы и типовые тесты.

Имеется интерактивное оглавление в виде закладок.

Методические указания предназначены для бакалавров направления

09.03.03 «Прикладная информатика». Также могут быть использованы как

дополнительный учебный материал в различных информационных дисциплинах

для формирования профессиональных компетенций.

Издание подготовлено на кафедре «Прикладная информатика в

экономике».

Текстовое (символьное) издание ( )

Системные требования: Intel, 3,4 GHz; 150 Мб; Windows XP/Vista/7; DVD-

ROM;

1 Гб свободного места на жестком диске; программа для чтения pdf-

файлов:

Adobe Acrobat Reader; Foxit Reader

Издание первое. Дата подписания к использованию

Издательско-полиграфический комплекс СибАДИ. 644080, г. Омск, пр.

Мира, 5

РИО ИПК СибАДИ. 644080, г. Омск, ул. 2-я Поселковая, 1

© ФГБОУ ВО «СибАДИ», 2018

_____________________________

Согласно 436-ФЗ от 29.12.2010 «О защите детей от

информации,

причиняющей вред их здоровью и развитию» данная продукция

маркировке не подлежит.

_____________________________

Page 3: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

СОДЕРЖАНИЕ

СОДЕРЖАНИЕ ............................................................................................... 3

ВВЕДЕНИЕ ..................................................................................................... 4

1. ТЕОРИТИЧЕСКИЙ МАТЕРИАЛ К ЛАБОРАТОРНЫМ РАБОТАМ .. 6

1.1. Архитектуры данных: история развития .............................................. 6

1.2. Архитектуры данных: Базы данных и модели данных ....................... 7

1.3. Многомерные данные ............................................................................. 8

1.4. Концепция хранилищ данных (ХД) ....................................................... 9

1.5. Архитектуры хранилищ данных .......................................................... 10

1.6. Реляционные хранилища данных ........................................................ 11

1.7. Реализация реляционных хранилищ данных ..................................... 13

1.8. Виртуальные хранилища данных ........................................................ 14

1.9.Использование хранилищ данных. Различные

архитектурные решения ХД, реализация процедур ETL ......................... 16

2. ЛАБОРАТОРНЫЕ РАБОТЫ................................................................... 18

2.1 Лабораторная работа 1 «Основы работы с аналитической

платформой Deductor studio» ...................................................................... 18

2.2Лабораторная работа 2 «Трансформация данных в Deductor Studio» 19

2.3 Лабораторная работа 3 «Создание, заполнение и использование

хранилища данных Deductor Warehouse на базе Firebird» ....................... 20

2.4 Лабораторная работа 4 «Определение представления источника

данных и развертывание куба в проекте служб Analysis Services» ........ 21

2.5 Лабораторная работа 5 «Изменение мер, атрибутов и иерархий» .... 22

2.6 Лабораторная работа 6 «Разработка реляционного хранилища

данных средствами платформы Deductor» ................................................ 23

2.7 Лабораторная работа 7 «Разработка РХД средствами СУБД» .......... 24

2.8 Лабораторная работа 8 «Определение и развертывание куба» ......... 24

4. ТЕМЫ ДЛЯ ПОДГОТОВКИ К ИТОГОВОЙ ФОРМЕ КОНТРОЛЯ .. 25

5. ТИПОВЫЕ ТЕСТОВЫЕ ЗАДАНИЯ ...................................................... 26

СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ ...................................... 31

ПЕРЕЧЕНЬ РЕСУРСОВ СЕТИ «ИНТЕРНЕТ», РЕКОМЕНДУЕМЫХ

ДЛЯ ОСВОЕНИЯ ДИСЦИПЛИНЫ ........................................................... 31

Page 4: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

ВВЕДЕНИЕ

Массив – структура данных, хранящая набор значений

(элементов массива), идентифицируемых по индексу или набору

индексов, принимающих целые (или приводимые к целым) значения

из некоторого заданного непрерывного диапазона. Одномерный

массив можно рассматривать как реализацию абстрактного типа

данных вектор. Многомерный массив – это массив массивов, т. е.

массив, элементами которого являются массивы. Размерность массива

- это количество индексов, используемых для ссылки на конкретный

элемент массива.

Целями освоения учебной дисциплины являются формирование

у студентов теоретических знаний, практических умений и навыков

по применению современных технологий хранилищ данных в

различных сферах человеческой деятельности; получение базовых

знаний о системах хранения данных, особенностях хранилищ данных

и их назначении; знакомство с технологиями интеллектуального

анализа.

Для изучения дисциплины, были поставлены следующие задачи:

изучение существующих технологий подготовки данных к

анализу;

изучение основных методов поиска закономерностей, связей,

правил в табулированных массивах данных большого объема;

иллюстрированного их применения в различных областях

деятельности;

овладение практическими умениями и навыками реализации

технологий интеллектуального анализа данных, формирования и

проверки гипотез о их природе и структуре, варьирования

применяемыми моделями;

формирование умений и навыков применения универсальных

программных пакетов и аналитических платформ для анализа данных.

В результате изучения дисциплины студент должен знать

принципы, методы системного анализа, этапы формализации

прикладных задач с использованием методов экономико-

математического моделирования, особенности аналитических

платформ, различные модели и методы моделирования

информационных систем. Студент должен уметь ставить задачи

проектирования хранилищ данных; разрабатывать структуру

хранилищ данных; анализировать многомерные данные посредством

OLAP-технологий; вводить, хранить, обрабатывать и анализировать

информацию в хранилище данных; выбирать средства реализации

Page 5: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

требований к программному обеспечению. Помимо этого, проводить

анализ предметной области, выявлять информационные потребности

и разрабатывать требования к ИС.

Page 6: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

1. ТЕОРИТИЧЕСКИЙ МАТЕРИАЛ К ЛАБОРАТОРНЫМ

РАБОТАМ

1.1. Архитектуры данных: история развития

Вопросы для рассмотрения: Эволюция задач сбора и

обработки информации. Понятие архитектуры данных. Развитие

систем хранения и обработки данных. Системы оперативной

обработки информации – OLTP. Системы консолидации и

аналитической обработки информации – ELT.

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3.

Наименование вида самостоятельной работы: изучение темы,

оформление отчета по работе.

Архитектура данных – в области информационных технологий

архитектура данных состоит из моделей, политик, правил или

стандартов, которые определяют, какие данные собираются, и как они

хранятся, размещаются, интегрируются и используются для

использования в системах данных и в организациях. Данные обычно

являются одним из нескольких доменов архитектуры, которые

составляют основу архитектуры предприятия или архитектуры

решения.

Системы хранения и обработки данных – сложная комбинация

серверов, систем хранения данных, сетевого оборудования для

выполнения информационных сервисов.

Системы аналитической обработки данных OLAP – это системы

поддержки принятия решений, ориентированные на выполнение

более сложных запросов, требующих статистической обработки

исторических данных, накопленных за определенный промежуток

времени. Они служат для подготовки бизнес-отчетов по продажам,

маркетингу в целях управления, так называемого Data Mining –

добычи данных, т.е. способа анализа информации в базе данных для

отыскания аномалий и трендов без выяснения смыслового значения

записей.

Консолидация данных (ELT) является начальным этапом

реализации любой аналитической задачи или проекта. В основе

консолидации лежит процесс сбора и организации хранения данных в

виде, оптимальном с точки зрения их обработки на конкретной

аналитической платформе или решения конкретной аналитической

Page 7: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

задачи. Сопутствующими задачами консолидации являются оценка

качества данных и их обогащение.

1.2. Архитектуры данных: Базы данных и модели данных

Вопросы для рассмотрения: Иерархическая модель данных,

условия целостности иерархической модели данных. Сетевая модель

данных, условия целостности сетевой модели данных. Реляционная

модель данных, реляционные базы данных. Хранилища данных –

системы хранения данных, ориентированная на аналитическую

обработку.

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3,4,5.

Наименование вида самостоятельной работы: изучение

вопросов темы, оформление отчета по лабораторной работе,

подготовка к тесту по тематике курса.

Иерархическая модель данных – логическая модель данных в

виде древовидной структуры, представляющая собой совокупность

элементов, расположенных в порядке их подчинения от общего к

частному. В иерархических моделях основная структура

представления данных имеет форму дерева. На самом высшем

(первом) уровне иерархии находится только одна вершина, которая

называется корнем дерева.

Сетевая модель данных – логическая модель данных,

являющаяся расширением иерархического подхода, строгая

математическая теория, описывающая структурный аспект, аспект

целостности и аспект обработки данных в сетевых базах данных.

Разница между иерархической моделью данных и сетевой состоит в

том, что в иерархических структурах запись-потомок должна иметь в

точности одного предка, а в сетевой структуре данных у потомка

может иметься любое число предков.

Реляционная модель данных – логическая модель данных,

прикладная теория построения баз данных, которая является

приложением к задачам обработки данных таких разделов

математики, как теория множеств и логика первого порядка. На

реляционной модели данных строятся реляционные базы данных.

Реляционная модель данных включает следующие компоненты:

Структурный аспект (составляющая) – данные в базе данных

представляют собой набор отношений.

Page 8: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

Хранилище данных – предметно-ориентированная

информационная база данных, специально разработанная и

предназначенная для подготовки отчётов и бизнес-анализа с целью

поддержки принятия решений в организации. Строится на базе

систем управления базами данных и систем поддержки принятия

решений.

1.3. Многомерные данные

Вопросы для рассмотрения: OLAP-технология. Задачи OLAP-

систем: представление данных, процессы обработки. Концепция

многомерного представления данных – гиперкубы. Базовые понятия:

измерения и факты. Формализация многомерного представления

данных: метки, иерархии, ячейки, меры.

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3,4.

Наименование вида самостоятельной работы: изучение

вопросов темы, оформление отчета по лабораторной работе,

подготовка к тесту по тематике курса.

OLAP – технология обработки данных, заключающаяся в

подготовке суммарной (агрегированной) информации на основе

больших массивов данных, структурированных по многомерному

принципу. Реализации технологии OLAP являются компонентами

программных решений класса Business Intelligence.

В основе OLAP лежит понятие гиперкуба, или многомерного

куба данных, в ячейках которого хранятся анализируемые данные.

Факт - это числовая величина которая располагается в ячейках

гиперкуба. Один OLAP-куб может обладать одним или несколькими

показателями.

Измерение (dimension) - это множество объектов одного или

нескольких типов, организованных в виде иерархической структуры и

обеспечивающих информационный контекст числового показателя.

Измерение принято визуализировать в виде ребра многомерного куба.

Факт - это числовая величина которая располагается в ячейках

гиперкуба. Один OLAP-куб может обладать одним или несколькими

показателями.

Измерение - это множество объектов одного или нескольких

типов, организованных в виде иерархической структуры и

обеспечивающих информационный контекст числового показателя.

Измерение принято визуализировать в виде ребра многомерного куба.

Page 9: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

Объекты, совокупность которых и образует измерение,

называются членами измерений. Члены измерений визуализируют как

точки или участи, откладываемые на осях гиперкуба.

Ячейка - атомарная структура куба, соответствующая полному

набору конкретный значений измерений.

Иерархия - группировка объектов одного измерения в объекты

более высокого уровня. Например - день-месяц-год. Иерархии в

измерениях необходимы для возможности агрегации и детализации

значений показателей согласно их иерархической структуре.

Иерархия целиком основывается на одном измерении и формируется

из уровней.

1.4. Концепция хранилищ данных (ХД)

Вопросы для рассмотрения: OLAP как ключевой компонент

ХД. Построение информационных систем на основе архитектур

хранилищ данных. Операции над многомерными данными. Методы

обработки агрегированных данных.

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3,4,5.

Наименование вида самостоятельной работы: изучение

вопросов темы, оформление отчета по лабораторной работе,

подготовка к тесту по тематике курса.

OLAP — это ключевой компонент организации ХД. OLAP-

функциональность может быть реализована различными способами,

как простейшими, такими как анализ данных в офисных

приложениях, так и более сложными - распределенными

аналитическими системами, основанными на серверных продуктах.

Архитектура информационной системы – концепция,

определяющая модель, структуру, выполняемые функции и

взаимосвязь компонентов информационной системы.

Операции над данными. При выполнении операции срез

формируется подмножество гиперкуба, в котором значение одного

или более измерений фиксировано (например, значения параметров

для фиксированного измерения Бригада). Операция вращения

изменяет порядок представления измерений, обеспечивая

представление куба в более удобной для восприятия форме.

Консолидация — операция перехода от детального представления

данных к агрегированному.

Агрегирование - метод обобщения моделей. Операцией,

противоположной декомпозиции, является агрегирование -

Page 10: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

объединение частей в целое. Операция декомпозиции применяется на

этапе анализа системы.

1.5. Архитектуры хранилищ данных

Вопросы для рассмотрения: Современное представление.

Классификация архитектур хранилищ данных. Многомерные,

реляционные и гибридные хранилища данных. Различие концепций и

особенности построения.

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3,4,5.

Наименование вида самостоятельной работы: изучение

вопросов темы.

Типовыми архитектурами для систем складирования данных

принято считать следующие:

системы с глобальным ХД ;

системы с независимыми киосками данных ;

системы с интегрированными киосками данных ;

системы, разработанные на основе комбинации из

вышеперечисленных архитектур.

Глобальное хранилище данных (Global data warehouse), или

хранилище данных масштаба организации, — это такое ХД, в

котором будут поддерживаться все данные организации или большая

их часть. Это наиболее полное интегрированное ХД с высокой

степенью интенсивности доступа к консолидированным данным и

использованием его всеми подразделениями организации или

руководством организации в рамках основных направлений

деятельности организации.

Централизованное глобальное ХД характерно для организаций,

расположенных территориально в одном здании. Оно поддерживается

отделом информационных систем организации. Распределенное

глобальное ХД также может быть использовано в рамках организации

в целом. Оно физически распределяется по подразделениям

организации и также поддерживается отделом информационных

систем.

Гибридные хранилища данных. Многомерная и реляционная

модели хранилищ данных имеют свои преимущества и недостатки.

Например, многомерная модель позволяет быстрее получить ответ на

запрос, но не дает возможности эффективно управлять такими же

большими объемами данных, как реляционная модель. Логично было

бы использовать такую модель ХД, которая представляла бы собой

Page 11: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

комбинацию реляционной и многомерной моделей и позволяла бы

сочетать высокую производительность, характерную для

многомерной модели, и возможность хранить сколь угодно большие

массивы данных, присущую реляционной модели.

Многомерные хранилища обычно содержат агрегатные данные

(например, суммы, средние значения, количество значений) для

различных выборок. Чаще всего такие агрегатные функции образуют

многомерный набор данных, называемый кубом, оси которого

(называемые измерениями) содержат параметры, а ячейки -

зависящие от них агрегатные данные (иногда их называют мерами).

Концепция в общем смысле представляет некоторую систему

взглядов на процесс или явление. Составными частями концепции

являются совокупность принципов и методология. Под методологией

понимается совокупность методов решения проблемы. Принцип –

правила, которыми следует руководствоваться в деятельности. Часто

принципы формулируются в виде ограничений и требований, в

частности, требований к базам данных.

1.6. Реляционные хранилища данных

Вопросы для рассмотрения: Применение реляционной модели

для создания хранилищ данных (ХД). Архитектуры реляционных ХД:

«звезда», «снежинка». Особенности реализации реляционных ХД.

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3,4.

Наименование вида самостоятельной работы: изучение

вопросов темы, оформление отчета по лабораторной работе,

подготовка к тесту по тематике курса.

Применение реляционной модели при создании ХД в ряде

случаев позволяет получить преимущества, особенно в части

эффективности работы с большими массивами данных и

использования памяти компьютера. На основе реляционных

хранилищ данных (РХД) строятся ROLAP-системы. Данные делятся

на измерения и факты. Измерения — это категориальные атрибуты,

наименования и свойства объектов, участвующих в некотором

бизнес-процессе.

Под архитектурой ХД понимают совокупность программно-

аппаратных компонент, совокупность технологических и

организационных решений, предпринимаемых для создания,

разработки и функционирования ХД, т.е. выбор аппаратного и

Page 12: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

программного обеспечения, выбор способов взаимодействия

программно-аппаратных компонент, выбор способа решения

проектной задачи по разработке и созданию ХД.

Схема типа звезды (Star Schema) - схема реляционной базы

данных, служащая для поддержки многомерного представления

содержащихся в ней данных.

Особенности ROLAP-схемы типа «звезда»:

Одна таблица фактов (fact table), которая сильно

денормализована. Является центральной в схеме, может состоять из

миллионов строк и содержит суммируемые или фактические данные,

с помощью которых можно ответить на различные вопросы.

Несколько денормализованных таблиц измерений

(dimensional table). Имеют меньшее количество строк, чем таблицы

фактов, и содержат описательную информацию. Эти таблицы

позволяют пользователю быстро переходить от таблицы фактов к

дополнительной информации.

Таблица фактов и таблицы размерности связаны

идентифицирующими связями, при этом первичные ключи таблицы

размерности мигрируют в таблицу фактов в качестве внешних

ключей. Первичный ключ таблицы факта целиком состоит из

первичных ключей всех таблиц размерности.

Агрегированные данные хранятся совместно с исходными.

Схема типа снежинки (Snowflake Schema) - схема реляционной

базы данных, служащая для поддержки многомерного представления

содержащихся в ней данных, является разновидностью схемы типа

"звезда" (Star Schema).

Особенности ROLAP-схемы типа «снежинка»:

Одна таблица фактов (fact table), которая сильно

денормализована. Является центральной в схеме, может состоять из

миллионов строк и содержать суммируемые или фактические данные,

с помощью которых можно ответить на различные вопросы.

Несколько таблиц измерений (dimensional table), которые

нормализованы в отличие от схемы "звезда". Имеют меньшее

количество строк, чем таблицы фактов, и содержат описательную

информацию. Эти таблицы позволяют пользователю быстро

переходить от таблицы фактов к дополнительной информации.

Первичные ключи в них состоят из единственного атрибута

(соответствуют единственному элементу измерения).

Таблица фактов и таблицы размерности связаны

идентифицирующими связями, при этом первичные ключи таблицы

Page 13: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

размерности мигрируют в таблицу фактов в качестве внешних

ключей. Первичный ключ таблицы факта целиком состоит из

первичных ключей всех таблиц размерности.

В схеме "снежинка" агрегированные данные могут храниться

отдельно от исходных.

1.7. Реализация реляционных хранилищ данных

Вопросы для рассмотрения: Анализ и преобразование

исходных данных. Выбор архитектуры реляционной ХД.

Метаданные. Этапы реализации проекта. Реализация аналитической

обработки загруженных в ХД данных.

Р Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3,4.

Наименование вида самостоятельной работы: изучение

вопросов темы, оформление отчета по лабораторной работе,

подготовка к тесту по тематике курса.

Представление, анализ и преобразование исходных данных. В

качестве источников входной информации для построения

математических моделей могут быть могут быть использованы

отчетные данные предприятий логистики, содержащие

экономические показатели о выполнении различных маршрутов

доставки грузов. Если в этих отчетных данных отсутствуют

сопутствующие необходимые нечисловые факторы, соответствующие

условиям выполнения каждого отдельного маршрута, должна быть

проведена соответствующая дополнительная работа по сбору

исходной информации.

Выбор архитектуры будет определять, где ХД и/или киоски

данных будут расположены и как ими будут организационно-

технологически управлять. Например, данные могут быть

расположены в центральном офисе организации, т.е. будут

поддерживаться централизованно. Данные могут быть распределены

по офисам организации или располагаться в филиалах организации, и

могут поддерживаться как централизованно, так и независимо друг от

друга. Далее приводится краткий обзор типовых архитектур систем

складирования данных и программных продуктов, наиболее часто

используемых для реализации систем складирования данных.

Метаданные — информация о другой информации, или данные,

относящиеся к дополнительной информации о содержимом или

объекте. Метаданные раскрывают сведения о признаках и свойствах,

характеризующих какие-либо сущности, позволяющие автоматически

Page 14: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

искать и управлять ими в больших информационных потоках. Такая

информация часто используется в базах данных: Метаданные — это

субканальная информация об используемых данных.

Хранилища данных с многоуровневой (в основном трехзвенной)

архитектурой, или корпоративные ХД. Архитектура является

разновидностью глобального ХД, в которую технологически

реализуются три уровня. На первом уровне располагается

корпоративное ХД организации. Такие решения подходят для

сложной аналитической обработки данных, требующей разработки

специальных приложений для анализа. Недостатки. Главным

недостатком является высокий уровень затрат на разработку и

создание, который при правильной организации проекта окупается.

1.8. Виртуальные хранилища данных

Вопросы для рассмотрения: Введение в визуализацию данных.

Визуализаторы общего назначения. OLAP-анализ. Визуализаторы,

применяемые для оценки качества моделей. Визуализаторы,

применяемые для интерпретации результатов анализа. Визуализация

данных в Deductor Studio и SQL Server 2008R2.

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3,4.

Наименование вида самостоятельной работы: изучение

вопросов темы.

Визуализация данных — это наглядное представление массивов

различной информации. Существует несколько типов визуализации:

Обычное визуальное представление количественной информации в

схематической форме. К этой группе можно отнести всем известные

круговые и линейные диаграммы, гистограммы и спектрограммы,

таблицы и различные точечные графики.

OLAP-технология является альтернативой традиционным

методам анализа данных, основанным на различных системах

реализации SQL-запросов к реляционной БД. OLAP-системы играют

важнейшую роль в анализе и планировании деятельности крупных

предприятий и являются одним из направлений развития ИТ. В

основу кладутся требования людей принимающих решения к

предоставляемой информации, сложившейся индивидуальные

особенности ведения дел и принятый механизм принятия решения. С

точки зрения пользователя основное отличие OLAP-системы

заключается: в предметной структурированности информации

Page 15: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

(именно предметной, а не технической). Работая с OLAP-

приложением, пользователь применяет привычные категории и

показатели – виды материалов и готовой продукции, регионы продаж,

объем реализации, себестоимость, прибыль и т. п. А для того чтобы

сформировать любой, даже довольно сложный запрос, пользователю

не придется изучать SQL. При этом ответ на запрос будет получен в

течение всего нескольких секунд. Кроме того, работая с OLAP-

системой, экономист может пользоваться такими привычными для

себя инструментами, как электронные таблицы или специальные

средства построения отчетов.

Методы визуализации, в зависимости от количества

используемых измерений, принято классифицировать на две группы:

представление данных в одном, двух и трех измерениях;

представление данных в четырех и более измерениях.

В соответствии с количеством измерений представления это

могут быть следующие способы:

одномерное (univariate) измерение, или 1-D ;

двумерное (bivariate) измерение, или 2-D ;

трехмерное или проекционное (projection) измерение, или 3-D.

Следует заметить, что наиболее естественно человеческий глаз

воспринимает двухмерные представления информации.

При использовании двух- и трехмерного представления

информации пользователь имеет возможность увидеть

закономерности набора данных:

его кластерную структуру и распределение объектов на

классы (например, на диаграмме рассеивания);

топологические особенности;

наличие трендов;

информацию о взаимном расположении данных;

существование других зависимостей, присущих исследуемому

набору данных.

Если набор данных имеет более трех измерений, то возможны

такие варианты:

использование многомерных методов представления

информации (они рассмотрены ниже);

снижение размерности до одно-, двух- или трехмерного

представления. Существуют различные способы снижения

размерности, один из них - факторный анализ - был рассмотрен в

одной из предыдущих лекций. Для снижения размерности и

одновременного визуального представления информации на

Page 16: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

двумерной карте используются самоорганизующиеся карты

Кохонена.

1.9. Использование хранилищ данных. Различные

архитектурные решения ХД, реализация процедур ETL

Вопросы для рассмотрения: Различные архитектурные

решения ХД, реализация процедур ETL. Введение в оценку качества

данных (ADQ – Assessment Data Quality). Технологии и методы оценки

качества данных. Очистка и предобработка данных. Фильтрация

данных. Обработка дубликатов и противоречий. Выявление

аномальных значений. Восстановление пропущенных значений.

Введение в сокращение размерности. Сокращение числа признаков.

Сокращение числа значений признаков и записей. Сэмплинг.

Использование Deductor Studio для оценки качества, очистки и

предобработки данных.

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3,4.

Наименование вида самостоятельной работы: изучение

литературы.

В процессе ETL таблицы измерения должны обновляться до

обновления таблиц фактов, поскольку релевантные строки таблиц

измерений должны быть размещены для загружаемых новых фактов.

Элементы ETL-процесса.

Извлечение данных:

Целью процесса извлечения данных является быстрое

извлечение релевантных данных из источников данных.

Процесс извлечения данных из источников данных можно

разбить на следующие основные типы:

извлечение данных при помощи приложений, основанных

на выполнении SQL-команд. Эти приложения функционируют

совместно с другими приложениями систем источников данных;

извлечение данных при помощи встроенных в СУБД

механизмов импорта/экспорта данных. Использование таких

механизмов, как правило, обеспечивает более быстрое извлечение

данных, чем с помощью команд SQL;

извлечение данных с помощью специально разработанных

приложений.

Преобразование данных:

Page 17: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

Процесс преобразования данных источников включает в себя

следующие основные действия.

Преобразование типов данных:

преобразования, связанные с кодировкой данных, например,

EBCDIC -> ASCII / UniCode;

преобразование строковых данных;

преобразование форматов данных для представления даты

или времени.

Преобразования, связанные с нормализацией или

денормализацией схемы данных:

преобразование денормализации схемы с целью увеличения

производительности выполнения запросов к ХД;

нормализация схемы ХД с целью обеспечения простоты SQL-

запросов.

Преобразования ключей, связанные с обеспечением

соответствия бизнес-ключей суррогатным ключам ХД.

Загрузка данных:

Основная цель процесса загрузки данных состоит в быстрой

загрузке данных в ХД. Отметим некоторые особенности выполнения

процесса загрузки данных в ХД.

Во-первых, загрузка данных, основанная на использовании

команд обновления SQL, является медленной. Каждая команда SQL

выполняется СУБД по определенному плану выполнения, и ее

обработка включает выполнение нескольких фаз. Поэтому загрузка с

помощью встроенных в СУБД средств импорта/экспорта является

предпочтительной.

Во-вторых, индексы таблиц загружаются медленно. Во многих

случаях целесообразно удалить индекс и построить его заново.

В-третьих, следует максимально использовать параллелизм при

загрузке данных. Измерения могут производиться одновременно с

фактами и секциями таблиц. Аналогично факты и секции таблиц

могут загружаться одновременно с измерениями.

Следует заметить, что при загрузке данных должна быть

гарантирована ссылочная целостность данных, а агрегаты должны

быть построены и загружены одновременно с подробными данными.

Настройка производительности загрузки данных в ХД

выполняется администратором ХД с помощью набора процедур,

предусмотренных используемой СУБД.

Таким образом, мы рассмотрели в общих чертах основные

элементы ETL-процесса. Теперь разберем, как проектировать ETL-

процессы.

Page 18: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

Очистка данных занимается выявлением и удалением ошибок и

несоответствий в данных с целью улучшения качества данных.

Проблемы с качеством встречаются в отдельных наборах данных -

таких как файлы и базы данных. Целый ряд исследовательских групп

занимается общими проблемами, связанными с очисткой данных, в

том числе, со специфическими подходами к Data Mining и

преобразованию данных на основании сопоставления схемы. В

последнее время некоторые исследования коснулись единого, более

сложного подхода к очистке данных, включающего ряд аспектов

преобразования данных, специфических операторов и их реализации.

Deductor Studio – это программа, предназначенная для анализа

информации из различных источников данных. Она реализует

функции импорта, обработки, визуализации и экспорта данных.

Deductor Studio может функционировать и без хранилища данных,

получая информацию из любых других подключений, но наиболее

оптимальным является их совместное использование.

2. ЛАБОРАТОРНЫЕ РАБОТЫ

2.1 Лабораторная работа 1 «Основы работы с аналитической

платформой Deductor studio»

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3,4.

Цель работы: получить общие сведения о системе. Освоить

начало работы с системой. Изучить архитектуру и настройку среды

Deductor Studio.

Задание:

Загрузить приложение Deductor Studio Academic 5.2.

Создать новый проект и сохранить его под собственным

именем.

Заполнить свойства проекта.

Просмотреть файл проекта через любой текстовый редактор.

Провести импорт текстового файла Energy в созданный

проект, настроить параметры импорта таким образом, чтобы данные

файла отображались корректно.

Экспортировать набор данных в текстовый файл с

настройками, предлагаемыми по умолчанию, сохраняя файл с

собственным названием на рабочем диске.

Page 19: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

Импортировать только что экспортированный файл в

Deductor, задав в поле «Мастера импорта» путь сохраненного файла.

Удалить только что вставленный узел.

Сохранить проект.

2.2 Лабораторная работа 2 «Трансформация данных в

Deductor Studio»

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3,4.

Цель работы: ознакомиться и приобрести умения и навыки

трансформации данных при подготовке их к анализу, приобретение

практических навыков по использованию инструментария Deductor.

Задание:

Изучить информацию о разбиение даты в Deductor Studio.

Изучить информацию об обработке полученных данных в

Deductor Studio.

В Мастере обработки «Дата и Время» на выбрать поле «Дата

кредитования» используемым, в появившейся после этого таблице

настроек выбрать назначение «Используемое» в столбце «Строка»

напротив строки «Год + Неделя».

Изучить информацию о квантовании в Deductor Studio.

Для обработки данных воспользоваться Мастером

квантования. В нем выбрать назначение поля «Возраст»

используемым, укажем способ разбиения «По интервалам», задать

количество интервалов равное 5, в качестве значения выбрать «Метка

интервала». На следующем шаге Мастера определить сами метки

соответственно возраста кредиторов: «до 30 лет», «от 30 до 40 лет» и

т.д. 17. После обработки выбрать в качестве способа отображения

«Куб». В Мастере указать «Сумма кредита» в качестве факта,

«Возраст» и поле «Дата кредитования (Год +Неделя)» в качестве

измерения, остальные поля указать неиспользуемыми. Далее

перенесем «Возраст» из доступных измерений в «Измерения в

строках», a «Дата кредитования (Год + Неделя)» в «Измерения в

столбцах».

Изучить информацию о настройке набора данных в Deductor

Studio.

Page 20: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

В Мастере настройки выделить столбец «Дата кредитования

(Год + Неделя)» и указать ему новую метку. Подобные действия по

изменению произвести и с другими полями.

Изучить информацию о фильтрации данных в Deductor Studio.

В окне Мастера задать несколько условий фильтрации

(<ПОЛЕ> <ОТНОШЕНИЕ> <ЗНАЧЕНИЕ>).

Изучить информацию о замене значений в Deductor Studio.

В Мастере замены выделить столбец «Пол» и нажать на

кнопку «Добавить список». В появившемся списке пометить

галочками оба значения и нажать на «ОК». Выбранные значения

добавятся в таблицу подстановок. Далее указать, на что заменять

исходные значения. Указать в качестве измерений поля «Пол» и

«Цель кредитования», а в качестве факта «Сумма кредита».

Остальные поля отметить как «неиспользуемый».

Изучить информацию о группировке данных в Deductor

Studio.

Запустить Мастер обработки. Выбрать в качестве метода

обработки «Группировка». На втором шаге Мастера установить

назначение поля «Город» как измерение, а назначение поля

«Прибыль» как факт. В качестве функции агрегации у поля

«Прибыль» указать «Сумма».

Изучить информацию о преобразовании данных к

скользящему окну в Deductor Studio.

2.3 Лабораторная работа 3 «Создание, заполнение и

использование хранилища данных Deductor Warehouse на базе

Firebird»

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3,4.

Цель работы: получить навыки создания, заполнения и

использования хранилища данных.

Задание:

Для создания хранилища данных открыть панель

Подключения. (Меню Вид – Подключения или кнопка на панели

инструментов).

В окне дерева подключений вызвать контекстное меню и

выбрать последовательно команду Мастер подключений.

Page 21: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

Выбрать хранилище данных Deductor Warehous (кросс-

платформенный). На следующем шаге из единственно доступного в

списке типа базы данных выбрать Firebird. Задать параметры базы

данных, в которой будет создана физическая и логическая структура

хранилища данных.

Нажать кнопку «Создать». Если все параметры создания

указаны верно, появится сообщение о его успешном создании.

С помощью Мастера импорта загрузить выборку данных в

Deductor Studio.

Указать параметры импорта текстового файла.

Указать параметры столбцов.

Выбрать способ отображения данных.

Запустить «Мастер экспорта» (на панели инструментов

кнопка или пункт «Мастер экспорта» в всплывающем меню) и в

списке форматов выбрать из ветки «Deductor Warehouse» Процесс или

Измерение.

2.4 Лабораторная работа 4 «Определение представления

источника данных и развертывание куба в проекте служб

Analysis Services»

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3,4.

Цель работы: рассмотреть понятие представления источника

данных и развертывание куба в проекте служб Analysis Services.

Задание:

В меню «Пуск» последовательно выберите пункты «Все

программы», «Microsoft SQL Server 2008», а затем выберите «Среда

SQL Server Business Intelligence Development Studio». Откроется среда

разработки Microsoft Visual Studio.

В меню «Файл» Visual Studio укажите команду «Создать»,

затем выберите пункт «Проект».

В диалоговом окне «Новый проект» на панели «Типы

проектов» выберите значение «Проекты бизнес-аналитики», а на

панели «Шаблоны» укажите «Проект служб SSAS».

Измените имя проекта на Analysis Services Tutorial (при этом

изменится и имя решения) и нажмите кнопку ОК.

Page 22: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

В обозревателе решений щелкните правой кнопкой мыши

элемент «Источники данных» и выберите команду «Создать источник

данных».

На странице «Мастер источников данных» (рисунок 6.7)

нажмите кнопку «Далее», чтобы открыть страницу «Выбор метода

определения соединения».

Выбрать метод для определения соединения.

Внести имя сервера. Внести имя базы данных. Внести имя

источника данных.

На странице «Мастер представления источника данных»

нажать кнопку «Далее».

В группе «Источник реляционных данных» выбран источник

данных «Adventure Works DW». Нажать на кнопку «Далее».

Выбрать источник данных. Выбрать таблицы и

представления.

Внести имя представления источника данных.

Установить свойства связи между таблицами.

2.5 Лабораторная работа 5 «Изменение мер, атрибутов и

иерархий»

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3,4.

Цель работы: получить навыки изменения мер, атрибутов и

иерархий.

Задание:

Перейти на вкладку «Структура куба» конструктора кубов для

куба Analysis Services Tutorial, раскрыть группу мер «Продажи через

Интернет» на панели «Меры», нажать правой кнопкой мыши элемент

Order Quantity и в контекстном меню выбрать пункт «Свойства».

Нажать на кнопку «Автоматически скрывать» окна

«Свойства».

В окне «Свойства» в качестве значения свойства FormatString

ввести #,#.

На панели инструментов вкладки «Структура куба» нажать на

кнопку «Показывать сетку мер».

В окне свойств в раскрывающемся списке FormatString

выбрать значение Currency.

Page 23: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

В списке мер выбрать меру Unit Price Discount Pct, а затем

выбрать значение Percent (Процент) в раскрывающемся списке

FormatString.

В окне си войств изменить свойство Name меры Unit Price

Discount Pct на «Процент скидки на единицу товара».

На панели «Меры» нажать Tax Amt и изменить имя меры на

«Размер налога».

В окне свойств нажать на кнопку «Автоматически скрыть»,

чтобы скрыть окно свойств, а затем нажать кнопку «Показывать

дерево мер» на вкладке панели инструментов «Структура куба».

В меню «Файл» выбрать команду «Сохранить все».

2.6 Лабораторная работа 6 «Разработка реляционного хранилища

данных средствами платформы Deductor»

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3,4.

Цель работы: изучить способы разработки реляционного

хранилища данных с помощью средств платформы Deductor.

Задание:

Создать пустое хранилище, в котором нет ни одного объекта

(процесса, измерения, факта). Открыть конструктор. Выбрать узел

Измерения, нажать правой кнопкой мыши, затем нажать на кнопку

Добавить и создать первое измерение Код группы со следующими

параметрами: имя – GR_ID, метка – Группа.Код, тип данных – целый.

Создать таким же способом остальные измерения, с

параметрами из табл. 1.

Таблица 1 – Параметры измерений Измерение Имя Метка Тип Данных

Код группы GR_ID Группа.Код Целый

Код товара TV_ID Товар.Код Целый

Код отдела PART_D Отдел.Код Целый

Дата S_DATE Дата Дата/время

Час покупки S_HOUR Час Целый

Сформировать процесс и назвать его «Продажи», добавить в

него ссылки на четыре существующих измерения: Дата, Отдел.Код,

Товар.Код, Час.

Page 24: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

2.7 Лабораторная работа 7 «Разработка РХД средствами СУБД»

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3,4.

Цель работы: изучить способы разработки РХД с помощью

средств СУБД.

Задание:

Реализовать РХД архитектуру «звезда» – пробный проект.

Трасформировать базу данных учетной информационной

системы до ХД.

Сформировать срезы OLAP–кубов средствами запросов.

2.8 Лабораторная работа 8 «Определение и развертывание куба»

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3,4.

Цель работы: рассмотреть определение и метод развертывания

куба.

Задание:

Разработать систему аналитической отчетности. Для этого

напишите в Deductor Studio сценарий обработки данных.

Выбрать любые 5 отчетов.

Найти сумму максимальной и средней стоимости покупки за

последний месяц от имеющихся данных.

То же, что в п. 3, но за три месяца от имеющихся данных.

Сформировать многомерный отчет и график загруженности

аптек по дням недели.

Сформировать многомерный отчет и график загруженности

торговых точек по дням месяца.

То же, что в п. 6, но за последние три месяца от имеющихся

данных.

20 самых продаваемых товаров.

10 самых продаваемых товаров по воскресеньям.

5 самых популярных товаров в каждой товарной группе.

То же, что и п. 10, но за последнюю неделю.

Товары, дающие 50% объема продаж.

То же, что и п. 12, но за последнюю неделю.

10 самых продаваемых товаров с 18 до 21 часа.

Page 25: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

4. ТЕМЫ ДЛЯ ПОДГОТОВКИ К ИТОГОВОЙ ФОРМЕ

КОНТРОЛЯ

1) Область применения хранилищ данных.

2) Data Mining. Характеристика классов задач, решаемых

методами Data Mining.

3) Синтаксис кодов для создания запроса на языке MDX.

4) Основные принципы сбора (формализации) данных.

Требования к объемам анализируемых данных.

5) Основные требования к данным, вводимым в хранилище

данных.

6) Основные положения концепции хранилищ данных (DW).

7) Гиперкубические и поликубические модели данных.

8) Операции манипулирования измерениями в OLAP.

9) Способы построения моделей добычи данных в SQL Server

2005.

10) Технологии аналитической обработки данных (OLAP).

11) Характеристика вариантов реализации OLAP.

12) Реляционные хранилища данных (ROLAP).

13) Распределенные корпоративные хранилища данных.

14) Типичный набор инструментов предобработки данных в

аналитическом приложении.

15) Цели, задачи и основное содержание консолидации данных.

Обобщенная схема процесса консолидации.

16) Характеристика OLTP-систем.

17) Технология OLAP. Сущность многомерного представления

данных.

18) Организация процесса загрузки данных в хранилище.

Постзагрузочные операции.

19) Структура многомерного куба. Работа с измерениями.

20) Обогащение данных.

21) Многомерные хранилища данных (MOLAP).

22) Цели, задачи и основное содержание визуализации данных.

Группы методов визуализации.

23) Гибридные хранилища данных (HOLAP).

24) 2 Манипуляции с измерениями OLAP-куба.

25) Виртуальные хранилища данных.

26) Визуализаторы общего назначения. OLAP-анализ.

27) Цели, задачи и основное содержание процесса ETL.

28) Организация процесса загрузки данных в хранилище.

Постзагрузочные операции.

Page 26: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

29) Технологии обновлении данных в ХД.

30) Причины отказа от использования хранилищ данных.

Особенности загрузки данных из локальных источников.

31) Определение ETL, примеры ETL-процессов.

32) Создание вычисляемых выражений в кубе с помощью MS

SQL Server.

33) Взаимодействие хранилища данных, системы DSS, OLAP и

оперативных БД.

34) Двенадцать правил Кодда, применяемые для оценки OLAP-

систем.

35) Получение реляционной схемы данных из многомерного

куба.

36) Создание перспективы в кубах MS SQL Server.

37) Присоединение куба к источникам данных разного типа.

38) Тест FASMI, возможности его применения для оценки

OLAP-систем.

39) Возможности применения OLTP-систем для оперативного

анализа данных.

40) Основные положения концепции хранилищ данных (DW).

5. ТИПОВЫЕ ТЕСТОВЫЕ ЗАДАНИЯ

1. KDD (Knowledge Discovery in Databases) это:

a) Процесс получения из данных знаний в виде зависимостей,

правил, моделей.

b) Обнаружение в «сырых» данных ранее неизвестных знаний.

c) Комплексирование достоверных данных, выполняемое на

основе дисперсионного анализа.

2. Data Mining это:

a) Комплекс методов и процедур, направленных на устранение

аномалий, пропусков, дубликатов, противоречий, шумов и т. д.

b) Набор операций над базой данных.

c) Обнаружение в «сырых» данных ранее неизвестных знаний.

3. К классам задач, решаемых методами Data Mining относятся:

a) Верстка и публикация результатов выполненного анализа

данных.

b) Загрузка, перезагрузка, выгрузка, проблемно-

ориентированные операции.

c) Классификация, регрессия, кластеризация, ассоциация,

последовательные шаблоны.

4 Очистка данных это:

Page 27: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

a) Комплекс методов и процедур, направленных на устранение

причин, мешающих корректной обработке: аномалий,

пропусков, дубликатов, противоречий, шумов и т. д.

b) Комплекс методов и процедур, направленных на очистку

хранилища от имеющихся в нем данных с обеспечением

возможности отката.

c) Процесс удаления данных, содержащихся во временных и

условно-постоянных файлах, а также в файлах разработки.

5. Обогащение данных это:

a) Процесс дополнения финансовых данных более высокими

показателями за счет чего низкие показатели теряют свою

актуальность и могут быть удалены.

b) Процесс дополнения данных некоторой информацией,

позволяющей повысить эффективность решения аналитических

задач.

c) Удаление данных, занимающих менее 10Гб.

6. Задачами процесса ETL (extraction, transformation, loading)

являются:

a) Извлечение данных из разнотипных источников, их

преобразование, а также загрузка в базу или хранилище данных.

b) Загрузка данных в различные источники, а так же их выгрузка

из базы или хранилища данных.

c) Сбор и последующая передача данных по единой телефонной

линии (ЕТЛ).

7. Системы OLTP предназначены для:

a) Оперативной, то есть в режиме реального времени, обработки

транзакций.

b) Удаления данных, содержащихся во временных и условно-

постоянных файлах, а также в файлах разработки.

c) Длительного хранения больших объемов данных.

8. Транзакция это:

a) Набор операций над базой данных, который рассматривается

как промежуточное, не завершенное, с точки зрения

пользователя, действие над информацией.

b) Набор операций над базой данных, который рассматривается

как единое завершенное, с точки зрения пользователя, действие

над информацией.

c) Акция по транзиту данных через то или иное хранилище

данных.

9. Главное требование к OLTP-системам:

a) Быстрое обслуживание относительно простых запросов

Page 28: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

большого числа пользователей.

b) Обслуживание наиболее сложных запросов небольшого числа

пользователей.

c) Должны иметь программное обеспечение, позволяющее

выполнять быструю очистку и трансформацию данных.

10. Специализированные базы данных в СППР называются:

a) Реляционными базами данных.

b) Хранилищами данных.

c) Базами данных иерархической направленности.

11. Семантический слой это:

a) Механизм, позволяющий аналитику оперировать данными

посредством бизнес-терминов предметной области.

b) Слой языковых единиц, позволяющий выполнять очистку

поступающих в хранилище данных.

c) Слой языковых единиц, позволяющий создавать сводные

таблицы.

12. Агрегирование данных это:

a) Процесс обобщения детализированных данных.

b) Применение специализированных программно-агрегатных

комплексов для ускорения процесса загрузки данных в

хранилище.

c) Процесс детализации обобщенных данных.

13. Аннотация, комментарии, глоссарий, примечания это:

a) Метаданные.

b) Семанотоданные.

c) Гетероданные.

14. Метаданные имеют два следующих уровня:

a) Технический (административный) и бизнес-уровень.

b) Высокоинтеллектуальный и сниженный.

c) Уровень пользователя и уровень разработчика.

15. ROLAP это:

a) Реляционные хранилища данных.

b) Многомерные хранилища данных.

c) Многофункциональные хранилища данных.

16. MOLAP это:

a) Реляционные хранилища данных.

b) Многомерные хранилища данных.

c) Многоуровневые хранилища данных.

17. HOLAP это:

a) Хост-процессорные хранилища данных.

b) Реляционные хранилища данных.

Page 29: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

c) Гибридные хранилища данных.

18. Архитектуры ХД бывают:

a) Реляционными

b) Клиент-серверными.

c) Многоуровневыми.

d) Файл-серверными.

e) Модельными.

f) Виртуальными.

g) Гибридными.

h) Иерархическими.

i) Многомерными.

20. OLAP (On-Line Analytical Processing) это:

a) Аналитические системы, обеспечивающие загрузку данных в

реляционные базы данных в режиме реального времени.

b) Быстрое обслуживание относительно простых запросов

большого числа пользователей, при этом время ожидания

выполнения типового запроса не должно превышать несколько

секунд.

c) Технология оперативного извлечения нужной информации из

больших массивов данных и формирования соответствующих

отчетов.

21. Измерения это:

a) Средства визуализации анализируемых данных имеющие

соответствующую разметку.

b) Наименования и свойства объектов, участвующих в некотором

бизнес-процессе.

c) Измеренные значения объемов загружаемой информации.

22. Факты это:

a) Исключительно достоверные данные, загружаемые в хранилище

данных.

b) Фактические данные, извлекаемые из хранилища данных для

выполнения их анализа.

c) Данные, количественно описывающие бизнес-процесс.

23. Наименования товаров, названия фирм-поставщиков,

названия городов это:

a) Факты.

b) Измерения.

c) Структурные элементы загружаемых в хранилище данных.

24. Цена товара, сумма продаж, зарплата сотрудников, сумма

кредита это:

a) Факты.

Page 30: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

b) Измерения.

c) Структурные элементы выгружаемых из хранилища данных.

25. Над измерениями гиперкуба можно производить следующие

действия:

a) Сечение.

b) Свертка.

c) Транспонирование.

d) Группировка.

e) Детализация.

26. Реляционная БД состоит из:

a) Двумерных таблиц, связанных с помощью ключевых полей.

b) Структур типа «Звезда» или «Снежинка».

c) Объектно-ориентированных иерархических структур.

27. На логическом уровне различают следующие схемы

построения реляционных ХД:

a) «Крыло».

b) «Релакс».

c) «Звезда».

d) Объектно-ориентированная.

e) «Снежинка».

28. ETL это:

a) Комплекс методов, реализующих процесс переноса исходных

данных из различных источников в аналитическое приложение

или поддерживающее его хранилище данных.

b) Единая телекоммуникационная линия для загрузки данных в

хранилище.

c) Единая имитационно-моделирующая среда для построения

виртуальных хранилищ данных.

29. В качестве источников извлечения данных используются:

a) Файлы СУБД.

b) Структурированные файлы различных форматов.

c) Неструктурированные источники.

30. К неструктурированным относятся данные:

a) Определенным образом упорядоченные и организованные с

целью обеспечения возможности применения к ним некоторых

действий.

b) Данные, для которых определены некоторые правила и

форматы, но в самом общем виде.

c) Произвольные по форме, включающие тексты и графику,

мультимедиа (видео, речь, аудио).

31. Трансформация данных это:

Page 31: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

a) Сжатие данных с использованием специализированных

программ архивации.

b) Комплекс методов и алгоритмов, направленных на

оптимизацию представления и форматов данных с точки зрения

решаемых задач и целей анализа.

c) Комплекс методов и алгоритмов, направленных на изменение

структуры данных с целью защиты от несанкционированного

доступа.

СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ

1. Гордеев, С. И. Организация баз данных в 2 ч. Часть 2 : учебник для

вузов / С. И. Гордеев, В. Н. Волошина. — 2-е изд., испр. и доп. — М. :

Издательство Юрайт, 2018. — 501 с. — (Серия : Университеты России). — ISBN

978-5-534-04470-6. — Режим доступа : www.biblio-online.ru/book/147C5E3B-

5A01-4497-A236-880D5AE53874.

2. Калятин, В. О. Право интеллектуальной собственности. Правовое

регулирование баз данных : учебное пособие для бакалавриата и магистратуры /

В. О. Калятин. — М. : Издательство Юрайт, 2018. — 186 с. — (Серия : Бакалавр

и магистр. Модуль.). — ISBN 978-5-534-06200-7. — Режим доступа : www.biblio-

online.ru/book/64BFB04C-1C8F-4034-B435-7D39ACB5BDA7

3. Нестеров, С. А. Базы данных : учебник и практикум для

академического бакалавриата / С. А. Нестеров. — М. : Издательство Юрайт,

2018. — 230 с. — (Серия : Бакалавр. Академический курс). — ISBN 978-5-534-

00874-6. — Режим доступа : www.biblio-online.ru/book/B790110B-BAB8-47C1-

B4AD-BB5B1F43FDA0

4. Парфенов, Ю. П. Постреляционные хранилища данных : учебное

пособие для вузов / Ю. П. Парфенов. — М. : Издательство Юрайт, 2018. — 121 с.

— (Серия : Университеты России). — ISBN 978-5-534-03408-0. — Режим

доступа : www.biblio-online.ru/book/628DAC6C-ECBF-45B3-BD23-

F6B57148D18F.

5. Санькова, Т. А. Проектирование и создание базы данных средствами

СУБД ACCESS [Текст]: учебное пособие / Т. А. Санькова, Е. В. Селезнева, Ю.

И. Привалова; СибАДИ, Кафедра ИТ. - Омск : СибАДИ, 2012. - 110 с.: ил., табл.

- Библиогр.: с. 97. - Прил.: с. 98-107

ПЕРЕЧЕНЬ РЕСУРСОВ СЕТИ «ИНТЕРНЕТ»,

РЕКОМЕНДУЕМЫХ ДЛЯ ОСВОЕНИЯ ДИСЦИПЛИНЫ

1. Российский портал открытого образования. http://www.openet.edu.ru/

2. Федеральный образовательный портал. Инженерное образование.

http://www.techno.edu.ru/

3. Электронная библиотека http://www.prospekt.org

4. Публичная Электронная Библиотека «ПРОМЕТЕЙ»

http://lib.prometey.org/?cat_id=8 (техническая библиотека)

Page 32: F G H = > : G G U Obek.sibadi.org/fulltext/bn1160.pdf · M > 004 32.97 73 f Z j d b j h \ d g i h ^ e _ ` b l. Рецензент > h d l _ o g b q _ k d b o g Z m d, , .. m d Z g

5. Техническая библиотека http://techlibrary.ru/

6. Библиотека технической литературы http://bamper.info

7. Введение в OLAP-технологии Microsoft. /А.Федоров, Н.Елманова. М.:

Диалог-МИФИ, 2002. 268 с.

8. Кузнецов С., Артемьев В. Обзор возможностей применения ведущих

СУБД для построения хранилищ данных (DataWarehouse).

http://www.citforum.ru/database/kbd98/glava15.shtml

9. Методы и модели анализа данных: OLAP и Data Mining.

/А.А.Барсегян, М.С.Куприянов, В.В.Степаненко, И.И.Холод. СПб.: БХВ-

Петербург, 2004. 13-26 с.

10. Полубояров В.В. Использование MS SQL Server 2008 Analysis Services

для построения хранилищ данных. Интуит, 2010. – 487 с.

11. Роб П. Системы баз данных: проектирование, реализация и

управление [Текст] = DATABASE SYSTEMS: DESIGN, IMPLEMENTATION,

AND MANAGEMENT : [для студ. и преподавателей]: пер. с англ. / П. Роб. - 5-е

изд., перераб. и доп. - СПб. : БХВ-Петербург, 2004.

12. Туманов В.Е. Проектирование хранилищ данных для систем бизнес-

аналитики: учебное пособие. – М.:Интернет-Университет Информационных

технологий: Бином. Лаборатория знаний, 2010. – 615 с.

13. Хранилища данных. От концепции до внедрения / С.Архипенков,

Д.Голубев., О.Максименко. М.: Диалог-МИФИ, 2002. 528 с.