Thanks to visit codestin.com
Credit goes to www.slideshare.net

Харьковский национальный университет имени В. Н. Каразина 
Факультет компьютерных наук 
ИНТЕЛЛЕКТУАЛЬНЫЙ 
АНАЛИЗ ДАННЫХ 
Data Mining 
Подготовил: 
доцент каф. искусственного интеллекта и программного обеспечения, 
к.ф.-м. н. Гахов Андрей Владимирович 
2014/2015 уч. год
ПЛАН КУРСА 
• Введение в Data Mining 
• Узнаем больше о своих данных 
• Подготовка данных (preprocesing) 
• Хранилища данных 
• Поиск шаблонов в данных 
• Методы классификации 
• Методы кластеризации
ВВЕДЕНИЕ В DATA MINING
ЧТО ТАКОЕ DATA MINING 
• Data mining (с англ.) - добыча данных 
• Data mining - поиск знаний (или интересных 
шаблонов и закономерностей) в данных 
• Data mining - процесс поиска интересных 
шаблонов и новых знаний из большого 
количества данных
ПРОЦЕСС ПОЛУЧЕНИЯ 
ЗНАНИЙ ИЗ ДАННЫХ 
Хранилище Data mining Шаблоны 
данных 
БД 
файлы 
Знание
ОСНОВНЫЕ ЭТАПЫ 
• Очистка данных 
удаление шумов и противоречивых данных 
• Интеграция данных 
объединение данных из различных источников данных 
• Выбор данных 
только данные, имеющие отношение к поставленной задаче 
• Трансформация данных 
представление данных в формах, удобных для анализа и аггрегаций 
• Data mining 
применение различных методов для выделение шаблонов данных 
• Изучение шаблонов 
идентификация важных шаблонов, содержащих новые знания 
• Презентация знаний 
использование визуализации и других техник представления 
полученных знаний
КАКИЕ ШАБЛОНЫ МОГУТ 
БЫТЬ НАЙДЕНЫ? 
• описательные 
Описательные шаблоны характеризуют свойства 
данных в анализируемом наборе данных 
• предсказывающие 
Предсказывающие шаблоны позволяют 
используя анализируемый набор данных делать 
предсказания для других наборов данных
ОПИСАНИЕ КЛАССА ИЛИ КОНЦЕПЦИИ 
Описание некоторого класса или концепции с помощью 
краткого и выразительного набора терминов 
• Такое описание может быть получено: 
• при помощи характеризации данных, путем краткого 
представления данных рассматриваемого класса (target 
class) в общих терминах 
• путем сравнения рассматриваемого класса с одним или 
несколькими альтернативными классами - дискриминация 
данных
ПРИМЕР: ХАРАКТЕРИЗАЦИЯ ДАННЫХ 
• Менеджер по продажам рассматривает такую 
задачу: Описать характеристики клиентов, 
которые потратили больше $5000. 
• Результат: возраст 40-50 лет, работающие и 
имеющие высший кредитный рейтинг
ПРИМЕР: ДИСКРИМИНАЦИЯ ДАННЫХ 
• Менеджер по продажам рассматривает такую задачу: 
Сравнить характеристики пользователей, покупающих 
некоторую группу товаров часто (чаще 2 раз в месяц), и 
пользователей, которые покупают очень редко (менее 3 
раз в год). 
• Результат: 80% частых покупателей данной группы 
товаров имеют возраст 20-40 лет и высшее образование, 
в то время как 60% нечастых покупателей - пенсионеры 
или люди до 18 лет и без высшего образования. При 
более детальном анализе, например, можно сказать, что 
отличия двух рассматриваемых групп - уровень дохода.
ЧАСТЫЕ ШАБЛОНЫ 
Шаблоны, которые часто встречаются в данных: 
• подмножества 
Пример: хлеб и молоко покупаются вместе 
• последовательности 
Пример: сначала покупается ноутбук, потом цифровая камера, а 
потом карта памяти 
• структурные шаблоны (могут включать в себя последовательности 
и подмножества) 
Пример: покупается ноутбук вместе с чехлом, потом сканер, 
принтер или мфу, причем если купили принтер или мфу - то 
покупается бумага ежемесячно.
ПРИМЕР: АНАЛИЗ АССОЦИАЦИЙ 
• Менеджер рассматривает такую задачу: Найти товары, 
которые часто покупаются вместе. 
• Результат: 
покупка(X, “компьютер”) => покупка(X, “ПО”) 
[supp = 1%, conf = 50%] 
т.е. 1% всех покупок включает компьютер и ПО вместе, в 
50% случаев при покупке компьютера покупается и ПО. 
• supp(A) - относительное количество случаев, когда 
правило A выполняется (support) 
• conf(A=>B) - относительное количество случаев, когда 
выполняется B после A (confidence). conf(A=>B) = p(B|A)
ПРЕДСКАЗАТЕЛЬНЫЙ АНАЛИЗ 
ДЛЯ ПОИСКА ШАБЛОНОВ 
• Классификация - процесс поиска модели 
(или функции), которая описывает и отличает 
классы или концепции в данных 
• Пример: 
возраст(X, “молодой”) AND доход(X, “высокий”) => class(X, “A”) 
возраст(X, “молодой”) AND доход(X, “низкий”) => class(X, “B”) 
возраст(X, “средний”) => class(X, “C”) 
возраст(X, “старый”) => class(X, “C”)
ПРЕДСКАЗАТЕЛЬНЫЙ АНАЛИЗ 
ДЛЯ ПОИСКА ШАБЛОНОВ 
• Регрессионный анализ - статистическая методология, 
используемая для численного предсказания. 
• При классификации предсказывают сатегории (дискретные и без 
определенного порядка), а модели регрессии - непрерывные 
функции 
20 
• Пример: 
15 
10 
5 
0 
0 3 6 9 12
КЛАСТЕРНЫЙ АНАЛИЗ 
• Кластерный анализ - процесс анализа данных 
без использования информации о их классах 
(например, когда такой информации просто нет) 
20 
• Пример: 
15 
10 
5 
0 
0 3 6 9 12
ПОИСК АНОМАЛИЙ 
• Данные могут содержать элементы, которые не 
отвечают общему поведению или модели данных 
- аномалии (outliers). 
• Пример: 
100 
40 
1
КАКИЕ ШАБЛОНЫ ПРЕДСТАВЛЯЮТ ИНТЕРЕС 
Интересные шаблоны должны: 
• быть легко понимаемы для человека 
• быть верными и для тестовых данных с некоторой степенью 
достоверности (valid) 
• быть потенциально полезными в решении рассматриваемой 
задачи (useful) 
• нести новое знание для исследователя (novel) 
• давать возможность предпринимать дейсвие на основе 
полученного знания (actionable)
ИСПОЛЬЗУЕМЫЕ ТЕХНОЛОГИИ 
Machine Learning 
Data Mining 
Статистика 
Базы данных 
Хранилища 
данных 
Информационный 
поиск 
Приложения 
Распознание 
шаблонов 
Визуализация 
Алгоритмы 
HP 
вычисления
СТАТИСТИКА 
• Статистика изучает вопросы сбора, анализа, интерпретации 
и презентации данных 
• Статистическая модель - это набор математических 
функций, описывающий поведение объектов в 
рассматриваемом классе в терминах случайных переменных 
и их вероятностные распределения 
• Статистические модели могут быть результатом Data 
Mining 
• Статистические методы применяются для проверки и 
обоснования результатов Data Mining
MACHINE LEARNING 
• Machine Learning рассматривает вопросы как 
компьютер может учиться (или улучшать свою 
эффективность) основываясь на данных 
• Supervised learning - обучение с учителем. 
Рассматриваются в основном задачи классификации. 
И с п о л ь з у ю т с я у ж е п о м е ч е н н ы е 
(классифицированные) данные. 
• Unsupervised learning - самостоятельное обучение. 
Рассматриваются в основном задачи кластеризации.
ОСНОВНЫЕ ПРОБЛЕМЫ 
DATA MINING 
• Разработка методологий 
• Взаимодействие с пользователем 
• Эффективность и масштабируемость 
• Разнообразие типов данных 
• Data Mining и общество
РАЗРАБОТКА МЕТОДОЛОГИЙ 
Исследователи, разрабатывая новые методы, 
учитывают следующие аспекты: 
• Получение новых типов знаний 
• Получение данных в пространствах многих 
измерений 
• Интеграция методов из многих дисциплин 
• Обработка зашумленных и неполных данных
ВЗАИМОДЕЙСТВИЕ С ПОЛЬЗОВАТЕЛЕМ 
Пользователь играет одну из важных ролей в 
процессе Data Mining. Основными вопросами 
исследований являются: 
• Как взаимодействовать с системой Data Mining? 
• Как интегрировать предметные знания 
пользователей в процесс Data Mining? 
• Как представить и визуализировать результаты?
ЭФФЕКТИВНОСТЬ И МАСШТАБИРУЕМОСТЬ 
Вопросы эффективности и масштабируемости всегда 
рассматриваются при сравнении различных алгоритмов Data Mining. 
• Ал г о р и т м ы д о лжн ы б ы т ь эффе к т и в н ы м и и л е г к о 
масштабируемыми, чтобы иметь возможность добывать 
информацию из огромного количества данных. Время выполнения 
должно быть предсказуемо, ограничено и приемлемо для 
приложений 
• Map/Reduce. Часто применяется техника разделения данных на 
части, каждая из которых обрабатывается параллельно 
несколькими процессами (с возможностью взаимодействия). 
После обработки полученные шаблоны объединяются.
ЛИТЕРАТУРА 
• https://ru.wikipedia.org/wiki/Data_mining 
• Дюк В.А., Самойленко А.П. Data Mining. Учебный 
курс 
• Ситник В. Ф., Краснюк М. Т. Інтелектуальний 
аналіз даних (дейтамайнінг): Навч. посібник. 
• J. Han, M. Kamber, J. Pei Data Mining: Concepts and 
Techniques

Data Mining - lecture 1 - 2014

  • 1.
    Харьковский национальный университетимени В. Н. Каразина Факультет компьютерных наук ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ Data Mining Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год
  • 2.
    ПЛАН КУРСА •Введение в Data Mining • Узнаем больше о своих данных • Подготовка данных (preprocesing) • Хранилища данных • Поиск шаблонов в данных • Методы классификации • Методы кластеризации
  • 3.
  • 4.
    ЧТО ТАКОЕ DATAMINING • Data mining (с англ.) - добыча данных • Data mining - поиск знаний (или интересных шаблонов и закономерностей) в данных • Data mining - процесс поиска интересных шаблонов и новых знаний из большого количества данных
  • 5.
    ПРОЦЕСС ПОЛУЧЕНИЯ ЗНАНИЙИЗ ДАННЫХ Хранилище Data mining Шаблоны данных БД файлы Знание
  • 6.
    ОСНОВНЫЕ ЭТАПЫ •Очистка данных удаление шумов и противоречивых данных • Интеграция данных объединение данных из различных источников данных • Выбор данных только данные, имеющие отношение к поставленной задаче • Трансформация данных представление данных в формах, удобных для анализа и аггрегаций • Data mining применение различных методов для выделение шаблонов данных • Изучение шаблонов идентификация важных шаблонов, содержащих новые знания • Презентация знаний использование визуализации и других техник представления полученных знаний
  • 7.
    КАКИЕ ШАБЛОНЫ МОГУТ БЫТЬ НАЙДЕНЫ? • описательные Описательные шаблоны характеризуют свойства данных в анализируемом наборе данных • предсказывающие Предсказывающие шаблоны позволяют используя анализируемый набор данных делать предсказания для других наборов данных
  • 8.
    ОПИСАНИЕ КЛАССА ИЛИКОНЦЕПЦИИ Описание некоторого класса или концепции с помощью краткого и выразительного набора терминов • Такое описание может быть получено: • при помощи характеризации данных, путем краткого представления данных рассматриваемого класса (target class) в общих терминах • путем сравнения рассматриваемого класса с одним или несколькими альтернативными классами - дискриминация данных
  • 9.
    ПРИМЕР: ХАРАКТЕРИЗАЦИЯ ДАННЫХ • Менеджер по продажам рассматривает такую задачу: Описать характеристики клиентов, которые потратили больше $5000. • Результат: возраст 40-50 лет, работающие и имеющие высший кредитный рейтинг
  • 10.
    ПРИМЕР: ДИСКРИМИНАЦИЯ ДАННЫХ • Менеджер по продажам рассматривает такую задачу: Сравнить характеристики пользователей, покупающих некоторую группу товаров часто (чаще 2 раз в месяц), и пользователей, которые покупают очень редко (менее 3 раз в год). • Результат: 80% частых покупателей данной группы товаров имеют возраст 20-40 лет и высшее образование, в то время как 60% нечастых покупателей - пенсионеры или люди до 18 лет и без высшего образования. При более детальном анализе, например, можно сказать, что отличия двух рассматриваемых групп - уровень дохода.
  • 11.
    ЧАСТЫЕ ШАБЛОНЫ Шаблоны,которые часто встречаются в данных: • подмножества Пример: хлеб и молоко покупаются вместе • последовательности Пример: сначала покупается ноутбук, потом цифровая камера, а потом карта памяти • структурные шаблоны (могут включать в себя последовательности и подмножества) Пример: покупается ноутбук вместе с чехлом, потом сканер, принтер или мфу, причем если купили принтер или мфу - то покупается бумага ежемесячно.
  • 12.
    ПРИМЕР: АНАЛИЗ АССОЦИАЦИЙ • Менеджер рассматривает такую задачу: Найти товары, которые часто покупаются вместе. • Результат: покупка(X, “компьютер”) => покупка(X, “ПО”) [supp = 1%, conf = 50%] т.е. 1% всех покупок включает компьютер и ПО вместе, в 50% случаев при покупке компьютера покупается и ПО. • supp(A) - относительное количество случаев, когда правило A выполняется (support) • conf(A=>B) - относительное количество случаев, когда выполняется B после A (confidence). conf(A=>B) = p(B|A)
  • 13.
    ПРЕДСКАЗАТЕЛЬНЫЙ АНАЛИЗ ДЛЯПОИСКА ШАБЛОНОВ • Классификация - процесс поиска модели (или функции), которая описывает и отличает классы или концепции в данных • Пример: возраст(X, “молодой”) AND доход(X, “высокий”) => class(X, “A”) возраст(X, “молодой”) AND доход(X, “низкий”) => class(X, “B”) возраст(X, “средний”) => class(X, “C”) возраст(X, “старый”) => class(X, “C”)
  • 14.
    ПРЕДСКАЗАТЕЛЬНЫЙ АНАЛИЗ ДЛЯПОИСКА ШАБЛОНОВ • Регрессионный анализ - статистическая методология, используемая для численного предсказания. • При классификации предсказывают сатегории (дискретные и без определенного порядка), а модели регрессии - непрерывные функции 20 • Пример: 15 10 5 0 0 3 6 9 12
  • 15.
    КЛАСТЕРНЫЙ АНАЛИЗ •Кластерный анализ - процесс анализа данных без использования информации о их классах (например, когда такой информации просто нет) 20 • Пример: 15 10 5 0 0 3 6 9 12
  • 16.
    ПОИСК АНОМАЛИЙ •Данные могут содержать элементы, которые не отвечают общему поведению или модели данных - аномалии (outliers). • Пример: 100 40 1
  • 17.
    КАКИЕ ШАБЛОНЫ ПРЕДСТАВЛЯЮТИНТЕРЕС Интересные шаблоны должны: • быть легко понимаемы для человека • быть верными и для тестовых данных с некоторой степенью достоверности (valid) • быть потенциально полезными в решении рассматриваемой задачи (useful) • нести новое знание для исследователя (novel) • давать возможность предпринимать дейсвие на основе полученного знания (actionable)
  • 18.
    ИСПОЛЬЗУЕМЫЕ ТЕХНОЛОГИИ MachineLearning Data Mining Статистика Базы данных Хранилища данных Информационный поиск Приложения Распознание шаблонов Визуализация Алгоритмы HP вычисления
  • 19.
    СТАТИСТИКА • Статистикаизучает вопросы сбора, анализа, интерпретации и презентации данных • Статистическая модель - это набор математических функций, описывающий поведение объектов в рассматриваемом классе в терминах случайных переменных и их вероятностные распределения • Статистические модели могут быть результатом Data Mining • Статистические методы применяются для проверки и обоснования результатов Data Mining
  • 20.
    MACHINE LEARNING •Machine Learning рассматривает вопросы как компьютер может учиться (или улучшать свою эффективность) основываясь на данных • Supervised learning - обучение с учителем. Рассматриваются в основном задачи классификации. И с п о л ь з у ю т с я у ж е п о м е ч е н н ы е (классифицированные) данные. • Unsupervised learning - самостоятельное обучение. Рассматриваются в основном задачи кластеризации.
  • 21.
    ОСНОВНЫЕ ПРОБЛЕМЫ DATAMINING • Разработка методологий • Взаимодействие с пользователем • Эффективность и масштабируемость • Разнообразие типов данных • Data Mining и общество
  • 22.
    РАЗРАБОТКА МЕТОДОЛОГИЙ Исследователи,разрабатывая новые методы, учитывают следующие аспекты: • Получение новых типов знаний • Получение данных в пространствах многих измерений • Интеграция методов из многих дисциплин • Обработка зашумленных и неполных данных
  • 23.
    ВЗАИМОДЕЙСТВИЕ С ПОЛЬЗОВАТЕЛЕМ Пользователь играет одну из важных ролей в процессе Data Mining. Основными вопросами исследований являются: • Как взаимодействовать с системой Data Mining? • Как интегрировать предметные знания пользователей в процесс Data Mining? • Как представить и визуализировать результаты?
  • 24.
    ЭФФЕКТИВНОСТЬ И МАСШТАБИРУЕМОСТЬ Вопросы эффективности и масштабируемости всегда рассматриваются при сравнении различных алгоритмов Data Mining. • Ал г о р и т м ы д о лжн ы б ы т ь эффе к т и в н ы м и и л е г к о масштабируемыми, чтобы иметь возможность добывать информацию из огромного количества данных. Время выполнения должно быть предсказуемо, ограничено и приемлемо для приложений • Map/Reduce. Часто применяется техника разделения данных на части, каждая из которых обрабатывается параллельно несколькими процессами (с возможностью взаимодействия). После обработки полученные шаблоны объединяются.
  • 25.
    ЛИТЕРАТУРА • https://ru.wikipedia.org/wiki/Data_mining • Дюк В.А., Самойленко А.П. Data Mining. Учебный курс • Ситник В. Ф., Краснюк М. Т. Інтелектуальний аналіз даних (дейтамайнінг): Навч. посібник. • J. Han, M. Kamber, J. Pei Data Mining: Concepts and Techniques