1.
Интеллектуальный анализ данных (data mining)
2. Типы
выявляемых закономерностей data mining.
3.
Математический аппарат data mining.
4. Области
применения технологий интеллектуального анализа данных.
5.
Автоматизированные системы для интеллектуального анализа данных.
Данная лекция
основана на работе В. Дюк, А. Самойленко.
Data Mining: учебный курс
(+ CD-ROM).
Интеллектуальный анализ данных (ИАД или data mining) – это процесс обнаружения в
"сырых" данных ранее неизвестных,
нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия
решений в различных сферах человеческой деятельности. Обзор материалов Internet, посвященных ИАД
показывает, что данное определение является классическим. Тем ни менее, на наш
взгляд, оно содержит несколько неточностей:
– в
определение этого понятия входят слова "анализ" и "знания",
тогда как знания нужны для управления, т.е. достижения цели;
– для интерпретации
доступны не только знания, но уже и информация (см. раздел 1.1.2.1.
данной работы);
– термин
"ИАД" не подразумевает какого-либо одного метода
анализа данных, но является собирательным и объединяет многие
направления исследований и разработок в области СИИ.
Поэтому
предлагается другое, более точное определение понятия.
Интеллектуальный
анализ данных (ИАД или data mining) –
это совокупность математических моделей, численных методов, программных средств
и информационных технологий, обеспечивающих обнаружение в эмпирических данных доступной для интерпретации информации и синтез на основе этой информации ранее неизвестных, нетривиальных
и практически полезных для достижения определенных целей знаний.
Технологии data mining
являются наиболее совершенным инструментом для решения сложных аналитических
задач. Они основаны на мощном математическом и статистическом аппарате,
корректное применение которого позволяет достичь высоких результатов.
Все большим
количеством компаний предлагаются услуги в области интеллектуального анализа
данных, что предполагает проведение следующих работ:
– проведение
исследования накопленной статистики;
– выявление
закономерностей;
– создание
моделей данных;
– верификация
и апробация моделей данных;
– внедрение
модели в практику.
Успех
применения систем data mining
основан на том, что эти технологии обеспечивают исследование эмпирических данных
и выявление в них скрытых закономерностей различных видов.
Ассоциация (идентификация). Если некоторый факт-1 является частью определенного
события, то с расчетной вероятностью и другой факт-2, связанный с первым, будет
частью того же события.
Последовательность (прогнозирование). Если свершилось некоторое событие-1, то с расчетной
вероятностью через определенный период времени свершится другое событие-2,
связанное с первым.
Классификация. На основании информации о свойствах объекта ему
присваивается определенное дискретное значение показателя, по которому
проводится классификация (идентификатор).
Кластеризация. Наиболее сходные по своим признакам объекты объединяются
в группы (кластеры) таким образом, что в разных кластерах оказываются наиболее
сильно отличающиеся друг от друга объекты.
Кластеризация аналогична классификации, но в отличие от последней классы
– кластеры объектов заранее не известны, а формируются в процессе кластеризации.
Прогнозирование. Прошлые фактические значения величин используются для
прогнозирования будущих значений тех же или других величин на основании на
основании знания зависимостей между ними, трендов и статистики.
Ассоциация
используется для определения закономерностей в событиях или процессах.
Ассоциации связывают различные факты одного события. В качестве примера может
служить выявленная закономерность, что мужчины, предпочитающие элитные сорта
кофе в три раза чаще покупают импортные сигареты, чем мужчины, покупающие
обычный кофе.
Результатом
ассоциативного анализа являются правила вида: Если факт А является частью
события, то с вероятностью Х факт B будет частью того
же события.
Например:
Если
покупатель берет чипсы, то существует 85-ти процентная вероятность, что он
приобретет еще легкие алкогольные напитки или пиво.
Если человек
едет в отпуск и покупает авиабилеты на всю семью, то с вероятностью 95
процентов они снимут машину в месте отдыха на весь период.
Имея историю
продаж в розничном магазине, можно разработать шаблоны покупок (стандартные
наборы), например для продуктового отдела. Из-за широкого применения в торговле
ассоциативный анализ часто называют анализом рыночной корзины.
Последовательные шаблоны аналогичны ассоциациям с той
лишь разницей, что связывают события, разнесенные во времени. Например, последовательный шаблон может
предсказывать, что человек, купивший посудомоечную машину с вероятностью 0.7
купит сушилку для одежды в течение следующих шести месяцев. Для увеличения этой
вероятности магазин может предложить ему скидку в 10% на покупку сушильного
аппарата в течение трех или четырех месяцев после покупки посудомоечной машины.
Классификация
– наиболее часто используемый метод интеллектуального анализа. Данный метод
сосредотачивает внимание на поведении и атрибутах уже существующих групп.
Группы могут включать людей, которые часто летают, много тратят, лояльных
клиентов, людей, которые откликаются на компании прямой рассылки и т.д. С
помощью алгоритмов классификации можно классифицировать объекты по заранее
известным характеристикам. В классификации часто используются индукционные
алгоритмы, которые позволяют по небольшому массиву данных, отнесенных к
известным классам, определять дополнительные классы. Примером использования
классификации может служить определение характеристик клиентов, которые
вероятно захотят/не захотят приобрести определенный продукт или услугу. Имея
такую группировку клиентов, мы можем значительно сократить расходы на акциях
продвижения товара или прямой рассылки.
Кластеризация
используется для обнаружения классов схожих объектов в имеющемся наборе данных.
Кластеризация аналогична классификации, но в отличие от последней классы объектов
заранее не известны. Методы кластеризации широко используют алгоритмы нейронных
сетей и статистическую обработку. В процессе кластеризации средство
интеллектуального анализа определяет схожие характеристики объектов и на их основе
объединяет объекты в классы. Качество процесса кластеризации определяется
схожестью объектов внутри класса и степенью отличия разных классов между собой.
Кластеризация обычно применяется для решения таких задач, как определение производственного
брака или выявления групп услуг по кредитным карточкам предпочтительных для
разных групп клиентов.
Регрессия –
один из двух методов прогнозирования. Данный метод использует имеющиеся
фактические значения величин для прогнозирования будущих на основании трендов и
имеющейся статистики. Например, объем продаж аксессуаров для спортивных машин
можно спрогнозировать по количеству проданных спортивных машин в прошлом
месяце.
Различие между
регрессией и временными рядами состоит в том, что временные ряды предсказывают
значения переменных, зависящих от времени. Например, с их помощью можно прогнозировать
количество несчастных случаев во время каникул на основе аналогичных данных за
прошлый период. Время в данном случае может содержать иерархии (рабочая неделя,
календарная неделя, период) праздники, сезоны, интервалы дат.
Основой систем
data mining является
выявление различных закономерностей в данных. При этом применяются следующие
методы:
– деревья
решений;
– алгоритмы
кластеризации;
–
регрессионный анализ;
– нейронные
сети;
– временные
ряды.
Деревья
решения являются одним из наиболее популярных подходов к решению задач data mining. Они создают иерархическую
структуру классифицирующих правил типа «ЕСЛИ... ТО...», имеющую вид дерева. Для
того чтобы решить, к какому классу отнести некоторый объект или ситуацию,
требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его
корня. Вопросы имеют вид «значение параметра A больше
x». Если ответ положительный, осуществляется переход
к правому узлу следующего уровня, если отрицательный – то к левому узлу; затем
снова следует вопрос, связанный с соответствующим узлом.
Популярность
подхода связана с наглядностью и понятностью. Но очень остро для деревьев
решений стоит проблема значимости. Дело в том, что отдельным узлам на каждом
новом построенном уровне дерева соответствует все меньшее и меньшее число
записей данных – дерево дробит данные на большое количество частных случаев.
Чем больше этих частных случаев, чем меньше обучающих примеров попадает в
каждый такой частный случай, тем менее уверенной становится их классификация.
Если построенное дерево слишком «кустистое» – состоит из неоправданно большого
числа мелких веточек – оно не будет давать статистически обоснованных ответов.
Как показывает практика, в большинстве систем, использующих деревья решений,
эта проблема не находит удовлетворительного решения. Кроме того, общеизвестно,
и это легко показать, что деревья решений дают полезные результаты только в
случае независимых признаков. В противном случае они лишь создают иллюзию
логического вывода.
Область
применения деревьев решений в настоящее время широка, но все задачи, решаемые
этим аппаратом, могут быть объединены в следующие три класса:
Описание данных. Деревья решений позволяют хранить информацию о данных
в компактной форме, вместо них мы можем хранить дерево решений, которое
содержит точное описание объектов.
Классификация. Деревья решений отлично справляются с задачами
классификации, т.е. отнесения объектов к одному из заранее известных классов.
Целевая переменная должна иметь дискретные значения.
Регрессия. Если целевая переменная имеет непрерывные значения,
деревья решений позволяют установить зависимость целевой переменной от
независимых (входных) переменных. Например, к этому классу относятся задачи
численного прогнозирования (предсказания значений целевой переменной).
Регрессионный
анализ позволяет исследовать формы связи, устанавливающие количественные
соотношения между случайными величинами изучаемого процесса.
Регрессия
наиболее часто используется для построения прогнозных моделей.
Нейронные
представляют собой большой класс систем, архитектура которых пытается
имитировать построение нервной ткани из нейронов. В одной из наиболее
распространенных архитектур, многослойном персептроне с обратным распространением
ошибки, эмулируется работа нейронов в составе иерархической сети, где каждый
нейрон более высокого уровня соединен своими входами с выходами нейронов
нижележащего слоя. На нейроны самого нижнего слоя подаются значения входных параметров,
на основе которых нужно принимать какие-то решения, прогнозировать развитие
ситуации и т. д.
Эти значения
рассматриваются как сигналы, передающиеся в вышележащий слой, ослабляясь или
усиливаясь в зависимости от числовых значений (весов), приписываемых
межнейронным связям. В результате на выходе нейрона самого верхнего слоя вырабатывается
некоторое значение, которое рассматривается как ответ, реакция всей сети на
введенные значения входных параметров. Для того чтобы сеть можно было применять
в дальнейшем, ее прежде надо «натренировать» на полученных ранее данных, для
которых известны и значения входных параметров, и правильные ответы на них. Эта
тренировка состоит в подборе весов межнейронных связей, обеспечивающих
наибольшую близость ответов сети к известным правильным ответам.
Временной ряд – это расположение
во времени статистических показателей, которые в своих последовательных изменениях
отражают ход развития изучаемых процессов.
Временные ряды
исследуются с различными целями. В одном ряде случаях бывает достаточно
получить описание характерных особенностей ряда, а в другом ряде случаев
требуется не только предсказывать будущие значения временного ряда, но и
управлять его поведением. Метод анализа временного ряда определяется, с одной
стороны, целями анализа, а с другой стороны, вероятностной природой формирования
его значений.
Спектральный анализ. Позволяет находить периодические составляющие
временного ряда
Корреляционный анализ. Позволяет находить существенные периодические
зависимости и соответствующие им задержки (лаги) как внутри одного ряда
(автокорреляция), так и между несколькими рядами. (кросскорреляция)
Модели авторегрессии и
скользящего среднего. Модели
ориентированы на описание процессов, проявляющих однородные колебания,
возбуждаемые случайными воздействиями. Позволяют предсказывать будущие значения
ряда.
Системы,
основанные на технологиях интеллектуального анализа данных, используются в
компаниях различного профиля. Однако существует целый ряд областей, для которых
накоплен богатый и очень успешный опыт применения подобных систем.
Торговля. Анализ потребительской корзины, исследование временных
шаблонов, создание прогнозирующих моделей, оптимизация складских запасов.
Банковское дело. Сегментация клиентов, выявление мошенничества с
кредитными картами, прогнозирование изменения клиентуры, анализ финансовых
рисков.
Страховой бизнес. Сегментация клиентов, выявление фактов мошенничества,
анализ страховых рисков, разработка новых продуктов, расчет страховых премий.
Телекоммуникации. Анализ лояльности клиентов, сегментирование клиентской
базы и услуг, анализ внешних факторов на отказы оборудования, выявление случаев
несанкционированного доступа к сети.
Производственные предприятия. Оптимизация закупок, диагностика брака на ранних
стадиях, диагностика оборудования, маркетинг.
Нефтегазовая отрасль. Диагностика оборудования и нефте-газопроводов,
прогнозирование цен, разведка месторождений, анализ влияния внешних и
внутренних факторов на объемы продаж.
Предприятия
розничной торговли сегодня собирают подробную информацию о каждой отдельной
покупке, используя кредитные карточки с маркой магазина и компьютеризованные
системы контроля. Вот типичные задачи, которые можно решать с помощью
технологий data mining в
сфере розничной торговли:
Анализ покупательской корзины предназначен для выявления товаров, которые
покупатели стремятся приобретать вместе. Знание покупательской корзины
необходимо для улучшения рекламы, выработки стратегии создания запасов товаров
и способов их раскладки в торговых залах.
Исследование временных шаблонов помогает торговым предприятиям принимать решения о
создании товарных запасов. Оно дает ответы на вопросы типа «Если сегодня
покупатель приобрел видеокамеру, то, через какое время он вероятнее всего купит
новые батарейки и пленку?»
Создание прогнозирующих моделей дает возможность торговым предприятиям узнавать
характер потребностей различных категорий клиентов с определенным поведением,
например, покупающих товары известных дизайнеров или посещающих распродажи. Эти
знания нужны для разработки точно направленных, экономичных мероприятий по
продвижению товаров.
Достижения
технологии data mining
используются в банковском деле для решения проблем Телекоммуникации.
В области
телекоммуникаций характерен растущий уровень конкуренции. Здесь методы data mining помогают компаниям более
энергично продвигать свои программы маркетинга и ценообразования, чтобы
удержать существующих клиентов и привлечь новых. В число типичных мероприятий
входят:
– анализ
записей о подробных характеристиках вызовов;
– выявление
степени лояльности клиентов.
Анализ записей о подробных характеристиках вызовов. Назначение такого анализа – выявление категорий
клиентов с похожими стереотипами пользования их услугами и разработка
привлекательных наборов цен и услуг.
Выявление степени лояльности клиентов. Некоторые клиенты все время меняют провайдеров,
пользуясь программами новых компаний, стимулирующими появление новых клиентов. Data mining можно использовать
для определения характеристик клиентов, которые, один раз воспользовавшись услугами
данной компании, с большой долей вероятности останутся ей верными. В итоге
средства, выделяемые на маркетинг, можно тратить там, где отдача больше всего
Технологии data mining активно применяются в
центрах обработки вызовов телекоммуникационных компаний.
Страховые
компании накапливают значительные объемы подробнейшей информации о клиентах,
используемых ими услугах, страховых премиях и выплатах. Технологии data mining позволяют
использовать накопившиеся данные для решения следующих задач:
Классификация и кластеризация клиентов. Система интеллектуального анализа данных позволяет
страховой компании проводить эффективную тарифную политику, основанную на индивидуальных
предпочтениях различных категорий клиентов.
Разработка нового товара. Технологии data mining являются инструментом, с помощью которого можно
спрогнозировать спрос на услугу, оценить страховые выплаты и сформировать
политику в отношении взимаемых страховых премий.
Большинство
производственных компаний используют системы интеллектуального анализа данных
для решения следующих задач.
Оптимизации логистических
цепочек. Data mining позволяет снизить
затраты на логистику за счет эффективного прогнозирования продаж товаров и
закупок сырья/комплектующих.
Проведение маркетинговых исследований. Накопленные данные о сбыте продукции могут быть
использованы при разработке новых продуктов или для повышения эффективности рекламных
кампаний.
Диагностика брака на ранних стадиях. Анализ зависимостей позволяет оценить степень риска
изготовления бракованного изделия на ранних стадиях производства. Очевидно, что
это позволяет сэкономить существенные средства.
Эта тема
рекомендуется для самостоятельного изучения и написания реферата, с
демонстрацией презентации или демо-версии.
Интеллектуальный анализ данных
Интеллектуальный
анализ данных (data mining) – это
процесс обнаружения в "сырых" данных ранее неизвестных, нетривиальных,
практически полезных и доступных интерпретации знаний, необходимых для принятия
решений в различных сферах человеческой деятельности.
Технологии
интеллектуального анализа данных на сегодняшний день являются наиболее
совершенным инструментом для решения сложных аналитических задач. Необходимо
отметить, что технологии data mining не имеют собственного
уникального математического аппарата и программного инструментария, а
объединяют различные математические методы и системы искусственного интеллекта.
Системы
интеллектуального анализа данных основаны на мощном математическом и
статистическом аппарате, грамотное применение которого позволяет достичь
высоких результатов в бизнесе.
Компания BI Partner предлагает реализацию
полного спектра услуг в области интеллектуального анализа данных, что подразумевает
проведение исследования накопленной статистики, выявление закономерностей,
создание модели данных, ее апробация и внедрение в бизнес-процессы предприятия.
ПО, которое мы используем в своих решениях, успешно используется во многих
Российских компаниях.
Области применения технологий интеллектуального
анализа данных.
Торговля. Анализ потребительской корзины, исследование временных
шаблонов, создание прогнозирующих моделей, оптимизация складских запасов.
Банковское дело. Сегментация клиентов, выявление мошенничества с
кредитными картами, прогнозирование изменения клиентуры, анализ финансовых
рисков.
Страховой бизнес. Сегментация клиентов, выявление фактов мошенничества,
анализ страховых рисков, разработка новых продуктов, расчет страховых премий.
Телекоммуникации. Анализ лояльности клиентов, сегментирование клиентской
базы и услуг, анализ внешних факторов на отказы оборудования, выявление случаев
несанкционированного доступа к сети.
Производственные предприятия. Оптимизация закупок, диагностика брака на ранних
стадиях, диагностика оборудования, маркетинг.
Нефтегазовая отрасль. Диагностика оборудования и нефте/газопроводов,
прогнозирование цен, разведка месторождений, анализ влияния внешних и
внутренних факторов на объемы продаж.
Типы выявляемых закономерностей
Основой систем
data mining является
выявление различных закономерностей в данных.
Ассоциация. Если факт А является частью события, то с вероятностью
Х% факт B будет частью того
же события.
Последовательность. Если свершилось событие А, то с вероятностью Х% через период времени Т свершится событие B.
Классификация. На основании информации о свойствах объекта присвоение
ему того или иного дискретного значения показателя, по которому проводится
классификация.
Кластеризация. Кластеризация аналогична классификации, но в отличие
от последней классы объектов заранее не известны.
Прогнозирование. Использование имеющиеся фактических значений величин
для прогнозирования будущих на основании трендов и имеющейся статистики.
Математический аппарат
Основой систем
data mining
является выявление различных закономерностей в данных: деревья решений;
алгоритмы кластеризации; регрессионный анализ; нейронные сети; временные ряды.
1.
Интеллектуальный анализ данных (data mining).
2. Типы
выявляемых закономерностей data mining:
ассоциация, последовательность, классификация, кластеризация, прогнозирование.
3.
Математический аппарат data mining:
деревья решений, регрессионный анализ, нейронные сети, временные ряды.
4. Области
применения технологий интеллектуального анализа данных: розничная торговля,
банковская деятельность, страховой бизнес, производство, автоматизированные
системы для интеллектуального анализа данных.
1. Дюк В., Самойленко А. Data Mining: учебный курс (+ CD-ROM).
2. Сайт компании BI Partner: http://www.bipartner.ru/services/dm.html.
3. Шапот М., Рощупкина В.
Интеллектуальный анализ данных и управление процессами. // Открытые системы. –№
4-5, 1998. –С. 29.
4. Шапот М. Интеллектуальный анализ данных в системах
поддержки принятия решений. Журнал
"Открытые системы", #01, 1998 год // Издательство "Открытые системы" (www.osp.ru),
адрес статьи: http://www.osp.ru/os/1998/01/30.htm.