+7 (499) 608-1390
Автоматизируем бизнес с 1995 года.
 
НАШИ ПРОЕКТЫ:
Фрегат
Автоматизация торговли и склада

Анализ данных

Основой для анализа данных служит моделирование. Построение моделей является универсальным способом изучения окружающего мира. Построение моделей позволяет обнаруживать зависимости, извлекать новые знания, прогнозировать, управлять и решать множество других задач.

Большинство экономических систем относятся к категории сложных, т.е. с большим количеством элементов и сложными связями.


Принципы построения моделей

  • При анализе отталкиваться от опыта эксперта.
  • Рассматривать проблему под разными углами и комбинировать подходы.
  • Не стремиться к высокой точности модели, а двигаться от более простых и грубых моделей к более сложным и точным.
  • По прошествии времени и накоплению новых сведений нужно повторять цикл моделирования.


Методика извлечения знаний

Методика извлечения знаний
Несмотря на большое количество разнообразных бизнес-задач, почти все они решаются по единой методике. Эта методика, называется Knowledge Discovery in Databases. Она описывает не конкретный алгоритм или математический аппарат, а последовательность действий, которую необходимо выполнить для построения модели (извлечения знания).

Данная методика не зависит от предметной области, это набор атомарных операций, комбинируя которые, можно получить нужное решение.

KDD – выборка данных

Первым шагом в анализе является получение исходной выборки. На основе этих данных и строятся модели. На этом шаге необходимо активное участие эксперта для выдвижения гипотез и отбора факторов, влияющих на анализируемый процесс. Желательно, чтобы данные были уже собраны и консолидированы. Крайне необходимо наличие удобных механизмов подготовки выборки.

Чаще всего в качестве источника рекомендуется использовать специализированное хранилище данных, агрегирующее всю необходимую для анализа информацию.


KDD – очистка данных

Реальные данные для анализа редко бывают хорошего качества. Необходимость предварительной обработки при анализе данных возникает независимо от того, какие технологии и алгоритмы используются. Более того, эта задача может представлять самостоятельную ценность в областях, не имеющих непосредственного отношения к анализу данных.

К задачам очистки данных относятся такие как: заполнение пропусков, редактирование аномалий, сглаживание, обнаружение дубликатов и противоречий и прочие.


KDD – трансформация данных

Трансформация данных – последний этап перед, собственно, анализом. Дело в том, что различные алгоритмы анализа требуют специальным образом подготовленные данные, например, для прогнозирования необходимо преобразовать временной ряд при помощи скользящего окна или вычисление агрегируемых показателей.

К задачам трансформации данных относятся: скользящее окно, приведение типов, выделение временных интервалов, преобразование непрерывных значений в дискретные и наоборот, сортировка, группировка и прочее.


KDD – Data Mining

Data Mining – это процесс обнаружения в «сырых» данных ранее неизвестных нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной и ранее неизвестной, например, средние продажи не являются таковыми. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других.


Data Mining – задачи

Задачи решаемые методами Data Mining:
  • Классификация – это отнесение объектов к одному из заранее известных классов.
  • Регрессия – установление зависимости непрерывных выходных переменных от входных значений.
  • Кластеризация – объекты внутри кластера должны быть 'похожими' друг на друга и отличаться от объектов, вошедших в другие кластеры.
  • Ассоциация – нахождение зависимости, что из события X следует событие Y.
  • Последовательные шаблоны – установление закономерностей между связанными во времени событиями.
Можно говорить еще и о задаче анализа отклонений – выявления наиболее нехарактерных шаблонов.


Применение Data Mining в экономике

  • Классификация – отнесение клиента к определенной группе риска, оценка перспективности клиентов
  • Регрессия – прогнозирование продаж, эластичность спроса
  • Кластеризация – сегментация клиентской базы, анализ продуктовой линейки
  • Ассоциация – кросс-продажи, стимулирование спроса
  • Последовательные шаблоны – предсказание спроса, оптимизация закупок


Наиболее популярные алгоритмы

Деревья решений – алгоритм C4.5
Искусственные нейронные сети – многослойный перцептрон, обучение при помощи алгоритма обратного распространения ошибки
Линейная регрессия – классическая линейная модель
Самоорганизующиеся карты Кохонена
Ассоциативные правила – алгоритм APriori

Data Mining – алгоритмы

Для решения вышеописанных задач используются различные методы и алгоритмы Data Mining. Ввиду того, что Data Mining развивался и развивается на стыке таких дисциплин, как статистика, теория информации, машинное обучение, теория баз данных, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе различных методов из этих дисциплин.

В общем случае, не принципиально, каким именно алгоритмом будет решаться одна из 5-ти задач Data Mining – главное иметь метод решения для каждого класса задач.

На сегодня наибольшее распространение получали самообучающиеся методы и машинное обучение.

KDD – интерпретация

В случае, когда извлеченные знания непрозрачны для пользователя, должны существовать методы постобработки, позволяющие привести их к интерпретируемому виду.

Для оценки качества полученной модели нужно использовать как формальные методы оценки, так и знания эксперта. Т.к. именно эксперт может сказать насколько применима полученная модель к реальным данным.

Полученные модели являются по сути формализованными знаниями эксперта, а следовательно их можно тиражировать. Найденные знания должны быть применимы и на новых данных с некоторой степенью достоверности.

Достоинства и недостатки моделей

Использование методов построения моделей позволяет получать новые знания, которые невозможно извлечь другим способом. Кроме того, полученные результаты являются формализованным описанием некоего процесса, а следовательно поддаются автоматической обработке.

Недостатком же является то, что такие методы более требовательны к качеству данных, знаниям эксперта и формализации самого изучаемого процесса. К тому же почти всегда имеются случаи не укладывающиеся ни в какие модели.


Комбинирование подходов

На практике подходы комбинируются, например, визуализация данных наводит эксперта на некоторые идеи, которые он пробует проверить при помощи различных способов построения моделей, а результаты построения моделей подаются на вход механизмам визуализации.

Полнофункциональная система анализа не должна замыкаться на применении только одного подхода или одной методики анализа. Механизмы визуализации и построения моделей должны дополнять друг друга. Максимальную отдачу можно получить комбинируя методы и подходы к анализу данных.

Аналитическая система

Аналитическая система
Наиболее оптимальной с точки зрения гибкости, возможностей и простоты использования является аналитическая система состоящая из хранилища данных, механизмов визуализации и методов построения моделей.

Хранилище данных консолидирует всю необходимую для анализа информацию, обеспечивает быстрый и удобный доступ к необходимым данным. Полученные из хранилища данные анализируются при помощи комбинирования различных способов визуализации и механизмов построения моделей.

Решаемые бизнес-задачи

Подавляющее большинство бизнес-задач сводится к комбинированию описанных методов. Фактически, ранее были описаны базовые блоки, из которых собирается практически любое бизнес решение.

Вот только небольшой список решаемых бизес-задач:
  • План-факторный анализ – визуализация данных
  • Анализ денежных потоков – визуализация данных
  • Прогнозирование – задача регрессии
  • Управление рисками – регрессия, кластеризация и классификация
  • Стимулирование спроса – кластеризация, ассоциация
  • Оценка эластичности спроса – регрессия
  • Выявление предпочтений клиентов – последовательность, кластеризация, классификация

Реализация в Deductor 4

Аналитическая платформа Deductor создавалась как система, реализующая описанную выше схему анализа. Платформа включает в себя хранилище данных и большой набор методов построения моделей. Любые данные, полученные из хранилища данных, иного источника или в результате обработки можно отобразить при помощи большого набора визуализаторов.

Deductor позволяет пройти весь путь от разведочного анализа до построения адаптивных моделей, от просмотра табличных данных до многомерного анализа.

Универсальные методы анализа, реализованные в Deductor, позволяют применять его для решения самого широкого спектра задач.

 
 
© 1995-2023 компания "ФРЕГАТ"
info@frigat.ru