Материал Intersoft Lab.
Вопрос о том, как правильно выбрать пакет инструментов data mining (DM), актуален уже несколько лет. Ответ на него, рассматриваемый в данной статье, будет построен, исходя из двух основных положений:
- лучшего инструмента, который подходил бы для всех, не существует;
- самые полезные средства – это те, что упрощают большую часть задач для тех приложений data mining, которые необходимы конкретной компании.
В прошлом разработка инструментов data mining была нацелена преимущественно на обеспечение мощных аналитических алгоритмов.
Однако аналитические "машины" обрабатывают только небольшую часть всех задач DM-проекта. Большинству специалистов известно, что от 70% до 90 % DM-проекта составляет подготовка данных. Кроме того, хорошие инструменты для прямого маркетинга должны включать средства оценки моделей.
Инструменты оценки моделей
В аналитической теории лучшая модель – та, которая дает максимальную точность в прогнозировании всех классификационных состояний целевой переменной и достаточно надежна при работе с тестовым набором данных.
Этот подход получил название метода Global Accuracy (Глобальной точности). Большинство инструментов data mining используют этот метод для идентификации "лучшей" модели. Однако тут есть одна хитрость. Теория, лежащая в основе метода глобальной точности, основана на предположении, что затраты на все классификационные ошибки одинаковы. Этот подход хорошо работает в учебном классе, однако в реальной ситуации (например, при подготовке маркетинговых кампаний по рассылке), результаты могут получиться не столь блестящими.
Фактически, это одна из причин, по которой многие проекты поддержки маркетинговых кампаний в прошлом были не очень удачными. Основа для оценки моделей имела мало отношения к наиболее интересным для маркетинга понятиям – максимизации положительной реакции клиентов и минимизации расходов на эту цель. Большинство инструментов data mining направлены на обеспечение общей точности прогнозирования, но полностью игнорируют вопрос затрат.
В маркетинговых кампаниях расходы на рассылку потенциальному покупателю, который в итоге на нее не отреагирует (это называется "ложно-положительной" ошибкой), в общем-то невелики; однако потенциальные потери по причине отсутствия рассылки тому клиенту, который, вероятно, откликнулся бы ("ложно-отрицательная" ошибка), могут быть достаточно большими (если вычислить ценность клиента в течение его жизненного цикла, размеры невыплаченных сумм и не приобретенных услуг). Это значит, что методы оценки модели должны быть направлены на минимизацию ложно-отрицательных, а не ложно-положительных ошибок. Так как специалисты в области маркетинга заботятся только об уровне отклика и затратах, рассылка первым 30% клиентов, покрывающая 60% откликающихся, как правило, решает обе задачи. Рассылка не отвечающим (ложно-положительные ошибки) среди первых тридцати процентов – это вполне приемлемая затрата ради 60% отвечающих. Такой вариант привлечения клиентов обнаруживает 100%-ое превышение над случайной выборкой и более эффективен, чем массовая рассылка.
Большинство DM-инструментов используют для оценки модели метод глобальной точности. Иногда этот метод приходится использовать, чтобы выявить лучшую модель с помощью возможностей отчетности инструментов. Оценка лучшей модели среди многих, выполненных на различных алгоритмах, не должна проводиться путем сравнения отчетов точности каждого из инструментов. Критерием сравнения должно быть качество сегментации клиентов с положительным откликом среди первых нескольких десятков из списка, отсортированного по вероятности прогнозирования.
Имея четкое представление о правильной оценке DM-моделей, можно более детально рассмотреть бизнес-процессы, которые необходимо координировать с помощью DM-инструментов, позволяющих использовать результаты модели для повышения прибыльности компании.
К таким бизнес-процессам относятся:
- процесс data mining;
- процесс поиска знаний (knowledge discovery);
- программы управления бизнес-процессами;
- системы управления знаниями;
- процессы управления бизнес-экосистемами.
Процессы data mining
В своей статье "Приобретение средств data mining. Как избежать серьезных неудач в прогнозной аналитике"1 Эрик Кинг (Eric King) указывает, что самый главный аспект data mining – это сам путь, а не цель. Этот путь он называет "процессом" data mining и описывает его основные элементы следующим образом:
- это процесс обнаружения;
- он имеет гибкую инфраструктуру;
- выполняется на основе четко определенной стратегии;
- содержит множество контрольных точек;
- включает периодические оценки;
- дает возможности настроек с помощью обратной связи.
- основан на итеративной архитектуре.
Модели процессов
Поставщики нескольких DM-пакетов решили для ясности упростить процесс. Например, одна из фирм разбила его на 5 этапов:
- выборка;
- объяснение;
- манипулирование;
- моделирование;
- оценка.
Раньше для описания DM-процесса применялась хорошая метафора. Технологию data mining сравнивалась с потоком воды, циркулирующем в каскадном фонтане: вода (данные) падает на первый уровень (фазу анализа), образуя водовороты (усовершенствования и обратная связь), пока не накопится достаточно "переработанной" воды для того, чтобы перелиться вниз на следующий уровень. "Обработка" продолжается до тех пор, пока не достигается самый нижний уровень, где вода снова перебрасывается наверх и процесс начинается заново. Действительно, DM-процесс очень напоминает этот итеративный каскадный процесс. Даже внутренняя обработка множества DM-алгоритмов (например, нейронных сетей) выполняется за множество прогонов (периодов) на выборке данных, до тех пор, пока не будет найдено лучшее решение.
Некоторые компании встраивают версии простых моделей процессов в пользовательский интерфейс. Это дает пользователю возможность организовать необходимые DM-задачи в нужном порядке.
Недостаток аналогии с фонтаном воды состоит в том, что в ней никак не отображаются циклы обратной связи, которые часто имеют место в DM-процессе. Например, оценка данных может отразить некоторые аномалии, которые требуют извлечения дополнительных данных из исходных систем. Или после моделирования становится очевидным, что дополнительные записи данных необходимы для адекватного отражения родительской популяции.
Одна из попыток решения этой проблемы предложена в следующей модели, охватывающей весь контекст data mining.
Рис.1. Модель процессов DM
Моделирование данных часто напоминает работу с глиной или мрамором. Художник начинает с куска материала, а затем за множество серий (итераций) манипулирования и сверки с изначальным замыслом художественный образец, наконец, достигает своей формы. Однако при моделировании данных возникает дополнительная проблема. Природа моделируемой среды не до конца известна, по крайней мере до середины процесса. Эрик Кинг считает, что DM-процесс – циклический (как это показано на рисунке), а не линейный. Его работа напоминает принцип действия роторно-поршневого двигателя. Двигатель проходит круг за кругом, вырабатывая кинетическую энергию в форме роторного движения, которая используется для движения автомобиля. Аналогично и DM-процесс движется круг за кругом и вырабатывает информацию, которую можно использовать для достижения бизнес-целей. Эта информация – "энергия", питающая бизнес. Также необходима и обратная связь с предыдущими этапами процесса (например, получение дополнительных данных после выполнения предварительного моделирования).
Есть, однако, один элемент, которого не хватает в представленном на рисунке процессе: обратная связь с Хранилищем данных или исходной системой. Результаты предыдущих маркетинговых кампаний должны передаваться в Хранилище, чтобы обеспечить понимание последующих операций моделирования и отслеживание тенденций этих компаний.
Структура процесса data mining дает информацию о том, какие необходимые задачи должны решать DM-инструменты. Однако открытыми остаются следующие вопросы:
- что делать с результатами DM?
- как действия, "порожденные" результатами data mining, влияют на последующие операции DM?
Перечислим задачи, которые должны упрощать DM-инструменты:
- экспорт модели в ряд структур баз данных;
- экспорт модели в формате, удобном для импорта в другие приложения для поддержки принятия решений и бизнес-операций;
- передача данных из одного алгоритма в другой (мета-моделирование);
- сравнение результатов различных алгоритмов.
Процесс поиска знаний
Data mining можно считать частью более широкого процесса, называемого поиском знаний (knowledge discovery – KD). Помимо DM-операций, поиск знаний также может содержать некоторые элементы, определяющие извлечение данных из исходных систем, а также из приложений, в которые поступают аналитические данные из инструментов data mining. К этим приложениям относятся средства Business Intelligence для создания управленческой отчетности, а также системы проверки маркетинговых кампаний и маркетинговых результатов. И хотя наличие всех этих средств обнаружения знаний необходимо для успеха data mining, многие задачи, решаемые данными инструментами, выходят за рамки обсуждения в настоящей статье.
После получения всех знаний, их необходимо трансформировать в модели, которые могут служить входной информацией для различных бизнес-процессов, повышающих прибыльность.
Управление бизнес-процессами
Управление бизнес-процессами относится к сложным взаимоотношениям между людьми, приложениями и технологиями в бизнесе, ориентированном на клиента. Управление бизнес-процессами использует знания, полученные в результате аналитических операций, интерпретирует их, исходя из текущих бизнес-целей, и превращает их в действия, направленные на текущие бизнес-цели. К управлению бизнес-процессами относятся программы повышения качества, а также программы разработки.
Управление знаниями
Еще более широкий контекст для data mining, выходящий за рамки управления бизнес-процессами, – управление знаниями (knowledge management – KM), которое можно определить как процесс, включающий широкий круг методов и подходов, в том числе генерацию, сбор и разделение знаний, относящихся к конкретному бизнесу.
В управлении знаниями выделяют два основных подхода:
- метод, ориентированный на продукты;
- метод, ориентированный на процессы.
Подход, ориентированный на продукты. Здесь в центре внимания документы, хранение данных, истории событий и шаблоны решений. В данном случае знания рассматриваются без учета тех людей, которые их создают (или обнаруживают), и без тех, кто их использует.
Подход, ориентированный на процессы. Это более целостный подход к управлению знаниями за счет выделения среды, в которой генерируются и распространяются знания. Его можно рассматривать как процесс социальной коммуникации. Это означает, что знания концентрируются у тех, кто их обнаруживает, а распространение информации производится путем личных контактов. В процессе формируются самоорганизующиеся группы – сообщества, которые участвуют в развивающемся естественным образом общении.
Эти различия в управлении знаниями не новы, их корни лежат в дихотомии мышления, свойственной человеку. Проявления этих корней заметны в литературе всех веков, вплоть до Платона и Аристотеля. Аристотель считал, что настоящее бытие раскрывается только в материи, то есть в том, что можно разглядеть и потрогать. Он верил, что высшим уровнем интеллектуальной деятельности является детальное изучение окружающего нас материального мира. Только так можно понять реальность. Исходя из такого понимания истины, Аристотель пришел к выводу, что сложную систему можно разделить на части, описать их детально, затем объединить эти части и постичь целое. Для Аристотеля целое являло собой сумму частей, то есть его понимание целого было чисто механическим. Так и подход к управлению знаниями, ориентированный на продукт, очень похож по своей сути на философию Аристотеля.
Что касается учителя Аристотеля – Платона, то единственная, по его мнению, вечная сущность – идея. Он верил, что большинство важных вещей в жизни человека выходят за пределы осязаемого. Влияние идей выходит за рамки материального мира. Для Платона вся сущность бытия была выше, чем сумма его осязаемых частей. Можно сказать, что управление знаниями, ориентированное на процессы, похоже по своей сути на мысли Платона.
Знания и бизнес-экосистема
Мы не должны допускать поляризации нашего мышления в поисках знаний. На мир бизнеса нужно смотреть с разных точек зрения, сочетая разные философии. В современном анализе экосистем делается именно так.
Аналогия между поиском истины в анализе экосистемы и бизнесе впервые была предложена известными специалистами – Клаудией Имхоф (Claudia Imhoff) и Райаном Соуза (Ryan Sousa).Затем их статьи были расширены и дополнены в книге Билла Инмона (Bill Inmon)2.
Унифицированный подход к управлению знаниями состоит в сбалансированном объединении описанных методов (так называемый Know-Net подход). Тут подразумевается корпоративная информационная структура, которая позволяет каждому человеку, группе или всей организации коллективно и систематически создавать, совместно использовать и применять информационные ресурсы компании для достижения более высокой организационной эффективности, компетенции и способности к реагированию и новаторству.
Основная идея Know-Net в том, что знание является критически важным стратегическим ресурсом организации. Аналогично в анализе экосистем в центре внимания не знания, а энергия. Очевидно, что знания являются потенциальной энергией бизнеса. Задача IT-менеджеров в том, чтобы разработать систему, которая будет извлекать знания, полученные с помощью DM-инструментов (потенциальную бизнес-энергию), и преобразовывать их в кинетическую энергию бизнеса, обеспечивая такое управление организацией, которое повышает ее прибыльность. Этот процесс необходимо интегрировать с описанными выше процессами data mining, обнаружения знания, управления бизнес-процессами и управления знаниями. Поэтому лучшие DM-инструменты – это именно те, которые могут обеспечить реализацию такой задачи.
Data mining в бизнес-экосистемах
Для того чтобы DM-инструменты хорошо служили в Know-net, они должны облегчать бизнес-процессы, которые предшествуют проекту data mining (т.е. хранение и извлечение данных, интеграцию), а также те, что следуют за проектом (экспорт, внедрение и оценка модели). Кроме того, инструменты data mining направлены на облегчение передачи сведений в процесс управления знаниями вне DM-проекта.
Подобное целостное представление о data mining обеспечивает этой технологии такую же роль в бизнес-экосистеме, какую фотосинтез играет в естественных экосистемах. Световая энергия поглощается растениями и преобразуется в химические энергетические структуры (сахара), которые служат для переноса энергии на более высокие уровни пищевых цепей. Эти химические энергетические структуры должны быть совместимы с потребностями более высоких организменных процессов. Такой биологический взгляд противоречит традиционному представлению о компаниях как машинах, выдающих продукцию.Однако инструменты DM нужно рассматривать в этом контексте, а иначе они не позволят достичь тех бизнес-целей, для которых были задуманы.
Для реализации этой цели DM-инструменты должны:
- облегчать обмен данными между операциями data mining и оставшейся частью бизнеса (обычными структурами данных);
- облегчать обмен моделями внутри корпорации и обеспечивать:
- интерфейс со стандартными BI-инструментами;
- интерфейсы данных ODBC и интерфейс уровня вызовов;
- возможности data mining внутри баз данных;
- Упрощать включение пользовательских узлов или подключаемых модулей в среде взаимодействия с другими системами.
Наконец, инструменты data mining должны обеспечивать разработку системы Know-Net, которая передает информацию внутри компании и позволяет осуществлять коллективное принятие решений. Билл Гейтс называет это "цифровой нервной системой" компании. Только таким образом живой организм обеспечивает многокомпонентные взаимодействия, например, зрительную координацию движений рук. Аналогично, бизнес-экосистема может развиваться только в том случае, если все подразделения компании активно сотрудничают и стремятся вести бизнес "со скоростью мысли".
Статья получена: Клерк.Ру