Что такое анализ данных. Анализ данных и прогнозирование. В технологиях DM используются различные математические методы и алгоритмы: классификация, кластеризация, регрессия, прогнозирование временных рядов, ассоциация, последовательность

Понятие анализа данных достаточно широкое. Само понятие «анализ» пришло к нам из Древней Греции и значит «распутывать», «освобождать». В области анализа данных определений много и все они разные. Обратимся к Большому экономическому словарю (Институт новой экономики. А.Н. Азрилиян, 1997):

Анализ данных – это направление статистических исследований, включающее комплекс методов обработки многомерной системы данных наблюдений, характеризующейся многими признаками. В отличие от классических математико-статистических методов, предполагающих известную вероятностную модель порождения данных, методы анализа данных используют только сведения, зафиксированные в этих .

В целом определение верное и точное. Но для бизнеса важна и другая составляющая такого анализа. В определении словаря говорится только об обработке данных, но для любого руководителя или топ-менеджера важна не сама обработка и структурирование данных. Намного интереснее и полезнее при заключительный этап — поиск скрытых закономерностей и получение новых знаний.

Поэтому в бизнес-среде в последнее время очень популярно определение Марио Фариа (Mario Faria), вице-президента Gartner:

Анализ - преобразование данных в выводы, на основе которых будут приниматься решения и строиться действия с помощью людей, процессов и технологий.

Невозможно и неправильно смотреть на анализ данных только как на обработку информации после ее получения и сбора. В первую очередь, анализ данных - это средство и способ проверки гипотез и способ решения задач исследователя. Поэтому среди важных задач анализа данных мы выделяем:

  • прогнозирование,
  • выявление отклонений,
  • получение рекомендаций.

Характеристики данных анализа

С точки зрения своих характеристик данные, которое мы используем при анализе, делятся на 2 большие группы:

  • количественные
  • и качественные.

Качественные данные важны при маркетинговых исследованиях – какой ваш товар, за что его должны «полюбить» потребители. Наиболее интересными для прогнозирования, конечно, являются количественные данные. Цифры – наше все! На их основе можно, например, прогнозировать спады или рост продаж. А это, согласитесь, очень важно. Возможность закупить правильный объем товара, выстроить логистическую цепочку, подготовить персонал – все это, в конечном счете, влияет на выручку компании.

Как анализировать быстро и полезно?

Информации в мире становится все больше. В исследовании компании IBS говорится, что уже к 2003 году в миру было накоплено 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов). В 2011 году данных будет уже 1,76 зеттабайта (1 ЗБ = 1024 эксабайта), а в мае 2015 года мировой объем данных составил более 6,5 ЗБ. По информации из исследования The Data Age 2025 прогнозируется, что к 2025 году будет сформировано более 400 зеттабайтов информации.

Но главное – все эти накопленные данные содержат в себе важную информацию, с помощью которой можно и нужно прогнозировать, делать выводы и принимать решения. Для того чтобы из всего массива накопленных данных выделить полезную информацию, необходима обработка этих данных. Или – анализ данных.

Обрабатывать данные становится все сложнее. Если раньше, лет 15 назад, в Excel был пределом совершенства, то сейчас это уже действительно «прошлый век». Вслед за запросом на анализ «больших данных» на рынке появляются новые решения для бизнеса – малого, среднего и крупного.

Решения для анализа данных варьируются в зависимости от стоимости внедрения и персонала, который будет задействован для управления ими. Есть решения для крупных корпораций, где, конечно, не обойтись без больших вложений – как на этапе внедрения, так и позже – на этапе работы решения (основная трата – это специалисты, работающие с ПО).

Введение

Настоящий выпуск является вторым из серии выпусков, в которых излагается курс «Математическое моделирование геологических объектов», сопровождаемый учебно-методическими рекомендациями, контрольными вопросами и комментариями. В этом выпуске первоочередное внимание уделяется анализу данных как самостоятельной научной дисциплине и в его сопряжении с прикладной статистикой. Излагается, конечно, не «весь» анализ данных, а только отдельные его фрагменты, необходимые для понимания курса в целом. Приводятся минимально необходимые сведения о прикладной статистике.

Математическое моделирование геологических объектов тесно связано с анализом данных, как самостоятельной научной дисциплиной, и прикладной статистикой.

Каким образом анализ данных, математическое моделирование и прикладная статистика совместно используются при решении конкретных геологических задач и, в частности, при создании моделей геологических объектов? Обычно создание модели геологического объекта разбивается на ряд подзадач, образующих единую блок-схему с последовательным и параллельным движением обрабатываемой информации от исходных процедур к конечному результату – синтезу модели.

Решение каждой из таких подзадач сводится либо к построению и анализу некоторой частной модели, либо к поиску стохастической зависимости между некоторыми параметрами, либо к решению той или иной типовой задачи анализа данных и т.п. В последнем случае выбирается алгоритм, удовлетворяющий требованиям, предъявляемым исходной информацией. Требования эти могут иметь как чисто формальный характер (например, наличие в таблице разнотипных признаков делает невозможным применение некоторых алгоритмов), так и представлять собой «трудно» формализуемые представления о системе исследуемых объектов, которыми тоже не следует пренебрегать.

В настоящее время не существует универсального формально-математического способа для выбора подходящего алгоритма. Поэтому при выборе алгоритма наряду с проверкой его формально-математической пригодности рекомендуется ориентироваться и на его относительную простоту и содержательную интерпретируемость используемого математического аппарата в конкретной задаче, опыт применения алгоритма при решении аналогичных задач.

Распознавание образов

Основные подзадачи

Основными подзадачами задачи распознавания являются:

1 ) создание исходного списка признаков;

2 ) выбор классов объектов;

3 ) подготовка таблицы (таблиц) обучения;

4 ) выбор семейства решающих правил;

5 ) поиск оптимального (относительно некоторого критерия или критериев) решающего правила в этом семействе;

6 ) подготовка описаний проб;

7 ) распознавание проб.

На этапах 1 -3 производится выбор и экспликация признаков (см. пособие Красавчикова, 2008) и составление базы данных.

При создании исходного перечня признаков могут быть реализованы два подхода:

А ) всестороннее описание объектов, характерное для ситуаций, когда исследователь не знает, из каких признаков должен быть составлен окончательный список (информативная система признаков), по которому будет производиться распознавание проб. Поэтому он отбирает такие признаки, которые, в принципе, могут содержать полезную информацию (хотя, на первый взгляд, их связь с решаемой задачей может быть и не очевидна), и полагается в выборе информативной системы признаков на алгоритм и реализующую его программу.

Б ) описание объектов, основанное на некоторой геологической модели, для которой список признаков заранее известен.

При выборе классов объектов исходят не только из постановки задачи (например, разбраковать локальные поднятия на перспективные и бесперспективные по результатам интерпретации данных сейсморазведки), но и основываются на геологическом смысле и опыте решения аналогичных задач. Возможно, придётся проводить декомпозицию задачи и осуществлять поэтапное решение в рамках последовательно-параллельной блок-схемы несколько задач распознавания.

При подготовке таблицы (таблиц) обучения следует, по-возможности, избегать появления характеристических признаков, замеренных в шкале наименований (номинальных) с числом принимаемых ими значений, превосходящим два, поскольку они резко ограничивают выбор алгоритма распознавания. Они могут содержать весьма существенную информацию, но лучше, чтобы они не входили в список характеристических признаков. Обычно, по значениям таких признаков формируются классы.

Выбор семейства решающих правил не является формальной процедурой. Однако, при этом выборе есть и формальные требования. Например, если среди признаков есть номинальные или ранговые, то можно использовать только те алгоритмы, которые способны работать с информацией, представленной в качественных шкалах.

Одним из главных критериев выбора решающего правила является его «простота». Практика показала, что предпочтение следует отдавать более простым решающим правилам. Если среди «простых» решающих правил (причём, доступных исследователю в программной реализации) не удаётся найти способного справиться с поставленной задачей (или, в случае (а ), радикально сократить размерность описания), то переходят к более сложным и т.д.

Формализовать понятие простоты не так-то просто! В математической логике и теории алгоритмов есть целое направление, связанное с формализацией и изучением простоты математических конструкций, но знакомство с этой тематикой не входит в задачи курса. Поэтому будем относиться к этой проблематике как интуитивно ясной. По всей видимости, примером наиболее простых решающих правил могут служить линейные (см. ниже). Если есть два линейных решающих правила, то более простым, очевидно, является то, которое использует меньшее число признаков.

В случае (а ) при выборе семейства решающих правил следует обращать особое внимание на способность радикального сокращения размерности описания.

После выбора семейства проводится поиск решающей функции и соответствующего правила, которые в этом семействе обладают «наилучшим качеством» по отношению к материалу обучения и экзамена.

Для оценки качества решающего правила используются функционалы наподобие нижеприведённого:

Δ(F,λ,ε)=p 1 M 1 + p 2 M 2 +p 3 M 3 + p 4 M 4 ,

где для материала обучения и экзамена

M 1 – число ошибочно распознанных объектов первого класса;

M 2 – число ошибочно распознанных объектов второго класса;

M 3 – число отказов для объектов первого класса;

M 4 – число отказов для объектов второго класса.

Коэффициенты p j , j=1,…,4, – «штрафы» за ошибку соответствующего типа. Чем меньше значение Δ(F,λ,ε) (при фиксированных списках объектов обучения и экзамена), тем выше качество решающего правила.

После того, как для всех объектов обучения и экзамена вычислены значения решающей функции, управляющие параметры алгоритма λ, ε могут быть выбраны оптимальным образом, т.е. так, чтобы функционал качества решающего правила достигал минимума:

Δ(F,λ * ,ε *)=min Δ(F,λ,ε),

где минимум берётся по всемλ, ε и ε>0.

В случае (а ) ещё одним (и не менее важным) критерием качества является резко сокращение числа признаков, используемых в распознавании, по сравнению с исходным списком. Это обусловлено тем, что

Малое число признаков уменьшает влияние «информационных шумов», что делает распознавание более надёжным;

Сокращается время на подготовку описаний проб. Так, при распознавании в узлах сеток уменьшается число карт, которые приходится строить;

Появляется возможность содержательно проинтерпретировать решающее правило и т.д.

Описание проб производится по признакам, используемым в оптимальном решающем правиле. В случае (а ) это особенно важно, т.к., в частности, существенно сокращается время на подготовку описаний.

Примеры алгоритмов распознавания

К настоящему времени опубликованы сотни методов распознавания. Они объединяются в семейства. Зачастую, эти семейства описываются в виде решающих функций (либо правил) с неопределёнными параметрами. Устоявшейся общепризнанной классификации семейств алгоритмов распознавания не существует. Поэтому ограничимся кратким описанием нескольких семейств алгоритмов, показавших свою эффективность при решении прикладных геологических задач, особенно в геологии нефти и газа.

Для подробного ознакомления с применением методов распознавания в геологии нефти и газа отсылаем читателя к публикациям 60-80 годов прошлого века, когда их использование при решения задач прогнозно-поискового профиля было массовым. Методы распознавания применялись, в частности, при решении задач прогноза гигантских нефтяных месторождений, продуктивности локальных поднятий, фазового состояния УВ в залежах и др. (Распознавание образов…, 1971; Раздельное прогнозирование…, 1978, Прогноз месторождений …, 1981 и др.).

4.3.1. Байесовские решающие правила

Эти решающие правила подробно охарактеризованы в учебном пособии Дёмина (2005), куда мы и отсылаем читателя. Для более глубокого ознакомления с приложениями байесовской теории принятия решений в геологии нефти и газа рекомендуем обратиться к монографии (Прогноз месторождений…, 1981).

4.3.2. Комбинаторно-логические методы в распознавании

Применение этих методов рассмотрим на примере одной конкретной схемы распознавания, основанной на аппарате дискретной математики и математической логики.

Пусть сначала для простоты изложения все признаки X 1 ,…,X n – бинарные. Согласно Журавлёву (1978) назовём произвольную совокупность W наборов признаков вида w=(X j (1) ,…,X j (k)), где k=1,…,n, системой опорных множеств, W={w 1 , w 2 ,…, w N }, а её элементы w r – опорными множествами.

Пусть wÎW, w=(X j (1) ,…,X j (L)), S k – строка таблицы , Q p – строка таблицы . Строки S k и Q p различаются по набору признаков w, если найдётся входящий в w признак X j (r) такой, что X j (r) (S k)¹X j (r) (Q p). В противном случае будем говорить, что они не различаются.

Определение 1 .Набор признаков wÎW голосует за отнесение строки S к первому классу, если в таблице T 1 найдётся строка S k , такая, что по набору w строки S и S k не различаются; w голосует за отнесение строки S ко второму классу, если в таблице T 2 найдётся строка Q p , такая, что по набору w строки S и Q p не различаются.

при Г 1 (S) > Q p) и Г 2 (S) ≤ Г 2 (S i) объект S относится к классу K 1 ;

при Г 2 (S) > S i) и Г 1 (S) ≤ Г 1 (Q p) объект S относится к классу K 2 ;

в остальных случаях S не распознаётся.

Смысл этого решающего правила заключается в том, что для отнесения пробы S к классу K j , где j=1,2, она должна получить

Эта схема представляет собой один из простейших вариантов голосования по системе опорных множеств. Алгоритм представляет собой реализацию так называемого «принципа частичной прецедентности» (Журавлёв, 1978), при котором заключение о принадлежности объекта к классу выносится на основе анализа совпадений фрагментов его описания с соответствующими фрагментами описаний объектов этого класса. Совпадение фрагментов описаний объекта обучения и пробы является частичным прецедентом.

Пример системы опорных множеств: тестовая конструкция. Её основой являются понятия теста и тупикового теста, предложенные С.В. Яблонским в качестве математического аппарата диагностики технических устройств (Журавлёв, 1978).

Определение 2. Набор столбцовw называется тестом для пары таблиц T 1 , T 2 если по нему нет совпадений между строками S i и Q p , где

Определение 3 .Тест называетсятупиковым, если из него нельзя удалить ни одного столбца без того, чтобы он перестал быть тестом.

Дмитриев, Журавлёв, Кренделев (1966) воспользовались аппаратом тупиковых тестов для создания алгоритмов классификации предметов и явлений.

В геологии нефти и газа комбинаторно-логические методы впервые были применены при решении задач прогноза гигантских нефтяных месторождений (Распознавание образов …, 1971), где была использована тестовая конструкция. Под руководством А.А. Трофимука тестовый подход применён также и к решению других важнейших прогнозных задач геологии нефти и газа (Раздельное прогнозирование…, 1978 и др.). Ряд сделанных А.А. Трофимуком прогнозов, не нашедших поддержки в момент опубликования, в дальнейшем блестяще подтвердились.

Константиновым, Королёвой, Кудрявцевым (1976) на представительном фактическом материале по прогнозу рудоносности была подтверждена эффективность алгоритмов тестового подхода по сравнению с другими алгоритмами распознавания, применявшимися для решения задач рудопрогноза.

В геологии нефти и газа другие системы опорных множеств не применялись.

Если в таблицах встречаются признаки, замеренные в количественных шкалах, то для них используются пороговые меры различимости значений (см. Красавчиков, 2009).

4.3.1. Линейные методы

Линейные методы стали применяться для решения задач распознавания образов одними из первых (см.. Ту, Гонсалес, 1978) в середине прошлого века.

Пусть F(u 1 ,…,u n)=a 1 u 1 + a 2 u 2 + … +a n u n – линейная функция n переменных u 1 ,…,u n . Методы отыскания линейных решающих функций и правил принято называть линейными. Общий вид линейных решающих правил может быть задан следующим образом:

при a 1 X 1 (S) + a 2 X 2 (S) + … +a n X n (S)≥λ+ε объект S относится к К 1 ;

при a 1 X 1 (S) + a 2 X 2 (S) + … +a n X n (S)≤λ-ε объект S относится к К 2 ;

при λ-ε

Пусть , . Для проверки существования линейного решающего правила достаточно убедиться в существовании решения системы линейных неравенств для какого-либо ε>0:

,

где j=1,…,n, i=1,…,m(1), k=m(1)+1,…,m c неизвестными y 1 ,…,y n (искомыми значениями коэффициентов a j) и λ. Для проверки существования решения систем линейных неравенств используются вычислительные методы линейной алгебры; эта проверка является «не слишком сложной», а программное обеспечение содержится в общераспространённых пакетах. Если решение существует, то оно либо единственно, либо их бесконечно много.

Существуют многочисленные методы нахождения линейных решающих правил, реализующие различные дополнительные требования (типа максимизации ε, сокращения размерности описания и пр.).

Геометрическая интерпретация линейного решающего правила заключается в следующем. Пусть все признаки замерены в количественных шкалах и E n – n-мерное евклидово пространство. Гиперплоскость a 1 x 1 +a 2 x 2 +…+a n x n = λ делит E n на две части таким образом, что в каждой из них находятся точки только одного из классов. Такие гиперплоскости называются разделяющими .

Ситуация заметно усложняется, если разделяющей гиперплоскости не существует и нужно отыскать гиперплоскость, минимизирующую функционал качества распознавания. С вычислительной точки зрения эта задача является намного более сложной.

Линейные методы распознавания использовались в течение ряда лет для прогноза продуктивности локальных поднятий и уточнения границ природных резервуаров УВ в нижне -среднеюрских отложениях Западной Сибири (Каштанов, Соколов, 1976, Красавчиков, 2007).

Упорядочение

На практике вместо отыскания решающей функции, удовлетворяющей цепочке неравенств (1), зачастую достаточно получить «хорошую» корреляцию упорядочения по убыванию значений функции F с упорядочением на материале обучения. Это имеет принципиальное значение, поскольку решающей функции, для которой выполняются неравенства (1), в классах «простых» функций (типа линейных и т.п.) может и не существовать. Для приближённого решения этой задачи можно применять математический аппарат множественной линейной регрессии, реализованный в программном продукте Statistica for Windows.

Пусть приближённое решение F ищется в классе линейных функций,

F(u 1 ,u 2 ,…,u n)=a 1 u 1 +a 2 u 2 +…+a n u n +b ,

где a 1 ,…,a n , b – коэффициенты при переменных и свободный член соответственно, Ψ – некоторая монотонная функция, определённая на множестве значений целевого признака (например, логарифм, см. пояснение в разделе 10). Тогда, решая задачу множественной линейной регрессии вида:

найти a 1 ,…, a n , b , при которых функционал

достигает минимума ,

мы получаем приближённое решение задачи упорядочения через аппроксимацию некоторой монотонной функции от целевого признака. Поскольку функция Ψ монотонна, можно, используя коэффициент Спирмена, оценить достоверность связи между решением регрессионной задачи и значениями целевого признака X n +1 . Значение r s является естественным показателем качества приближённого решения задачи упорядочения.

Можно показать, что для отыскания точного решения F в классе линейных решающих функций достаточно решить систему m-1 нестрогих линейных неравенств c n неизвестными p 1 ,…,p n:

, i=1,…,m-1, (3)

где n – число признаков, e>0 – малая положительная константа. При этом, как легко видеть, разности X j (S i) - X j (S i +1)=H ij являются известными величинами. Обратно, из существования решения системы линейных неравенств (3) вытекает существование решения системы неравенств (2). Однако, как уже отмечалось, в классе линейных решающих функций решения может и не существовать.

Программное обеспечение для решения систем нестрогих линейных неравенств отсутствует в пакете Statistica. Однако оно, в принципе, является достаточно распространённым и содержится в программных продуктах, предназначенных для решения задач вычислительной алгебры.

Кластер-анализ

Существует большое количество методов и алгоритмов кластер анализа. Среди них выделяются две крупные группы, к которым относится большинство опубликованных алгоритмов. Это иерархические алгоритмы, порождающие древовидные классификации объектов, и алгоритмы, порождающие разбиения (группировки).

Иерархические алгоритмы

Среди иерархических алгоритмов можно выделить два основных класса – агломеративные и дивизимные. Это – пошаговые алгоритмы. Агломеративные алгоритмы начинают с того, что каждый объект является отдельным кластером, а заканчивают тем, что все кластеры объединяются в один объект. На каждом шаге производится объединение двух наиболее «близких» в некотором смысле кластеров. Близость между кластерами задаётся «расстоянием» либо мерой близости. Под «расстоянием» в данном случае понимается неотрицательная симметричная функция. Примеры таких функций будут рассмотрены ниже. В дивизимных же методах, наоборот, на первом шаге все объекты образуют один кластер, на последнем – каждый объект представляет отдельный кластер.

6.1.1. Агломеративные алгоритмы

Рассмотрим агломеративные методы, представленные в пакете Statistica for Windows. Для этого сначала определим функции, с помощью которых оцениваются расстояния между конечными подмножествами метрического пространства M .

Пусть множество описаний объектов S= {S 1 ,…,S m } признаками X 1 (S),…,X n (S) содержится в евклидовом пространстве E n , так что для любой пары объектов S i , S j из S определена метрика (расстояние) ρ ij = ρ(S i ,S j) и можно составить симметричную матрицу расстояний R=(ρ ij) m ´ m . Приведём примеры функций двух переменных, значения которых играют в кластер-анализе роль расстояний между непересекающимися подмножествами, хотя, формально, эти функции не являются метриками. Пусть A l , A q Ì S неимеют общих элементов, A l ÇA q = Æ. Тогда:

а) ρ lq равно расстоянию между двумя ближайшими объектами множеств A l , A q ;.

б) ρ lq равно расстоянию между самыми далекими объектами множеств A l , A q ;

в) ρ lq равно расстоянию между центрами тяжести множеств A l , A q (точек со средними

значениями всех показателей);

г) ρ lq равно среднему арифметическому расстояний между объектами множеств A l , A q ;

д) ρ lq равно расстоянию между точками с медианными значениями признаков для мно-

жеств A l , A q ;

е) ρ lq равно сумме расстояний между элементами множеств A l , A q .

ж) ρ lq равно так называемому «статистическому расстоянию» (Дюран, Оделл, 1977) между

множествами A l , A q:

.

Здесь – векторы средних значений признаков для подмножеств A l , A q , T – знак транспонирования. Таким образом, «статистическое расстояние» между подмножествами A l , A q представляет собой квадрат расстояния между векторами средних значений признаков (центрами тяжести) с коэффициентом m l m q /(m l +m q) .

В иерархических агломеративных алгоритмах, основанных на вычислении «расстояний» между подмножествами A l , A q вида (а-ж) и им подобных, на первом шаге каждый объект считается отдельным кластером. На следующем шаге объединяются два ближайших объекта, которые образуют новый класс, определяются «расстояния» от этого класса до всех остальных объектов. Матрица расстояний, соответственно, изменяется с учётом результатов кластеризации, включая уменьшение её размерности. На р-м шаге для кластеров и матрицы расстояний предыдущего шага R p -1 повторяется та же процедура, пока все объекты не объединятся в один кластер. В отличие от R 1 =R, при p>1 элементами R p являются не расстояния между объектами, а «расстояния» между кластерами.

Если сразу несколько объектов (либо кластеров) имеют минимальное «расстояние», то возможны две стратегии: выбрать одну случайную пару или объединить сразу все пары. Первый способ является классическим; иногда в литературе его называют восходящей иерархической классификацией. Второй способ используется гораздо реже.

Метод, основанный на вычислении «статистического расстояния» (см. п. (ж) выше) называется методом Уорда (Мандель, 1988) по имени предложившего его специалиста. Названия остальных методов определяются используемым в них расстоянием.

Результаты работы всех иерархических агломеративных процедур обычно оформляются в виде так называемой дендрограммы (см. рис. 1), в которой по горизонтали показаны номера объектов, а по вертикали – значения межкластерных расстояний ρ lq , при которых произошло объединение двух кластеров.

6.1.2. Дивизимные алгоритмы

Этот класс алгоритмов кластер-анализа опишем на примере «Быстрого дивизимного комбинационного алгоритма», предложенного Chaudhuri (Мандель, 1988). Проведённые в ИНГГ эксперименты показали его высокую эффективность при решении задачи кластеризации разрезов по толщинам составляющих их горизонтов на основе информации, содержащейся в сетках толщин. Обработка информации по средней юре юго-востока ЗСП показала, что он быстро и «разумно» кластеризует огромные массивы данных, представленных сеточными моделями. Другими алгоритмами кластеризовать эти массивы, состоящие, порой, из миллиона с лишним объектов, охарактеризованных более чем 10 признаками, часто невозможно либо крайне затруднительно. Алгоритм Chaudhuri (Чаудури) в программном продукте “Statistica for Windows” не представлен.

Этот алгоритм для краткости будем называть также алгоритмом гиперкубов. Приведём его краткое описание.

Гиперкуб, в котором содержатся все точки (определяемый размахами вариации признаков), разбивается на первом шаге по каждой оси перпендикулярной ей плоскостью на 2 n «кубика», где n –число признаков. На j -м шаге каждый из этих кубиков также разбивается, т. е. получается 2 n j гиперкуба. Если в полученном кубе есть хоть один объект, он считается заполненным, если нет – пустым. Кластером здесь называется максимально большая связная область, в которой любые два объекта соединены непустыми клетками (т.е. компонента связности графа, вершинами которого являются объекты, и две вершины в котором соединены ребром если и только если они либо находятся в одной клетке либо вмещающие их клетки имеют общую границу, пусть даже состоящую из одной точки).

По мере увеличения j число кластеров растет, т.е. алгоритм носит дивизимный характер. Он принадлежит к числу наиболее быстрых иерархических алгоритмов, не требует предварительной нормировки показателей, хранения и пересчёта матрицы расстояний, может работать в исходном пространстве. Эти и некоторые другие особенности относят его к числу наиболее предпочтительных алгоритмов для построения иерархических классификаций в случае больших баз данных.

Раздел 2

1. Решающая функция в распознавании образов – это отображение, переводящее набор значений разнотипных признаков X 1 (S),…,X n (S) в число. Это число – значение решающей функции F на объекте S. Решающее правило в распознавании образов – это высказывание, которое содержит значения решающей функции и управляющих параметров и, с учётом этих значений, либо относит пробу к одному из классов, либо отказывается от распознавания.

2. Сформулируйте понятие решающей функции применительно к задаче упорядочения.

3. Может ли целевой признак применительно к сформулированной в разделе 2 версии задачи упорядочения быть а) логическим; б) номинальным?

4. Почему на начальных этапах развития кластер - анализа его (в противовес распознаванию образов) называли «обучением без учителя»?

5. Зависимость между признаками может быть представлена как в виде, разрешённом относительно того или иного признака, например, X j ≈ f(X i ,X k ,…,X l), так и без такого разрешения. Например, (ln(X j)) 2 + ln(X j +X k) -1≈0.

6. Сформулируйте задачу распознавания как задачу заполнения единичного пропуска.

7. Сформулируйте задачу заполнения единичного пропуска в бинарном или номинальном признаке как задачу распознавания.

Раздел 3

1. В каких случаях и почему для оценки связи между количественными признаками рационально использовать ранговый коэффициент Спирмена?

2. Всегда ли множественная линейная регрессия будет точно решать задачу упорядочения?

3. Можно ли применять линейную регрессионную модель из раздела 3, если Y- ранговый признак?

4. Можно ли применять линейную регрессионную модель из раздела 3, если Y- номинальный признак?

5. Можно ли применять линейную регрессионную модель из раздела 3, если хотя бы один признак из списка X 1 ,…,X n – ранговый или номинальный?

6. Можно ли без предварительной нормировки признаков сопоставлять веса, с которыми они входят в уравнение регрессии, с целью их упорядочения по влиянию на значение прогнозируемого показателя?

7. Что такое b в разделе «Множественная линейная регрессия» пакета “Statistica for Windows? Как величины b j могут быть использованы при сравнении характеристических признаков по их влиянию на значение зависимого (целевого) признака?

Раздел 4

1. В чём заключается экспликация на этапе формирования списка исходных признаков?

2. Каким образом штрафы за ошибки и отказы позволяют регулировать оценку качества распознавания?

3. Какое из двух линейных решающих правил, имеющих одинаковую оценку качества распознавания, предпочтительнее: использующее 5 признаков или 7?

4. Если метод распознавания используется для уточнения границ (по латерали) геологического объекта в осадочной толще, то некоторый процент отказов или даже ошибок в узлах сетки может и не повлиять на прогнозируемое расположение его границы. В результате решения задачи распознавания образов для узлов сетки на принадлежность локального участка (центром которого является узел) к моделируемому объекту появляется предварительная версия границы. Обычно, в результате анализа полученной версии, геологическая ситуация, в целом, становится ясной, так что исследователь уже в состоянии «самостоятельно» провести границу объекта.

5. В результате решения задач распознавания с использованием признаков, рассчитанных по сеткам реперных геофизических поверхностей и данным глубокого бурения (разбивки по стратиграфическим уровням, толщины горизонтов и пр.), в ИНГГ СО РАН были уточнены границы (по латерали) основных стратиграфических горизонтов в нижне-среднеюрских отложениях Западной Сибири, что, в свою очередь, позволило уточнить оценки ресурсов УВ юры ряда крупных регионов.

6. Читая работы по применению методов распознавания в геологии нефти и газа, следует иметь в виду, что, обычно, исследователь опирается на свой опыт решения аналогичных задач и литературные данные; при этом использует не «самое лучшее» программное обеспечение, а то, которым располагает и умеет пользоваться.

7. Опыт решения многочисленных практических задач в области моделирования геологических объектов в слоистой толще позволяет сформулировать нижеследующие требования к алгоритмам и программному обеспечению распознавания образов применительно к моделированию региональных, зональных и локальных объектов в осадочном бассейне:

- «уметь» работать с признаками, заданными на сетках;

- отыскивать простые и легко интерпретируемые решающие правила;

- обеспечивать эффективное снижение размерности описания n ;

- работать с зависимыми и разнотипными признаками;

- учитывать сложный характер разделения классов (по латерали).

Раздел 5

Множественный линейный регрессионный анализ предназначен для отыскания линейной зависимости признака Y от признаков X 1 ,…,X n

Y≈a 1 X 1 +…+ a n X n + b =L(X 1 ,..., X n). (4)

В задаче упорядочения требуется решить более общую задачу: отыскать зависимость F, которая расставляет объекты обучения в порядке по убыванию значений целевого признака X n +1 . При этом может оказаться так, что значения функции F у объектов обучения и проб не будут совпадать со значениями целевого признака.

Решение линейной регрессионной задачи по нахождению минимума функционала (4) может не привести к нахождению приемлемой аппроксимации решения задачи упорядочения. Однако, можно попытаться провести преобразование целевого признака X n +1 монотонной функцией Ψ таким образом, чтобы для Ψ(X n +1) методом наименьших квадратов можно было получить искомую аппроксимацию. Поскольку Ψ монотонна, это даёт решение задачи упорядочения.

«Универсального» способа выбора Ψ, скорее всего, не существует. Однако можно привести некоторые практические рекомендации по его подбору.

Монотонная функция Ψ, как правило, используется в том случае, когда «обычный» коэффициент парной корреляции r (Дёмин, 2005, с. 42-44) между значениями целевого признака X n +1 и соответствующими значениями, рассчитанными по уравнению множественной линейной регрессии, «мал». При этом содержательные соображения позволяют предполагать, что упорядочить объекты по убыванию целевого признака X n +1 по значениям X 1 ,..., X n всё-таки можно. Чаще всего множественная линейная регрессия с «удачно подобранным» Ψ успешно применяется, когда распределение значений в последовательности X n +1 (S m), X n +1 (S m -1),…, X n +1 (S 1) имеет ярко выраженный нелинейный характер, сопоставимый, например, с экспонентой. Функция Ψ, обычно, выбирается таким образом, чтобы, по возможности, устранить резкую нелинейность. Логарифм – типичный пример подобной функции, неоднократно использованный в подобных ситуациях при решении практических задач

Раздел 6

1.Пусть A l ={(0,1), (2,0), (2,3)}, A q ={(5,1), (6,2), (8,3), (9,5), (10,7)}. Рассчитайте расстояния (а –ж).

2. Полагая S= A l ÈA q решите задачу кластеризации совокупности объектов S методом Чоудари

3. На локальном уровне для отдельной площади или скопления площадей («малой» зоны) кластер-анализ успешно применяется при корреляции дизъюнктивных нарушений по данным 3D-сейсморазведки (Кашик и др, 2004).

Опыт применения кластер-анализа на региональном и зональном уровне показал, что эти методы могут давать полезную информацию об истории развития изучаемых толщ и тектонических процессах, типах геологических разрезов, их раcпространении по латерали, зонах развития коллекторов в них, нефтегазоносности. Однако для этого, как выяснилось, нужны достаточно «густые» регулярные сетки толщин отложений, поэтому главный фактор, сдерживающий его применение при региональных и зональных построениях (в случае «больших» территорий), – необходимость хранения и пересчётов матрицы расстояний для всей совокупности объектов.

Если исходить из оценки трудоёмкости вычислений, то на локальном уровне, за исключением обработки данных 3D-cейсморазведки , вполне можно использовать практически любые алгоритмы кластер-анализа. При региональных и зональных построениях с использованием сеточных моделей (в случае «больших» территорий), а также при обработке данных 3D-сейсморазведки (даже на уровне отдельной площади или «малой зоны»), целесообразно выбирать алгоритм, не требующий пересчёта матрицы расстояний, например, метод Чоудари.

4. Наметим, в общих чертах, подход, позволяющий эффективно использовать кластер-анализ данных бурения при прогнозных построениях. Пусть, например, анализируются данные по какому-либо региональному или зональному резервуару УВ. На основании некоторого исходного списка признаков (не включающего результаты испытаний скважин и их координаты) производится кластеризация объектов.

Анализ данных

Анализ данных - область математики и информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных (в широком смысле) данных ; процесс исследования, фильтрации, преобразования и моделирования данных с целью извлечения полезной информации и принятия решений. Анализ данных имеет множество аспектов и подходов, охватывает разные методы в различных областях науки и деятельности.

Анализ социологических данных

Основная цель анализа данных в социологии - выявление (подтверждение, корректировка) каких-то интересующих исследователя статистических закономерностей; или, другими словами, - определенного рода сжатие, усреднение содержащейся в данных информации. В методологии анализа данных как области методологии социологических исследований следует выделить структурно, как минимум, следующие взаимосвязанные части:

Примечания


Wikimedia Foundation . 2010 .

Смотреть что такое "Анализ данных" в других словарях:

    Статистические исследования, связанные с обсчетом многомерной системы данных наблюдений, имеющей множество параметров. А.д. классифицируется: 1. Описанием одних параметров через другие и составлением новых параметров. 2. Языком представления… … Словарь бизнес-терминов

    Англ. analysis, data; нем. Datenanalyse. Этап эмпирического социол. исследования, в ходе к рого при помощи содержательных соображений и мате матико статист. методов на основе первичной информации раскрываются связи исследуемых переменных.… … Энциклопедия социологии

    Анализ данных - см. Прикладная статистика … Экономико-математический словарь

    анализ данных - — EN data analysis The evaluation of digital data, i.e. data represented by a sequence of code characters. (Source: MGH) … … Справочник технического переводчика

    АНАЛИЗ ДАННЫХ - 1. Совокупность действий, осуществляемых исследователем в процессе изучения полученных тем или иным образом данных с целью формирования определенных представлений о характере явления, описываемого этими данными. В процессе А.д. исследователь чаще … Российская социологическая энциклопедия

    АНАЛИЗ ДАННЫХ - область математики и информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных (в широком смысле) данных. В социологии А.Д. применяется в… … Социология: Энциклопедия

    АНАЛИЗ ДАННЫХ - направление статистических исследований, включающее комплекс методов обработки многомерной системы данных наблюдений, характеризующейся многими признаками. В отличие от классических математико статистических методов, предполагающих известную… … Большой экономический словарь

    АНАЛИЗ ДАННЫХ - (data analysis) исследование и обработка информации научных работ обследований или экспериментов. Социальные данные могут анализироваться рядом методов, включая перекрестное табулирование, статистические тесты (см. Статистика и статистический… … Большой толковый социологический словарь

    АНАЛИЗ ДАННЫХ - – 1. Совокупность действий, осуществляемых исследователем в процессе изучения полученных тем или иным образом данных с целью формирования определенного представления о характере явления, описываемого этими данными. Исследователь пытается данные… … Энциклопедический словарь по психологии и педагогике

    Анализ данных - совокупность действий осуществляемых исследователем в процессе изучения полученных тем или иным образом данных с целью формирования определенных представлений о характере явления, описываемого этими данными … Социологический словарь Socium

Федеральное агентство связи Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования «Поволжский государственный университет телекоммуникаций и информатики» ___________________________________________________ Кафедра информационных систем и технологий КОНСПЕКТ ЛЕКЦИЙ ПО УЧЕБНОЙ ДИСЦИПЛИНЕ «АНАЛИЗ ДАННЫХ» по специальности (направлению подготовки): Информационные системы и технологии, Бизнес-информатика Самара 2013 УДК 004.02:004.6 Салмин А.А. Анализ данных. Конспект лекций. – Самара.: ФГОБУ ВПО «ПГУТИ», 2013. - 111 с. Рассматриваются вопросы анализа данных. Приводятся некоторые из основополагающих методик анализа данных, такие как: регрессионный анализ, корреляция, дисперсионный анализ и др. Отражены вопросы интеллектуального анализа данных, с помощью которого можно выявить ранее неизвестные, нетривиальные закономерности в данных. Рецензент: Тарасов В.Н. – д.т.н., профессор, зав. кафедрой «Программного обеспечения и управления в технических системах» ПГУТИ Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования «Поволжский государственный университет телекоммуникаций и информатики» © Салмин А.А., 2013 2 Содержание конспекта лекций ВВЕДЕНИЕ 5 1. ВВЕДЕНИЕ В «АНАЛИЗ ДАННЫХ» 7 1.1. Работа с данными 7 1.2. Этапы решения задачи анализа данных и их взаимосвязи 9 2. РАСПРЕДЕЛЕНИЕ ВЕРОЯТНОСТЕЙ 18 2.1.Вероятность 18 2.2.Распределения вероятностей 20 2.3.Случайные переменные и случайные выборки данных 23 2.4.Нормальное распределение 24 2.5.Формула Байеса 25 3. СТАТИСТИКА ВЫВОДОВ 30 3.1.Доверительные интервалы 30 3.2.Проверка гипотез 32 3.2.1. Типы ошибок 33 3.2.2. Области принятия и непринятия 34 3.2.3. t-распределение 35 3.3. Применение непараметрического теста для парных данных 39 4. АНАЛИЗ ТАБЛИЧНЫХ ДАННЫХ 43 4.1. Сводные таблицы 43 4.2. Вычисление ожидаемого количества наблюдений 46 4.3. Статистика хи-квадрат Пирсона 48 5. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА 51 5.1. Понятие «регрессия» 51 5.2. Простая линейная взаимосвязь 52 5.2.1. Уравнение регрессии 52 5.2.2. Подгонка линии регрессии 54 5.2.3. Интерпретация параметров регрессии 57 5.3. Проверка модели регрессии 59 3 6. КОРРЕЛЯЦИЯ 63 6.1. Понятие «корреляции» 63 6.2. Матрица корреляции 65 6.3. Матрица точечных диаграмм корреляций 66 7. АППАРАТ МНОЖЕСТВЕННОЙ РЕГРЕССИИ 69 7.1. Уравнение множественной регрессии 69 7.2. Проверка допущений регрессии 73 7.3. Пошаговая регрессия 75 7.4. Логистическая регрессия 76 7.5. Нелинейная регрессия 77 8. ДИСПЕРСИОННЫЙ АНАЛИЗ 78 8.1. Однофакторный дисперсионный анализ 78 8.2. Однофакторный дисперсионный анализ и анализ регрессии 84 8.2. Двухфакторный дисперсионный анализ 86 9. КОГНИТИВНЫЙ АНАЛИЗ. ГРАФЫ 92 9.1. Когнитивный анализ 92 9.2. Методика когнитивного анализа сложных ситуаций 93 9.3. Регрессионно - когнитивный анализ 96 10. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ 99 10.1. Системы аналитической обработки данных 99 10.1.1. CRM – технология 99 10.1.2. ERP – системы 102 10.1.3. OLAP – технология 103 10.2. Интеллектуальный анализ данных (Data Mining) 105 10.2.1. Этапы исследования данных с помощью методов Data Mining 105 10.2.2. Типы закономерностей 106 10.2.3. Методы Data Mining 107 4 ВВЕДЕНИЕ Предлагаемый конспект лекций по дисциплине «Анализ данных» обеспечивает подготовку студентов к эффективному использованию современных компьютерных средств анализа данных. Предлагаются основные темы, посвященные формированию теоретических и практических навыков работы с пакетами прикладных программ для решения задач анализа и интерпретации данных для создания прогнозов ситуации и принятия управленческих решений. В рамках конспекта лекций по дисциплине рассматриваются различные способы создания, форматирования, описания базовых принципов работы с таблицами данных с целью их последующего анализа при помощи статистических и математических методов. Таким образом, у будущих специалистов осуществляется формирование основ теоретических знаний и практических навыков работы в области анализа данных и принятия управленческих решений. Следует также отметить тот факт, что в качестве программного обеспечения для усвоения курса предлагается использовать продукт MS Excel, который располагает достаточными средствами анализа данных, такими как: пакет анализа, общими статистическими функциями мастера функций и т.д. Кроме тог, предлагается дополнительно использовать подключаемый модуль StatPlus. Дисциплина «Анализ данных» базируется на знании предметов «Информационные технологии», «Электронные 5 таблицы», «Вероятность и статистика», изучаемых в образовательных учреждениях высшего образования. Элементы курса «Анализ данных» используются при изучении курсов «Моделирование систем», «Проектирование информационных систем», «Надежность информационных систем». Задача материала данного конспекта лекций в том, чтобы: - предоставить студентам общие сведения о принципах обработки и анализа данных с целью получения из них новых сведений; - показать методы, средства и технологии анализа данных; - показать на примере регрессионного анализа принцип получения новых знаний из данных. Знания и навыки, полученные в результате изучения данной дисциплины, могут быть применены: 1. при проведении анализа данных с целью получения статистической информации или прогноза ситуации; 2. для интерпретации полученных результатов в ходе анализа; 3. при формулировании технического задания при создании ИС силами профессиональных разработчиков. 6 1. ВВЕДЕНИЕ В «АНАЛИЗ ДАННЫХ» 1.1. Работа с данными Данные – это воспринимаемые человеком факты, события, сообщения, измеряемые характеристики, регистрируемые сигналы. Специфика данных в том, что они, с одной стороны, существуют независимо от наблюдателя, а с другой – становятся собственно «данными» лишь тогда, когда существует целенаправленно собирающий их субъект. В итоге: данные должны быть тем основанием, на котором возводятся все заключения, выводы и решения. Они вторичны по отношению к цели исследования и предметной области, но первичны по отношению к методам их обработки и анализа, извлекающим из данных только ту информацию, которая потенциально доступна в рамках отобранного материала. Данные получаются в результате измерений. Под измерением понимается присвоение символов образцам в соответствии с некоторым правилом. Эти символы могут быть буквенными или числовыми. Числовые символы также могут представлять категории или быть числовыми. Различают 4 типа шкал измерений: 1) Шкала наименований. Эта шкала используется только для классификации. Каждому классу данных присваивается свое обозначение так, чтобы обозначения различных классов не совпадали. Например, классификация людей по полу М и Ж (1 и 2, 10 и 100) или категория да/нет. Причем арифметические операции не имеют смысла для шкал наименований. Для данной шкалы 7 центром измерения является мода (часто повторяющийся элемент). 2) Порядковая шкала. Данная шкала позволяет не только разбивать данные на классы, но и упорядочить сами классы. Каждому классу присваивается различные обозначения так, чтобы порядок обозначений соответствовал порядку классов. Если мы нумеруем классы, то классы находятся в числовом порядке; если обозначаем классы по средствам букв, то классы находятся в алфавитном порядке. Например, необходимо идентифицировать индивидуумы по трем социально- экономическим категориям – низкий, средний, высокий: 1 – низкий, 2- средний, 3 – высокий; или X – низкий, Y – средний, Z – высокий. Применяются любые обозначения цифр или букв. Арифметические операции для этой шкалы также не имеют смысла. 3) Интервальная шкала. Эта шкала позволяет не только классифицировать и упорядочивать данные, но и количественно оценивать различие между классами. Для проведения таких сравнений необходимо ввести единицу измерения и произвольное начало отсчета (нуль- пункт). Например, температура в градусах Фаренгейту принадлежит интервальной шкале, где 0F является началом, 1F - единицей измерения. 4) Шкала отношений. Эта шкала отличается от интервальной шкалы лишь тем, что в ней задано абсолютное начало отсчета. Т.е. в данной шкале можно определить, во сколько раз одно измерение превосходит другое. Например: рост человека в дюймах принадлежит шкале отношений, в которой в которой 0 дюймов есть фиксированное начало отсчета, а 1 дюйм – единица измерения. 8 Кроме того, наблюдения делятся на: дискретные и непрерывные. Именованные и порядковые данные всегда дискретны, а интервальные и относительные могут быть как дискретными, так и непрерывными. Например, непрерывные: стрельба по мишени (любой исход), температура (интервальная шкала); дискретные: игральная кость (1, 2, 3 …6), монета (орел/решка), число телефонных вызовов за один час (шкала отношений) (рис. 1.1). Рис. 1.1. Дискретные и непрерывные данные 1.2. Этапы решения задачи анализа данных и их взаимосвязи Анализ данных – это совокупность методов и средств извлечения из организованных данных информации для принятия решений. Основные этапы решения задачи анализа данных показаны в левой части рис. 1.2. В правой части каждый из них разбит на более мелкие стадии. 9 Этап 1 1.1. Определение цели Постанов- исследования ка задачи 1.2. Определение состава данных 1.3. Сбор данных 1.4. Выбор средств анализа данных 1.5. Формализация данных Этап 2 2.1. Ввод данных в память Ввод ЭВМ данных в 2.2. Работа с архивом данных обработку 2.3. Формирование задания обработки Этап 3 3.1. Определение Качествен- простейших характеристик ный данных анализ 3.2. Визуализация данных 3.3. Анализ структуры данных Этап 4 4.1. Выбор модели данных Количест- 4.2. Выполнение обработки венное описание данных Этап 5 5.1. Анализ результатов Интерпрет 5.2. Принятие решений ация резуль- татов Рис. 1.2. Этапы анализа данных Постановка задачи (является определяющим этапом, от которого зависит весь ход анализа) начинается со стадии формулировки цели всего 10

Механизм анализа данных и прогнозирования предоставляет пользователям (экономистам, аналитикам и т.д.) возможность осуществлять поиск неочевидных закономерностей в данных, накопленных в информационной базе. Этот механизм позволяет:

  • осуществлять поиск закономерностей в исходных данных информационной базы;
  • управлять параметрами выполняемого анализа как программно, так и интерактивно;
  • осуществлять программный доступ к результату анализа;
  • автоматически выводить результат анализа в табличный документ;
  • создавать модели прогноза, позволяющие автоматически прогнозировать последующие события или значения неких характеристик новых объектов.

Механизм анализа данных представляет собой набор взаимодействующих друг с другом объектов встроенного языка, что позволяет разработчику использовать его составные части в произвольной комбинации в любом прикладном решении. Встроенные объекты позволяют легко организовать интерактивную настройку параметров анализа пользователем, а также позволяют выводить результат анализа в удобной для отображения форме в табличный документ.

Механизм позволяет работать как с данными, полученными из информационной базы, так и с данными, полученными из внешнего источника, предварительно загруженными в таблицу значений или табличный документ:

Применяя к исходным данным один из видов анализа, можно получить результат анализа. Результат анализа представляет собой некую модель поведения данных. Результат анализа может быть отображен в итоговом документе, или сохранен для дальнейшего использования.

Дальнейшее использование результата анализа заключается в том, что на его основе может быть создана модель прогноза, позволяющая прогнозировать поведение новых данных в соответствии с имеющейся моделью.

Например, можно проанализировать, какие товары приобретаются вместе (в одной накладной) и сохранить этот результат анализа в базе данных. В дальнейшем, при создании очередной накладной:

на основании сохраненного результата анализа можно построить модель прогноза, подать ей "на вход" новые данные, содержащиеся в этой накладной, и "на выходе" получить прогноз, - список товаров, которые контрагент Петров Б.С. тоже, скорее всего, приобретет, если их ему предложить:

В механизме анализа данных и прогнозирования реализовано несколько типов анализа данных:

Реализованные типы анализа

Общая статистика

Представляет собой механизм для сбора информации о данных, находящихся в исследуемой выборке. Этот тип анализа предназначен для предварительного исследования анализируемого источника данных.

Анализ показывает ряд характеристик числовых и непрерывных полей. При выводе отчета в табличный документ заполняются круговые диаграммы для отображения состава полей.

Поиск ассоциаций

Данный тип анализа осуществляет поиск часто встречаемых вместе групп объектов или значений характеристик, а также производит поиск правил ассоциаций. Поиск ассоциаций может использоваться, например, для определения часто приобретаемых вместе товаров, или услуг:

Этот тип анализа может работать с иерархическими данными, что позволяет, например, находить правила не только для конкретных товаров, но и для их групп. Важной особенностью этого типа анализа является возможность работать как с объектным источником данных, в котором каждая колонка содержит некоторую характеристику объекта, так и с событийным источником, где характеристики объекта располагаются в одной колонке.

Для облегчения восприятия результата предусмотрен механизм отсечения избыточных правил.

Поиск последовательностей

Тип анализа поиск последовательностей позволяет выявлять в источнике данных последовательные цепочки событий. Например, это может быть цепочка товаров или услуг, которые часто последовательно приобретают клиенты:

Этот тип анализа позволяет осуществлять поиск по иерархии, что дает возможность отслеживать не только последовательности конкретных событий, но и последовательности родительских групп.

Набор параметров анализа позволяет специалисту ограничивать временные расстояния между элементами искомых последовательностей, а также регулировать точность получаемых результатов.

Кластерный анализ

Кластерный анализ позволяет разделить исходный набор исследуемых объектов на группы объектов, таким образом, чтобы каждый объект был более схож с объектами из своей группы, чем с объектами других групп. Анализируя в дальнейшем полученные группы, называемые кластерами, можно определить, чем характеризуется та или иная группа, принять решение о методах работы с объектами различных групп. Например, при помощи кластерного анализа можно разделить клиентов, с которыми работает компания, на группы, для того, чтобы применять различные стратегии при работе с ними:

При помощи параметров кластерного анализа аналитик может настроить алгоритм, по которому будет производиться разбиение, а также может динамически изменять состав характеристик, учитываемых при анализе, настраивать для них весовые коэффициенты.

Результат кластеризации может быть выведен в дендрограмму - специальный объект, предназначенный для отображения последовательных связей между объектами.

Дерево решений

Тип анализа дерево решений позволяет построить иерархическую структуру классифицирующих правил, представленную в виде дерева.

Для построения дерева решений необходимо выбрать целевой атрибут, по которому будет строиться классификатор и ряд входных атрибутов, которые будут использоваться для создания правил. Целевой атрибут может содержать, например, информацию о том, перешел ли клиент к другому поставщику услуг, удачна ли была сделка, качественно ли была выполнена работа и т.д. Входными атрибутами, для примера, могут выступать возраст сотрудника, стаж его работы, материальное состояние клиента, количество сотрудников в компании и т.п.

Результат работы анализа представляется в виде дерева, каждый узел которого содержит некоторое условие. Для принятия решения, к какому классу следует отнести некий новый объект, необходимо, отвечая на вопросы в узлах, пройти цепочку от корня до листа дерева, переходя к дочерним узлам в случае утвердительного ответа и к соседнему узлу в случае отрицательного.

Набор параметров анализа позволяет регулировать точность полученного дерева:

Модели прогноза

Модели прогноза, создаваемые механизмом, представляют собой специальные объекты, которые создаются из результата анализа данных, и позволяют в дальнейшем автоматически выполнять прогноз для новых данных.

Например, модель прогноза поиска ассоциаций, построенная при анализе покупок клиентов, может быть использована при работе с осуществляющим покупку клиентом, для того, чтобы предложить ему товары, которые он с определенной степенью вероятности приобретет вместе с выбранными им товарами.

Использование механизма анализа данных в прикладных решениях

Для ознакомления разработчиков прикладных решений с механизмом анализа данных, на диске «Информационно-технологическое сопровождение» (ИТС) размещена демонстрационная информационная база. В ее состав входит универсальная обработка "Консоль анализа данных", которая позволяет выполнять анализ данных в любом прикладном решении, без доработки конфигурации.

  • Сергей Савенков

    какой то “куцый” обзор… как будто спешили куда то