Квадратная матрица исходных данных. этап. Представление исходных данных в виде матрицы

Пусть имеется матрица данных . Если рассматривать строки данной матрицы какN векторовв пространствеn признаков, то естественно рассмотреть расстояние между двумя некоторыми векторами. Расстояния между всевозможными парами векторов дают матрицурасстояний типа объект - объект.

Напомним, что расстоянием между векторами в пространстве признаков называется некоторая положительная величина d , удовлетворяющая следующим трем аксиомам метрики:

Таким образом, матрица расстояний является симметричной с нулевой главной диагональю. Существуют различные метрики, но наиболее известной вообще и наиболее применяемой в обработке данных, в частности, является евклидова метрика

Часто используется линейная метрика вида

Применение линейной метрики оправдано, когда расстояние определяется как расстояние между домами в городе по кварталам, а не напрямик. Возможны и другие виды расстояний.

Часто рассматривается величина, обратная в некотором смысле расстоянию - близость. На практике часто используют функции близости вида

или ,

где определяет крутизну функции близости. Очевидно, что матрица близостей также является симметричной с единичной главной диагональю, так как.

Если рассмотреть признаки как n векторов вN -мерном пространстве объектов, то получим другое преобразование матрицы данных в матрицутипа признак - признак. Элементомтакой матрицы является значение расстояния или близости между признакамиX i иX j . Наиболее распространено представление в виде матрицы близостей между признаками, где под близостью понимается, например, корреляция соответствующих признаков.

Рис. 1.8. Диагонализация матрицы связей.

Легко заметить, что содержательные задачи на матрице данных интерпретируются на квадратных матрицахикак выделение блочно - диагональной структуры путем одновременной перегруппировки строк и столбцов. Тогда в каждом диагональном блоке группируются элементы, близкие в соответствующем пространстве и далекие от элементов других блоков. Такая задача группировки известна как задача диагонализации матрицы связей (рис. 1.8). Задача о диагонализации матрицы связей является наиболее общей для матриц связей произвольной природы. Особенно интересным является случай, когда матрица связей является корреляционной матрицей. Именно для этого случая разработаны и широко применяются на практике специальные алгоритмы, известные как алгоритмы экстремальной группировки признаков (параметров).

1.6. Измерение признаков

Мы рассмотрели представление данных в виде матрицы объект-признак. Зададимся вопросом от том, как была получена матрица данных. Очевидно, что данные были получены в ходе эксперимента. По экспериментом обычно понимают: анкетирование в социологии; измерение характеристик некоторого процесса в промышленности; измерения, проводимые на специальной установке в научном исследовании; выявление мнения экспертов по некоторой проблеме (экспертиза) и т.д.

Таким образом, данные получают в результате измерения некоторых свойств объектов. Для того, чтобы провести измерение, должны присутствовать собственно объекты с интересующими нас физическими свойствами и измерительное устройство. Заметим, что объекты обладают обычно самыми разными свойствами. В результате измерения фиксируются только некоторые свойства объекта и не учитываются многие другие. Следовательно, в матрице данных содержится заведомо неполная информация об объектах исследования.

Например, объекты могут оказаться эквивалентными по весу или длине, если значения таких характеристик присутствуют в матрице данных как значения соответствующих признаков. Те же объекты могут оказаться совершенно различными по цвету или форме. Но это различие никак не отразится на результатах обработки, если эти свойства не были представлены в матрице данных в виде значений соответствующих признаков.

Под измерительным устройством может пониматься не только некоторый прибор, но и человек, например, респондент, отвечающий на вопросы некоторой анкеты. Важно, чтобы измерительное устройство было способно изменить свое состояние в ответ на изменение состояния объекта. Очевидно, что измеряющая способность устройства зависит от того, насколько структурированы свойства объектов.

Простейшая структурированность свойств объектов позволяет судить о совпадении или различии состояний. Для представления такой довольно грубой структуры не обязательно использовать числа, так как словами можно легко обозначить факт простого совпадения состояний или их различия. Таким образом, язык можно использовать для выражения классификационных понятий, совокупность которых образует шкалу наименований или номинальную шкалу.

Во многих случаях структурированность свойств выражается естественным упорядочением различающихся состояний, например, по степени проявления некоторого свойства. В этих случаях язык можно использовать для формирования довольно грубой шкалы порядка. Например, различие может выражаться с помощью сравнительных понятий типа “горячий - теплый - холодный - ледяной”.

Очевидно, что очень важно точно описать структуру измеряемых свойств. Лингвистическое - с помощью языка - различение близких проявлений свойств и их упорядоченности часто слишком грубо, поэтому требуются более тонкие градации. Возможность более тонких измерений предоставляется при использовании действительных чисел вместо слов. Таким образом, признаки, значения которых измеряются в шкалах наименований или порядка, называются качественными. Признаки, значения которых измеряются в числовых, то есть количественных шкалах, называются количественными.

Свойства различных типов признаков и шкал изучаются в теории измерений, поэтому рассмотрим более подробно основные понятия теории измерений.

Этапы кластерного анализа (1-2)

Рассмотрим этапы кластерного анализа с позиций математического содержания и методики.

этап. Представление исходных данных в виде матрицы

На первоначальном этапе исходные данные представляются в виде матрицы. Очевидно, что матрица может иметь как прямоугольную, так и квадратную форму.

Прямоугольная матрица исходных данных в многомерном статистическом анализе чаще упоминается как матрица "объект – свойство" и является наиболее распространенной формой представления исходных данных.

В табл. 10.2 наглядно изображена в общем виде прямоугольная матрица исходных данных с п элементами – объектами исследования. В этом качестве могут выступать предприятия машиностроения, коммерческие банки, студенты университета, которые описываются посредством k признаков.

В матрице значение Ху соответствует г-му объекту, который характеризуется j- м показателем, где г = 1,2,..., n,j= 1,2,..., к.

Таблица 10.2

Прямоугольная матрица исходных данных

(элемент)	Переменная
(элемент)



п

В случае если мы производим попарные сравнения объектов по некоторому свойству, матрица исходных данных представляет собой квадратную матрицу. Например, расстояние между городами России, результаты футбольного матча между командами и т.п. В табл. 10.3 представлена квадратная матрица исходных данных, у которой число строк и столбцов одинаково.

Таблица 10.3

Квадратная матрица исходных данных

		Объекты (элементы)
			п
(элементы)


	п

В многомерном статистическом анализе такая матрица называется "матрицей парных сравнений". Представим содержание таблицы в виде матрицы

(10.1)

где i=l,2,..., п; т = 1,2,..., п; Ху – результат сравнения г-го объекта с т -м объектом.

На результаты вычислений при кластерном анализе оказывает влияние то, какие используются единицы измерения и какую величину (масштаб) имеют переменные. Устранить зависимость переменных от единиц измерения и масштаба позволяет процедура стандартизации исходных данных. Таким образом, переменные приобретают одинаковый вес при кластеризации.

В ходе стандартизации осуществляется переход от матрицы исходных данных xj к матрице стандартизированных значений z,y. Чаще всего используется формула перехода:

где Xj – среднее значение у-го признака; σ, – среднее квадратическое отклонение у-го признака.

Среднее значение у-го признака рассчитывается по следующей формуле:

где п – число элементов (объектов).

Среднее квадратическое отклонение у-го признака рассчитывается как:

При процедуре стандартизации все числовые пропорции сохраняются, но все переменные не имеют единиц измерения. Это позволяет проводить с ними вычислительные операции, как для переменных, имеющих одинаковые единицы измерения.

В том случае, если исходные переменные имеют одинаковые единицы измерения, проводить стандартизацию нет необходимости.

этап. Определение сходства объектов

Определение сходства объектов связано с понятием однородности объектов. Определение критерия однородности объектов является наиболее трудным этапом кластерного анализа и в связи с этим наименее формализованным в задаче автоматической классификации. Однородность объектов определяется мерой степени близости (сходства) объектов или различия между объектами.

В качестве меры различия чаще используется расстояние между объектами, обозначаемое как du (от слова "distance"), обеспечивающее более простой алгоритм действий. К тому же этот алго

ритм хорошо реализован в компьютерных программах, таких как Statistica, SPSS и др.

В зависимости от исходных данных может быть использован тот или иной вид расстояний. Важно отметить, что критерием выбора вида расстояния является правильная (точнее сказать адекватная) интерпретация профиля (особенностей) кластеров.

7.6. Латентно-структурный анализ (ЛСА) Лазарсфельда

7.6.1. Простейший вариант ЛСА: вход и выход

Рассмотрим частный случай ЛСА - тот, который в свое время был предложен самим Лазарсфельдом. Перейдем к его описанию, подчеркнув, что тех ограничений, к перечислению которых мы переходим, при настоящем состоянии техники ЛСА можно и не делать (о развитии ЛСА можно прочесть в [Гибсон, 1973; Дегтярев, 1981, Ι995; Лазарсфельд, 1966, 1973; Осипов, Андреев, 1977, с. 140-151; Статистические методы анализа..., 1979, с. 249-266; Типология и классификация..., 1982, с. 99- 111; Lazarsfeld, Henry, 1968]; о некоторых аспектах применения этого подхода в социологии см. также [Батыгин, 1990; Социальные исследования..., 1978, с. 15]).

В своих работах Лазарсфельд неоднократно упоминает о том, что его подход имеет самое непосредственное отношение к теории тестов. Начнем описание ЛСА в соответствии со сформулированными выше принципами тестовой традиции.

Итак, мы предполагаем, что имеется совокупность респондентов, для которых существует одномерная латентная номинальная переменная с заданным числом градаций к. Пусть для определенности к = 2. Имеется анкета с N дихотомическими вопросами. Предполагается, что вопросы подобраны таким образом, что респонденты с разными значениями латентной переменной почти всегда по-разному будут отвечать на вопросы анкеты, а с одним и тем же значением - как правило, будут давать примерно одинаковые ответы. Предположим также, что за счет этого связь между наблюдаемыми переменными можно объяснить действием латент-ной переменной.

Приведем пример. Пусть наши респонденты - московские студенты, латентная переменная - их отношение к будущей специальности. Вопросы имеют примерно такой вид:

1) Часто ли Вы посещаете библиотеку (не реже раза в неделю)?

2) Имеется ли у Вас домашняя библиотека из книг по специальности (не менее 10 книг)?

3) Читали ли Вы когда-нибудь книгу по специальности по собственной инициативе, без рекомендации ее преподавателем?

4) Были ли у Вас двойки на экзаменах?

5) Случалось ли Вам, присутствуя на лекции, слушать плейер?

6) Часто ли Вы пропускаете лекции (более трех лекций в неделю)?

Ясно, что студенты, мечтающие о работе по приобретаемой специальности, будут на первые три вопроса давать, как правило, положительные ответы, а на последние три - отрицательные. А для студентов, равнодушно или негативно относящихся к выбранной специальности, будет иметь место обратная картина.

Ясно также, что между рассматриваемыми наблюдаемыми переменными будет иметься статистическая связь и что ее, всего вероятнее, можно будет объяснить действием латентной переменной. Это проявится в том, что при фиксации значения латентной переменной эта связь пропадет. Заметим, что это, уже неодно-кратно упоминаемое нами положение, Лазарсфельд первым четко сформулировал и назвал аксиомой локальной независимости.

Исходной информацией для ЛСА служат частотные таблицы произвольной размерности (размерность таких таблиц зависит от заданного числа значений латентной переменной). Обозначим через р. - вероятность положительного ответа наших респондентов на /"-й вопрос (долю респондентов, давших такой ответ); через р.. - вероятность положительных ответов одновременно и на /"-й, и на у"-й вопросы; через ρ к - вероятность положительных ответов одновременно на г"-й, у"-й и к-й вопросы и т. д.

Те же буквы с индексом 1 наверху (р/, />..", ρ к") будут обозначать соответствующие частоты для первого латентного класса, с индексом 2 наверху (pf, ρ 2 , pjjk) - то же для второго латентного класса.

р.-к - вероятность положительного ответа на /-й и к-й вопросы и одновременно - отрицательного ответа на у"-й вопрос.

V, V2 - доли латентных классов в общей совокупности респондентов.

Рассмотрим произвольный набор ответов на вопросы анкеты, например, +н-I-К Через Ρ (1/+-Ι-ι--Н) обозначим вероятность того, что респондент, давший набор ответов +н-\- + , попал в первый латентный класс, а через Ρ (2/+Η-I-Η) - то же, для второго латентного класса.

Для описания исходных данных и результатов применения ЛСА прибегнем к "кибернетической" терминологии. Вход ЛСА.

Частоты любой размерности:p., p.., pjjk. Другими словами, ЛСА работает с частотными таблицами. Это не может не привлекать социолога: метод может работать со шкалами любых типов.

Выход ЛСА.

а) Аналогичные частоты для каждого латентного класса. В нашем случае с двумя латентными классами это будут частоты вида Р/>Р,/,Р„к""Р/,Р/,Р1]к2-

Эти совокупности частот могут рассматриваться как описания латентных классов. Анализ таких описаний может послужить для уточнения представлений о той латентной переменной, существование которой априори постулировалось, в частности, может привести исследователя к выводу о том, что ей следует дать другое название (ср. наши рассуждения о понятии "латентная переменная" в п. 1.1). Подчеркнем, что такая возможность, с одной стороны, выгодно отличает подход Лазарсфельда от остальных рассмотренных нами методов одномерного шкалирования (скажем, при использовании шкал Лайкерта или Терстоуна даже не ставится вопрос о том, что переменная может быть другой), а с другой, приближает к таким методам поиска латентных переменных, как факторный анализ и многомерное шкалирование (там проблема интерпретации осей одна из центральных). Представляется, что это характеризует ЛСА как более адекватный подход, чем другие методы одномерного шкалирования. В процессе использования последних мы фактически не считаем ту переменную, значения которой ищем, латентной - мы знаем, что это за переменная, не умеем только ее измерять "в лоб". А в случае ЛСА мы допускаем" неадекватность наших априорных представлений о сути (названии) латентной переменной. И это, на наш взгляд, ближе к тем реальным ситуациям, с которыми обычно имеет дело социолог.

Приведем пример. Положительные ответы на первые три приведенных выше вопроса могут отражать не любовь к будущей специальности, а послушание "пай-девочек" интеллигентных родителей, имеющих схожую специальность. Положительные же ответы на последние три вопроса - напротив, - самостоятельность сознательно выбравших будущую специальность молодых интеллектуалов, отрицающих необходимость для них прослушивания каких-то устаревших курсов, умеющих быстро наверстать пропущенные занятия, позволяющих себе иногда "расслабиться". Ясно, что в такой ситуации полное распределение ответов на все вопросы в найденных латентных классах может помочь исследователю скорректировать наименование латентной переменной.

Упомянем еще об одной возможной трактовке получаемых в результате применения ЛСА частотных распределений для каждого латентного класса. Каждое такое распределение можно интерпретировать как отражение той "плюралистичное™" мнений одного респондента, о которой мы говорили при обсуждении шкал Терстоуна. Можно считать, что это то самое распределение, которое отвечает одному респонденту, попавшему в соответствующий латентный класс (правда, как мы увидим ниже, ЛСА дает возможность судить лишь о вероятности такого попадания).

б) Относительные объемы классов. В нашем случае - V и V2.
Эта информация, помимо прочего, тоже может способствовать
корректировке представлений исследователя о латентной пере-
менной. Заметим (и это пригодится при решении приведенных
ниже уравнений), что V + V2 = 1.

в) Вероятность Ρ (1/++-+-+) попадания объекта, давшего
набор ответов ++-I-Ь, в первый латентный класс и аналогичная
вероятность Ρ (2/++-+-+) - для второго латентного класса.

Это самое серьезное отличие ЛСА от других методов одномерного шкалирования. Представляется, что именно это отличие в наибольшей степени делает ЛСА более адекватным методом, чем другие рассмотренные подходы к построению шкал. Способ измерения с помощью анкетных опросов по своей сути довольно "груб", в силу чего даже самые "благоприятные" ответы респондента не обязательно означают его включенность в соответствующий этим ответам латентный класс. Лазарсфельд действует более тонко: говорит только о вероятности такой включенности. Именно здесь проявляется в наибольшей степени желание Лазарсфельда следовать критериям, принятым в естественных науках. Использование подобных вероятностных соотношений в этих науках общепринято. Такой подход является естественным и для самой математической статистики (социологу не мешает приглядываться к тому, что делают математики; иногда они вследствие профессиональной склонности к обобщениям предлагают более жизненные, хотя, может быть, и более сложные постановки задач, чем социолог).

7.6.2. Модельные предположения ЛСА

Вернемся к не раз упомянутой выше "кибернетической" схеме, отражающей процесс производного измерения. Наши вход и выход связаны соотношением:

Базы данных" href="/text/category/bazi_dannih/" rel="bookmark">базе данных величин (формирующих вход) получить искомые (выход), надо задать правила, выражающие вторые через первые (например, составить соответствующие уравнения). Каковы же соответствующие модельные представления? Сформулируем соотношения,"лежащие в основе ЛСА.

"Невооруженным" глазом видно, что количество неизвестных величин настолько превышает количество известных, что вряд ли в принципе возможно составление решаемых уравнений. Чтобы сократить количество неизвестных, вспомним аксиому локальной независимости: фиксация значения латентной переменной приводит к исчезновению связи между наблюдаемыми (это и означает, что латентная переменная объясняет связи между наблюдаемыми).

Как мы уже говорили, независимость наших/-й и у"-й переменных означает справедливость соотношения (7.2).

Ясно, что это равенство, вообще говоря, будет неверным, поскольку ответ на один вопрос (скажем, о том, имеет ли респондент библиотеку) зависит от его ответа на другой вопрос (скажем, читает ли он по собственному желанию книги по будущей профессии). А вот для лиц, принадлежащих к одному латентному классу, в соответствии с аксиомой локальной независимости подобное соотношение будет справедливым:

Pj^P"p", P?=pfpf.

Нетрудно видеть, что использование этих соотношений позволяет резко сократить количество неизвестных: если мы найдем р! и р.1, то величину pJ можно будет не искать, поскольку ее легко выразить через первые две вероятности (относительные частоты). То же можно сказать и о других многомерных частотах.

Для того чтобы понять, каким образом можно составить требующиеся уравнения, вспомним формулу полной вероятности:

расплывчатых" классификаций, что, однако, может быть не адекватно реальности. Этот недостаток покрывается тем, что мы лишь указываем вероятность принадлежности того или иного респондента к определенному классу, а не вычисляем точное значение латентной переменной для этого респондента.

В системе (7.3) слева - известные величины, справа - неизвестные. Ее можно решить. Мы не будем заниматься этим, отослав читателя к упомянутой в начале предыдущего параграфа литературе.

Осталось описать способ, с помощью которого рассчитываются упомянутые вероятности. Этот способ опирается на так называемую формулу Байеса: P(a/b) = (Р(а) Р(Ь/а))/Р (Ь). Здесь она превращается в

(Полагаем, что сказанное в настоящем параграфе лишний раз убедило читателя в том, что социологу необходимо знать элементы теории вероятностей).

В заключение обсудим, как же в случае ЛСА решаются сформулированные нами в п. 7.3.3 проблемы построения индексов (искомая с помощью ЛСА латентная переменная тоже своеобразный индекс).

Первую проблему ЛСА не решает: существование латентной переменной в ЛСА постулируется. Правда, представление о ней может быть скорректировано за счет анализа полученных в процессе применения метода описаний каждого латентного класса (совокупности людей, имеющих одно и то же значение латентной переменной), т. е. вычисления вероятностных распределений ответов попавших в класс респондентов на все рассматриваемые вопросы.

Наши второй и третий вопросы снимаются следующим образом. Точные значения латентной переменной для отдельных респондентов не вычисляются. Вместо этого: а) дается описание каждого латентного класса и б) для каждого возможного набора ответов на вопросы анкеты вычисляется вероятность попадания давшего эти ответы респондента в любой из латентных классов.

Тип шкалы латентной переменной в ЛСА постулируется. В рассмотренном простейшем варианте метода переменная была номинальной. Как мы уже оговаривали, в более современных (но и гораздо более сложных) вариантах метода латентная переменная может быть получена по шкале любого типа, предусматривается также ее многомерность.

Глава 8. ПСИХОСЕМАНТИЧЕСКИЕ МЕТОДЫ В СОЦИОЛОГИИ

Мы уже говорили о том, что социолог, желающий адекватно оценивать мнение респондента, должен "дружить" с психологией. Надеемся, что читатель убедился в этом при рассмотрении в предыдущем разделе некоторых аспектов использования в социологии тестового подхода. Перейдем к изучению еще одного способа осуществления опроса, опирающегося на достижения психологии.

Прежде всего о том, что такое психосемантика. Как известно, семантика - это "раздел языкознания и логики, в котором исследуются проблемы, связанные со смыслом, значением и интерпретацией знаков и знаковых выражений". [Быстрое, 1991, с. 275]. Психосемантика же изучает психологическое восприятие человеком значений и смыслов разного рода объектов (в том числе понятий, а также знаков и знаковых выражений), процесса интерпретации им этих объектов. В нее входят разные направления, в определенной мере отличные друг от друга и по решаемым задачам, и по подходам к их решению. Наряду с методом семантического дифференциала (СД), подробно рассматриваемым в п. 8.3, сюда можно отнести метод репертуарных решеток [Дубицкая, Ионцева, 1997; Тарарухина, Ионцева, 1997; Толстова, 1997; Франселла, Баннистер, 1986] и некоторые другие подходы [Баранова, Ι; Петренко, 1983, 1988; Ка-чанов, Шматко, 1993; Шмелев, 1983]). Одна из основных задач психосемантики - построение так называемого семантического пространства, т. е. нахождение системы тех латентных факторов, в рамках которых респондент "работает", так или иначе оценивая какие-либо объекты. Необходимо подчеркнуть, что респондент, как правило, не дает себе отчета в существовании этих факторов. Семантическое пространство по существу является исследовательской моделью структуры индивидуального сознания, на основе которой происходит восприятие респондентом объектов, их классификация, сравнение и т. д.

Иногда психосемантические методы относят к проективной технике. "Особенность проективных процедур в том, что стимулирующая ситуация приобретает смысл не в силу ее объективного содержания, но по причинам, связанным с субъективными наклонностями и влечениями испытуемого, т. е. вследствие субъективированного, личностного значения, придаваемого ситуации испытуемым. Испытуемый как бы проецирует свои свойства в ситуацию" [Ядов, 1995, с. 190].

Наряду с методом СД к проективной технике относят и другие процедуры: метод незаконченных предложений, изучение разного рода ассоциаций респондентов по поводу заданного стимула и т. д. [Соколова, 1980; Ольшанский, 1994, с. 111 - 112; Ядов, 1995, с. 190-193].

Как отмечается в [Ядов, 1995, с. 193], "обоснованность проективных процедур определяется прежде всего теоретическими посылками, руководствуясь которыми исследователь истолковывает данные". Сделаем некоторые предварительные замечания соответствующего плана, касающиеся основного интересующего нас в данной работе психосемантического метода, - СД.

Метод СД направлен не только на поиск семантического пространства и анализ лежащих в его основе факторов, но и на изучение взаимного расположения объектов в этом пространстве (т. е. различий в восприятии объектов рассматриваемым респондентом). Для социолога круг задач, решаемых с помощью СД, более широк - его интересы требуют нахождения усредненных показателей соответствующего рода; выделение типов людей, обладающих сходным восприятием рассматриваемых объектов.

По существу мы здесь имеем дело с одним из частных случаев той глобальной задачи, о которой говорили в первом разделе-(п. 3.2): метод СД позволяет с помощью жесткого формализованного опроса получить более или менее адекватную информацию о довольно тонких психологических структурах восприятия человеком окружающего мира. И снова для того, чтобы в нашем "более или менее" было больше "более", чем "менее", требуется тщательное отслеживание той модели, которая дает нам возможность соединить несоединимое. Это мы и намереваемся сделать ниже.

Основой той психологической теории, на которой базируется метод СД, служат понятия "значение" и "смысл". Этим понятиям, а также их различению уделяется огромное внимание в психологической, психосемантической, психолингвистической литературе [Дридзе, 1984; Леонтьев, 1974, 1983; Ольшанский, 1994;

Соколова, 1994]. Мы не будем их подробно рассматривать. Отметим только, что оба понятия отражают общественный опыт, усваиваемый индивидом. Оба являются результатом определенной организации (классификации) сознанием человека того потока впечатлений, который последний получает от окружающего мира. Но первое отвечает коллективному опыту людей (так, ребенок присваивает готовые, исторически выработанные значения), а второе - опыту отдельного субъекта, это как бы внутренне мотивированное значение для субъекта. Первое в большей мере соответствует классификации когнитивного характера (логике ума), а второе - аффективного (логике чувств). Однако структуры и значений, и смыслов сложны. В частности, в обеих можно выделить и когнитивный, и аффективный компоненты. Нас в основном будет интересовать эмоциональная сторона смыслов, приписываемых респондентами тем или иным объектам.

8.2. Семантический дифференциал (СД) 8.2.1. Постановка задачи Осгудом

Метод СД был предложен группой американских психологов во главе с Ч. Осгудом в 1957 г. . На русском языке описание метода СД можно найти в [Осгуд, Суси, Танненбаум, 1972; Осипов, Андреев, 1977; Ядов, 1995]. Обзор лежащих в том же русле подходов можно найти в [Родионова, 1996].

С помощью применения соответствующей техники достигаются следующие цели: 1) раскрытие аффективных компонент смыслов, вкладываемых людьми в те или иные объекты (явления, понятия); 2) выявление тех факторов, которые определяют смысловую значимость объектов для каждого человека; пространство, образуемое этими факторами, и является тем самым семантическим пространством, в которое респондент как бы помещает объект, оценивая его каким-либо образом; 3) определение различий в восприятии человеком разных объектов; собственно, возможность решать именно эту задачу и дало наименование рассматриваемому методу: речь идет о различии (дифференциале) объектов в семантическом пространстве; 4) выделение типов людей, имеющих сходную картину изучаемых смыслов, сходные психосемантические пространства; соответствующие усредненные смыслы интерпретируются как значения объектов для субкультуры, отождествляемой с рассматриваемым типом людей.

Предложив метод СД, его авторы предложили тем самым операциональный способ "улавливания" столь тонкой материи, как эмоциональная сторона смысла, вкладываемого индивидом в рассматриваемые объекты. Как любой способ такого рода, он опирается на определенную модель, определенные теоретические представления исследователя о том, каким образом искомые, не поддающиеся непосредственному измерению психологические "флюиды" могут проявиться во внешнем поведении индивида. И как всегда, упомянутое внешнее поведение для нас проявляется в ответах этого индивида на определенные предложенные ему вопросы. Другими словами, здесь, как и выше, мы хотим получить невербальную информацию вербальными методами.

Сам Осгуд использовал терминологию, несколько отличную от описанной выше: вместо термина "личностный смысл" Осгуд пользовался достаточно близким понятием "коннотативное значение", противопоставляя его денотативному. При этом он полагал, что денотативное отражает объективный аспект познания, а коннотативное - субъективные, индивидуальные ценности. Коннотативные признаки метафоричны по своей природе. Они характеризуют восприятие субъекта, а не описывают объект оценки. И именно коннотативные признаки служат основой той модели, которую мы коротко охарактеризовали выше. Поясним на примере смысл введенных определений.

Оценивая какого-либо человека, мы можем анализировать, является ли он умным или глупым, толстым или тонким и т. д. Это - денотативные признаки (человек действительно обладает соответствующими качествами в буквальном их смысле; хотя наша оценка может быть субъективной: скажем, мы можем необъективно оценить умственные способности человека). А можем выяснять, является ли тот же человек мягким или твердым, горячим или холодным и т. д. Ясно, что при этом мы не будем иметь в виду измерение жесткости по известной шкале твердости Мосса (у всех людей твердость в этом смысле одинакова), а измерение температуры - с помощью градусника (все имеют температуру 36,6). Значит, в этом случае мы имеем дело с коннотативными признаками. Метафора налицо.

Предложенный Осгудом подход опирался на изучение явления синестезии (синестезиса) - мышления по аналогии, возникновения одних чувственных восприятий под воздействием других. Процесс синестезии знаком каждому человеку. Под влиянием определенных наборов звуков (музыкального произведения) у человека возникают определенные зрительные представления, знакомый запах может внезапно вызвать из памяти знакомую звуковую или зрительную картину и т. д.

Явление синестезии отражается в любом языке: мы говорим о горячем сердце, твердом характере и т. д. (правда, используя подобные термины, надо быть осторожными: в разных культурах "коннотативная" интерпретация одного и того же признака может быть разной; так, у некоторых кавказских народностей термин "железный" применительно к характеру человека означает его мягкость в противовес стальному, твердому характеру). Соответствующие психологические аспекты и были использованы Осгудом.

Расматриваемый подход предполагает, что смысл (точнее, его эмоциональный компонент), вкладываемый человеком в то или иное понятие, может обнаружиться, если этот человек укажет на положение рассматриваемого понятия в системе некоторых коннотативных признаков. Например, пытаясь выявить истинное ("смысловое", точнее эмоционально-смысловое) отношение респондента к тому или иному политическому лидеру, можно спросить, каким ему представляется этот лидер: теплым или холодным, пушистым или колючим и т. д. (при этом, конечно, не предполагается, что лидер может иметь температуру 48° или что у него могут расти иглы, как у ежа). Множество коннотативных признаков рассматривается как система: только вся совокупность ответов респондента на все вопросы предлагаемой анкеты может говорить о смысле объекта для респондента, о положении этого объекта в соответствующем семантическом пространстве. О различии же объектов может говорить только вся совокупность различий по отдельным координатам этого пространства.

Кроме того, Осгуд полагал, что, выделяя какой-либо объект из окружающего мира, определяя свое к нему отношение, каждый человек пользуется системой биполярных признаков. Отсюда - предложение строить систему коннотативных признаков в виде пар полярных терминов, каждый из которых отвечает одному концу соответствующего признаку психологического континуума, или, как мы будем говорить, одному полюсу признака.

Для того чтобы было более ясно, о чем идет речь, опишем подробнее технику СД.

8.2.2. Техника СД

Итак, исследователя интересует аффективная составляющая смыслов, придаваемых респондентами некоторым объектам. Составляется множество пар терминов (Осгудом было придумано несколько сот таких пар), каждая из которых отвечает некоторому коннотативному непрерывному признаку (термины из соответствующей пары отвечали его полюсам): горячий - холодный, хороший - плохой, грязный - чистый и т. д. Диапазон изменения каждого такого признака разделяется на 7 частей, тем самым признаку ставится в соответствие семизначная шкала.

Чтобы было ясно, чему должны отвечать градации нашей семизначной шкалы, заметим, что, скажем, паре"светлый - темный" соответствуют примерно следующие выражения и шкальные значения:

очень светлый 3 не очень темный -1
светлый 2 темный -2

не очень светлый 1" очень темный -3

ни светлый, ни темный О

Как мы увидим ниже, в анкете не обязательно осуществлять все подобные расшифровки пунктов шкалы, равно как не обязательно использовать именно названные числа: можно брать числа от 1 до 7 и т. д. Более того, иногда можно изменить количество градаций: скажем, прибегнуть к пятибалльной шкале. Вопрос о количестве используемых градаций неотделим от вопроса о типе используемых шкал, который мы теперь хотим затронуть.

Часто о шкалах, задействованных в методе СД, по вполне понятным причинам говорят как о порядковых. Но та обработка, которую предполагает техника СД, фактически рассчитана на интервальные шкалы (речь идет об использовании факторного анализа, применении "числовых" алгоритмов классификации и т. д.). Выше (в пп. 5.2.3 и 7.5.1) мы уже говорили о том, что при достаточно большом количестве используемых градаций предположение об интервальное™ задействованных шкал может быть вполне допустимым. Этим и можно воспользоваться для оправдания указанного шага.

Опрос осуществляется следующим образом. Респондентам по очереди предъявляются для оценивания рассматриваемые объекты и предлагается соотнести интенсивность своего внутреннего ощущения по поводу того или иного объекта по очереди со всеми оценочными шкалами. Каждый объект должен быть оценен каждым респондентом по всем рассматриваемым шкалам.

Приведем пример соответствующего измерительного инструмента, предназначенного для решения одной из конкретных социологических задач методом СД (табл. 8.1). Речь идет об исследовании аффективной составляющей социальной идентичности личности. В качестве объектов идентификации (в нашей терминологии - оцениваемых объектов) выступали важные и близкие человеку социальные общности и группы [Баранова, 1994, с. 208].

объект-признак" приведен в табл. 8.2.

Таким образом, полученная с помощью метода СД информация, будучи компактно размещенной в пространстве, образует трехмерный параллелепипед, осям которого отвечают соответственно респонденты, объекты, шкалы. Если мы опрашивали 500 человек, давали им для оценки 20 объектов и каждый из объектов просили оценить по 50 шкалам, то упомянутый параллелепипед будет иметь размерность 500x20x50.

Существует масса способов, которыми можно анализировать подобную информацию, и соответственно масса задач, которые при этом можно решить. В числе этих задач - те, о которых мы говорили выше. Прежде чем перейти к более подробному их рассмотрению, заметим следующее.

Большинство методов многомерного анализа рассчитаны на то, что исходные данные представлены в виде так называемой матрицы "объект-признак". Это прямоугольная таблица, строки кото-

Матрица "объект-признак" двумерна. Методы, позволяющие на основе анализа такой матрицы выявлять скрытые в ней статистические закономерности, направлены на ее "сжатие". Так, факторный анализ сжимает матрицу по столбцам: мы выделяем "пучки" связанных друг с другом признаков, усматривая за каждым из них действие одного латентного фактора, который можем выразить через наблюдаемые переменные (об этом мы говорили в п. 7.2). Методы классификации сжимают матрицу по строкам: мы объединяем схожие между собой объекты в кластеры, олицетворяя каждый такой кластер с неким типичным для него объектом и т. д.

У нас же совокупность исходных данных трехмерна. Для того чтобы можно было говорить о применении традиционных методов многомерного анализа, необходимо устранить третье измерение. Сделать это можно по-разному. Способ зависит от решаемой задачи. Прежде всего рассмотрим, как анализировал описанные данные сам Осгуд.

8.2.3. Факторы восприятия, выделенные Осгудом

Прежде всего заметим, что мы можем рассмотреть данные, отвечающие одному респонденту. Они образуют матрицу именно нужного вида: ее строки отвечают оцениваемым объектам, столбцы - шкалам. Ясно, что найти глубинные факторы, определяющие восприятие рассматриваемым индивидом изучаемых объектов, можно с помощью факторного анализа. Он даст нам возможность отыскать те скрытые пружины, которые объясняют связи между шкалами. Каждый фактор будет отвечать "пучку" коррелирующих друг с другом шкал.

Именно это было проделано Осгудом. Полученные выводы носили примечательный характер. Применяя факторный анализ к матрицам данных для разных респондентов, предлагая им для оценок разные объекты, используя разные шкалы (разные шкалы были использованы и для более надежной проверки получаемых статистических утверждений, и в силу разного понимания одних и тех же терминов людьми, принадлежащими к разным субкультурам, а Осгуд опрашивал весьма различных респондентов), Осгуд получал одни и те же факторы. Он назвал их оценкой (за этим фактором стояли такие шкалы, как "красивый-некрасивый", "хороший-плохой" и т. д.), силой ("сильный-слабый", "большой-маленький" и т. д.) и активностью ("активный-пассивный", "быстрый-медленный" и т. д.). Иногда выделялись и другие факторы. Но на первом месте всегда стояли оценка, сила и активность. Поскольку Осгудом было проанализировано огромное количество эмпирических данных, можно считать эмпирически обоснованным то положение, что названные три фактора являются основой семантического пространства любого человека.

Вывод действительно примечателен: эмоциональное отношение любого человека к любому объекту (точнее, аффективная составляющая смысла этого объекта для рассматриваемого индивида) определяется тремя компонентами такого отношения - оценкой, силой и активностью. Правда, здесь все же требуется отметить, что, поскольку этот результат доказан не теоретически, а только эмпирически, то, вообще говоря, в каждом конкретном случае он требует своего подтверждения. В некоторых работах выражается сомнение в справедливости (точнее, во "всеохватнос-ти") вывода Осгуда (см., например, [Степнова, 1992]).

Избавиться от трехмерности нашего параллелепипеда можно не только путем рассмотрения одного респондента. Можно усреднить величины, полученные от разных людей, и далее описанным выше способом работать как бы с одним "усредненным" респондентом. Это делал Осгуд. Выводы остались теми же. Отметим, однако, что, вероятно, усреднение данных по достаточно большой и социально значимой совокупности респондентов во многих случаях можно считать переходом от аффективной стороны смыслов к аффективной стороне значений рассматриваемых объектов.

Вторая задача, решенная Осгудом, - это разработка способа определения относительной ценности для рассматриваемого человека разных объектов. Определить различие в восприятии нашим респондентом каких-либо объектов можно, если рассмотреть объекты как точки отвечающего этому респонденту семантического пространства (трехмерного, если используются только три описанных выше латентных фактора) и определить расстояния между ними.

Сделать это можно, если после проведения факторного анализа рассчитать для каждого оцениваемого объекта значения найденных факторов (п. 7.2.2). Близость между объектами обычно рассчитывается традиционным образом - используется так называемое "евклидово расстояние". Поясним, как оно находится, на примере.

Предположим, что у нас есть три оцениваемых объекта, имеющих значения рассматриваемых латентных факторов, указанные в приведенной ниже таблице. Попытаемся выяснить, какой из объектов (2 или 3) ближе по своей ценности к объекту 1 для рассматриваемого респондента (может быть, усредненного), см. табл. 8.3.

Таблица 8.3. Пример таблицы, задающей значения латентных факторов для трех оцениваемых респондентами объектов

Ясно, что Л (1,2) > R (1,3). Другими словами, для рассматриваемого респондента первый и второй объекты по своему смыслу более близки друг к другу, чем первый и третий.

Если мы имеем одно и то же семантическое пространство для нескольких респондентов, то, проведя оценочную процедуру для каждого из них, можно схожим образом определить сравнительную значимость каких-либо объектов для разных индивидов. О всех типах задач, которые можно решать на базе данных, собранных с помощью метода СД, можно прочесть ниже (п. 8.2.4).

Если мы не хотим или не имеем возможности осуществить факторный анализ собранных данных, то можно решить задачи, подобные описанным, находя расположение объектов в семантическом пространстве по-другому. А именно, можно опереться на полученный Осгудом результат, состоящий в том, что латентные факторы - именно те, о которых шла речь выше. Предположим, что мы четко определим, какие шкалы относятся, скажем, к фактору "сила". Допустим, это будут упомянутые выше шкалы "сильный-слабый" и "большой-маленький" (и только они). Пусть некий объект по первой шкале имеет координату 5, а по второй - координату 3. Будем считать, что координатой нашего объекта по фактору "сила" является соответствующее среднее арифметическое (5 + 3)/2 = 4. Это не будет точным значением нашего фактора (как было показано в п. 7.2.2, в линейном факторном анализе значение латентного фактора выражается как некая линейная комбинация наблюдаемых переменных, не обязательно совпадающая с суммой последних). Но опыт показывает, что в ряде ситуаций такое приближение может быть достаточным.

Смысл того или иного преобразования исходных данных заключается в изменении характера эмпирического распределения с тем, чтобы привести его в соответствие с целью исследования. Чаще всего преобразование используется для того, чтобы ослабить влияние экстремальных значений признаков на результаты расчетов, компенсировать влияние возможных ошибок в исходных данных, сделать сопоставимыми изменения значений признака на разных участках шкалы его значений.

Влияние характера распределения на результаты расчетов весьма велико, поэтому при постановке задачи следует особо рассмотреть вопрос о выборе вида преобразования для каждого признака в отдельности.

В социально-экономических исследованиях преобладают ряды, имеющие правую скошенность (т. е. резкий спад частот с ростом значения признака). При работе с такого рода распределениями часто бывает удобным преобразование к логарифмической шкале. Переход от Xj к ряду значений 1 gXj уменьшает интервалы по мере роста значений Такое преобразование широко используется, например, при изучении систем городов. Различия в значениях признаков для крупных городов обычно во много раз превышают соответствующие различия для большого числа средних и мелких городов. Преобразование к логарифмической шкале делает возможным исследование этих данных в одной задаче.

Как правило, признаки, отобранные исследователем для всестороннего описания того или иного явления, имеют различную размерность, а поэтому и- различную единицу масштаба. Чтобы сделать возможным сопоставление признаков и устранить влияние размерности, матрицу исходных данных обычно трансформируют (нормируют), вводя единый для всех признаков масштаб. Самый распространенный вид такой нормировки матрицы данных - приведение к стандартной форме, т. е. переход от значений х^ к

где Xij - значение /-го признака для і-то объекта; Xj - среднее арифметическое значение /-го признака; Sj - среднеквадратичное отклонение /-го признака (Sj2 - дисперсия /-го признака).

Ниже, рассматривая матрицу исходных данных, мы будем иметь в виду матрицу, заданную в стандартной форме, т. е. с элементами гц.

Возможны и другие типы трансформации матрицы. Например,

а _ Xii~X* h ХИ

Z maxfxij}- шіп{д:іі} ИЛИ Z ІЗ ~ И т. д.

Следует отличать преобразование отдельных рядов* с целью привести их в соответствие с. содержательной постановкой задачи от нормировки матрицы в целом. В отличие от подбора вида преобразования индивидуально по каждому признаку матрицу нормируют единым способом.

Следует упоімянуть еще и специальные преобразования, которые служат важным инструментом учета качественной априорной информации об исследуемых данных, непосредственно в исходной матрице данных не содержащейся. К таким преобразованиям относятся различные способы пополнения исходной матрицы данных производными параметрами. Часто в качестве таких новых параметров фигурируют отношения некоторых из исходных параметров, или отношения сумм одних из исходных параметров к суммам других. Нередко используются заранее изученные нелинейные преобразования исходных параметров.

Ниже, рассматривая нормированную матрицу данных (матрицу данных в стандартной форме), будем предполагать, что все специальные преобразования, включая преобразования данных к однородному виду с желаемыми формами распределения статистических рядов отдельных параметров, выполнены до ее нормирования.

Нормирование - последнее преобразование исходной матрицы, непосредственно предшествующее обработке методами факторного анализа.

Таким образом, матрица. исходных данных, подготовленная для факторного анализа, представляет собой совокупность значений п признаков для N объектов. Будем обозначать эту матрицу через ||z Особое внимание должно быть уделено вопросам нормировки исходных данных при решении задачи классификации объектов. В основе анализа вариации переменной лежит понятие среднего значения и отклонения от этой средней. Если в качестве переменной выступает признак, понятие среднего значения имеет четкий содержательный смысл и определяется в тех же единицах измерения, что и признак. На показатели ва риации признака его размерность не влияет. При классификации объектов переменной является объект (страна, город, предприятие и т. д.), не имеющий определенной единицы измерения, поэтому понятие среднего значения здесь в общем случае не поддается интерпретации. Как правило, вариация переменной - объекта- это вариация значений, принимаемых данным объектом по признакам разной размерности, поэтому показатели вариации определяются прежде всего изменением единиц измерения от одного признака к другому. Даже если все признаки выражены в одних и тех же ^ единицах измерения, например в денежном выражении (объем производства в млн. руб., объем розничной торговли в тыс. руб., средний заработок в руб. и т. д.), различия между показателями по масштабу величин проявляются при факторизации.

При факторизации матриц данных, сопоставляющих объекты по значению различных признаков (т. е. при решении задач классификации объектов, при Q-анали- зе), вместо коэффициента корреляции используются особые, специально разработанные коэффициенты , измеряющие степень сходства двух объектов не только по характеру соизменения их значений от признака к признаку, но и по уровню проявления одноименных признаков на этих объектах.

Этой мерой часто пользуются для сравнения объектов в различных методах автоматической классификации и распознавания образов .

Если указанные векторы нормированы так, что их, длины равны одной й той же стандартной величине, например единице:

2 {%ji ^кг)2 "

Наиболее простой мерой для определения сходства двух объектов является эвклидово расстояние r(Xj, Хъ) между векторами-столбцами Xj и хи, определяющими объекты:

то в качестве меры сходства таких нормированных векторов можно выбрать скалярное произведение (хи Xj) векторов хІ и Xj (более подробно различные меры сходства между объектами разбираются в гл. 6). 1.

Еще по теме НЕОБХОДИМЫЕ ПРЕОБРАЗОВАНИЯ МАТРИЦЫ ДАННЫХ:

ФАКТОРНЫЙ АНАЛИЗ КАК ЧАСТЬ ОБЩИХ МЕТОДОВ ОБРАБОТКИ МАТРИЦ ДАННЫХ
КРИЗИС АДМИНИСТРАТИВНО-ПЛАНОВОЙ СИСТЕМ И НЕОБХОДИМОСТЬ ПЕРЕХОДА К РЫНОЧНОЙ СИСТЕМЕ ЗАДАЧИ МАКРОЭКОНОМИЧЕСКОЙ СТАБИЛИЗАЦИИ ПРИ ПЕРЕХОДЕ К РЫНОЧНОЙ СИСТЕМЕ ИНСТИТУЦИОНАЛЬНЫЕ ПРЕОБРАЗОВАНИЯ ПРИ ПЕРЕХОДЕ К РЫНОЧНОЙ СИСТЕМЕ СОЦИАЛЬНАЯ ПОЛИТИКА ПРИ ПЕРЕХОДЕ К РЫНОЧНОЙ СИСТЕМЕ

Исходные данные в пространствах объектов и признаков

Независимо от природы наблюдаемых явлений или процессов в большинстве ситуаций исходные данные представляются в виде матрицы (таблицы) объект-признак, где строками являются объекты, а столбцами - признаки. Под объектом подразумевается любой предмет изучения, например, страна, фирма, регион, студенческая группа и т. п. Признак определяет характеристики рассматриваемого объекта, например, если объектом исследования является фирма, то к числу признаков, ее характеризующих, можно отнести численность персонала, ежемесячный объем расходов и доходов, число контрагентов и другие характеристики. Такая матрица исходных данных имеет вид, показанный на рис. 1.

Рис. 1. Матрица данных объект-признак

Объекты наблюдений представляют собой многомерные величины, для обработки которых используются методы многомерного статистического анализа (МСА). Основой этих методов является геометрическое представление объектов. Исследуемые объекты располагаются в теоретическом пространстве размерностью, соответствующей числу признаков, которыми они характеризуются. В том случае, когда число признаков не превышает трех, возможна визуализация объектов в пространстве признаков. В противном случае возможна лишь математическая идеализация представления объектов в многомерном пространстве, либо необходим переход к некоторым агрегированным признакам, позволяющим снизить размерность наблюдений.

В многомерном пространстве признаки или объекты имеют определенные количественные характеристики. Все принимаемые значения признаков (объектов) представляют собой множества вещественных чисел. При использовании методов МСА необходимо принимать во внимание следующие особенности:

в m-мерном пространстве сохраняют силу принципиальные положения и аксиомы евклидовой геометрии;
в МСА, как правило, используется большое число признаков, разнородных по своей природе. В связи с этим на первом этапе исследования обычно возникает проблема приведения всех признаков к одному основанию: сопоставимому виду. Подобные проблемы решаются нормированием данных, что геометрически означает изменение масштаба, и другими преобразованиями координатной системы.
обработка m-мерных совокупностей включает большое число сложных и трудоемких арифметических операций, поэтому осуществляется на основе пошаговых алгоритмов.

При обработке многомерных данных следует учитывать дуализм представления, так как имеются возможности визуализации как объектов в пространстве признаков, так и признаков в пространстве объектов.

Кроме представления исходных данных в виде матрицы объект-признак, имеются и другие возможности представления. Например, с помощью коэффициента корреляции между признаками, который вычисляется по формуле

где - среднее значение произведения величин признаков x i , x k ; , (- среднее значение признака x i , (x k); s i (s k) - среднеквадратичное отклонение соответствующих признаков, можно представить исходные данные в виде матрицы признак-признак (рис. 2).

Рис. 2. Матрица признак-признак

Эта матрица в отличие от предыдущей имеет размерность . В каждой ячейке матрицы расположены значения коэффициента корреляции между соответствующими признаками; на диагонали матрицы стоят единицы, так как корреляция признака с самим собой максимальна и равна единице. Матрица симметрична относительно своей диагонали. Такая матрица применяется при вычислении главных компонентов.

Сходство или различие между классифицируемыми объектами устанавливается в зависимости от метрического расстояния между ними. Если каждый объект описывается n признаками, то он может быть представлен как точка в n -мерном пространстве, и его сходство с другими объектами будет определяться как соответствующее расстояние. Указанное обстоятельство позволяет перейти к еще одному виду представления исходных данных, а именно, к матрице объект-объект, представляющей собой таблицу расстояний между анализируемыми объектами. В этом случае в каждой ячейке матрицы находится величина расстояния, допустим, евклидова, рассчитываемого по формуле

Здесь x ij , x kj - значения j -го признака, соответственно, у i -го и k -го объектов.

Такая матрица, размерностью , имеет вид, показанный на рис. 3.

Рис. 3. Матрица объект-объект

На диагонали матрицы находятся нули, поскольку расстояние от точки до нее самой равно нулю. Элементы матрицы симметричны относительно диагонали.

Таким образом, исходные данные могут быть представлены в виде матриц трех типов:

матрицы объект-признак;
матрицы признак-признак;
матрицы объект-объект.

Метод главных компонентов

Любое исследование многомерных данных невозможно без использования метода главных компонентов (ГК). Сущность этого метода заключается в снижении размерности данных путем определения незначительного числа линейных комбинаций исходных признаков, которые объясняют большую часть изменчивости данных в целом. Метод ГК связан с переходом к новой системе координат, которая является системой ортонормированных линейных комбинаций. Этот метод дает возможность по n исходным признакам объектов построить такое же количество ГК, являющихся обобщенными (агрегированными) признаками. На первый взгляд, такой переход не дает никакого преимущества в представлении данных, но существует возможность сохранения информации о рассматриваемых данных даже в том случае, если сократить количество вычисленных ГК. Кроме того, при сохранении двух или трех ГК реализуется возможность визуализации многомерных объектов в сокращенном признаковом пространстве. Метод ГК обладает рядом свойств, делающим его эффективным для визуализации структуры многомерных данных. Все они касаются наименьшего искажения геометрической структуры точек (объектов) при их проектировании в пространстве меньшей размерности.

Математическая модель ГК базируется на допущении, что значения множества взаимосвязанных признаков порождают некоторый общий результат. В этой связи при представлении исходных данных, о чем говорилось в предыдущем параграфе, как раз и важна матрица признак-признак, в которой содержится вся информация о попарной связи между признаками. Предположив линейную форму связи между признаками, можно записать в матричной форме уравнение зависимости результата F от признаков Х в виде

где В - вектор параметрических значений линейного уравнения связи.

Условием выполнения такого равенства является соответствие дисперсий, т. е. D (X )= D (XB ). Поскольку Х является многомерной случайной величиной, то ее дисперсионная оценка - это ковариационная матрица S. Постоянная величина В выносится за знак дисперсии и возводится в квадрат, в результате чего получаем D (F )= B " SB .

Первым ГК f 1 (х) набора первичных признаков Х=(х 1 ,х 2 ,…,х n ) называется такая линейная комбинация этих признаков, которая среди прочих линейных комбинаций обладает наибольшей дисперсией. Геометрически это означает, что первый ГК ориентирован вдоль направления наибольшей вытянутости гиперэллипсоида рассеивания исследуемой совокупности данных. Второй ГК имеет наибольшую дисперсию рассеивания среди всех линейных преобразований, некоррелированных с первым ГК, и представляет собой проекцию на направление наибольшей вытянутости наблюдений в гиперплоскости, перпендикулярной первому ГК. Вообще, j –м ГК системы исходных признаков Х=(х 1 , х 2 ,…,х n ) называется такая линейная комбинация этих признаков, которая некоррелирована с (j -1) предыдущими ГК и среди всех прочих некоррелированных с предыдущими (j -1) ГК обладает наибольшей дисперсией. Отсюда следует, что ГК занумерованы в порядке убывания их дисперсий, т.е. , а это дает основу для принятия решения о том, сколько последних ГК можно без ущерба изъять из рассмотрения.

Поиск ГК сводится к задаче последовательного выделения первого ГК с наибольшей дисперсией, второго ГК и т. д. Подобная задача имеет место при условии введения ограничений. Пусть

При максимизируем , используя метод множителей Лагранжа, в результате чего получим

С учетом последнего равенства для характеристического уравнения, позволяющего найти значения j , имеем

где Е - единичная матрица.

Из множества значений характеристических (собственных) чисел j определяем наибольшее 1 и находим соответствующий собственный вектор В 1 , который используется при вычислении первого ГК. Для вычисления второго ГК определяются следующее по величине собственное число 2 и собственный вектор В 2 и т.д.

Если исходную матрицу данных Х предварительно стандартизировать, то матрица ковариаций S перейдет в матрицу парных корреляций R , и вектор B будет собственным вектором по стандартизованным данным U . Решающее уравнение в матричной форме принимает вид

Полученное уравнение называется характеристическим для матрицы R и представляет собой алгебраическое уравнение n -й степени относительно переменной l . Окончательно, соотношения для определения всех n ГК исходного n -мерного вектора Х могут быть представлены в виде

F = B Х.

Отметим основные свойства ГК:

математическое ожидание ГК равно нулю;
ГК некоррелированы между собой;
сумма дисперсий исходных признаков равна сумме дисперсий всех ГК;
значимость каждого ГК убывает с его номером и определяется соответствующим собственным числом.

Учитывая указанные свойства, можно предложить критерий для определения количества ГК, которые полезно оставить в качестве агрегированных признаков. Этот критерий может быть записан в виде

где n * - число оставленных в наборе агрегированных признаков.

Этот критерий достигает максимума, равного единице, только при n *= n .

Вычислительная схема метода главных компонентов

Решение задачи методом ГК сводится к поэтапному преобразованию матрицы исходных данных. Основные шаги метода показаны на схеме, приведенной на рис. 4.

Рис. 4. Вычислительная схема метода главных компонентов

Прокомментируем этапы вычислений. В качестве исходных данных обычно выбирается матрица объект-признак Х . Поскольку характеристиками объектов могут служить признаки различной природы, то данные необходимо стандартизировать, т. е. провести центрирование (вычитание среднего значения) и нормирование (деление на среднеквадратичное значение) данных.

На следующем шаге вычисляется матрица корреляций R между признаками, т.е. осуществляется переход к матрице признак-признак. Диагональные элементы этой матрицы равны единице, а сама матрица симметрична относительно этой диагонали, так как r ij = r ji .

Далее определяется матрица собственных векторов В , которая, также, как и предыдущая, является квадратной и состоит из n строк и n столбцов. Компоненты каждого собственного вектора представлены в виде вектора-столбца, сумма квадратов составляющих которого вследствие ортогональности равна единице.

На следующем этапе проводится расчет матрицы собственных чисел , которая в отличие от предыдущих матриц является диагональной, т. е. здесь только на диагонали матрицы находятся собственные числа: все прочие элементы матрицы равны нулю. Размерность этой матрицы, как и двух предыдущих, составляет . Каждое значение j определяет дисперсию каждого ГК. Суммарное значение равняется сумме дисперсий исходных признаков. При условии стандартизации исходных данных

На последнем шаге вычисляются ГК:

Например, при выборе только первых двух наибольших собственных чисел определяем соответствующие им составляющие собственных векторов (два столбца матрицы В ), которые перемножаем на строки матрицы Х. Перемножение первого столбца матрицы В на первую строку матрицы Х даст значение первого ГК для первого объекта, умножение того же столбца на вторую строку определяет значение первого ГК для второго объекта и т.д. После выполнения таких же операций со вторым выбранным вектором получаем возможность построить все объекты в плоскости первых двух ГК, где их взаимное расположение позволяет сделать предварительные выводы о сходстве (различии) объектов.

Проведение вычислений ГК по приведенной схеме возможно лишь на компьютере, на котором установлен подходящий пакет программного обеспечения из области многомерной статистики. Хотя в литературе и указываются вычислительные методы (в частности, метод Фаддеева), позволяющие определить ГК с помощью калькулятора , на самом деле такой прием возможен лишь в ситуации, когда число признаков не превышает трех. В реальной ситуации число признаков может достигать намного больших значений, поэтому необходима помощь ПК.

Из опыта работы автора наиболее приемлемыми пакетами для расчета ГК могут служить пакеты Statgraphics и Statistica, причем в силу большей простоты предпочтение следует отдать первому. В качестве примера на рис. 5 показан график, где в плоскости первых двух ГК представлена совокупность из 10 объектов, каждый из которых первоначально характеризуется 5 признаками.

Рис. 5. Объекты в плоскости первых двух ГК

Как видно из графика, можно получить некоторые выводы о сходстве (различии) объектов при переходе к сокращенному двумерному пространству. Например, достаточно четко прослеживается деление объектов на две группы (объекты с номерами 1-5 и 6-10) и значительное рассеяние внутри этих групп. Таким образом, от пятимерного признакового пространства с помощью ГК осуществлен переход к двумерному пространству агрегированных признаков и визуализация многомерных объектов.

Версия для печати

Хрестоматия

Название работы	Аннотация