Matrice pătrată a datelor inițiale. etapă. Reprezentarea datelor inițiale sub formă de matrice

Să existe o matrice de date. Dacă considerăm rândurile acestei matrice ca N vectori în spațiu n caracteristici, este firesc să luăm în considerare distanța dintre vreo doi vectori. Distanțele dintre toate perechile posibile de vectori dau o matrice de distanță tip obiect - obiect.

Amintiți-vă că distanța dintre vectori din spațiul caracteristic este o anumită valoare pozitivă d, care satisface următoarele trei axiome metrice:

Astfel, matricea distanțelor este simetrică cu diagonala principală zero. Există diverse metrici, dar cea mai cunoscută în general și cea mai utilizată în prelucrarea datelor, în special, este metrica euclidiană.

.

Este adesea folosită o metrică liniară a formei

.

Utilizarea unei metrici liniare este justificată atunci când distanța este definită ca distanța dintre casele din oraș prin blocuri, și nu direct. Sunt posibile și alte tipuri de distanțe.

Adesea considerată o valoare care este într-un anumit sens reciproca distanței - proximitate. În practică, funcțiile de proximitate ale formei

sau ,

unde  definește abruptul funcției de proximitate. Evident, matricea de proximitate este, de asemenea, simetrică cu o diagonală principală a unității, deoarece.

Dacă luăm în considerare semne ca n vectori în N-spațiul dimensional al obiectelor, apoi obținem o altă transformare a matricei de date într-o matrice de tipul caracteristică - caracteristică. Elementul unei astfel de matrice este valoarea distanței sau a proximității dintre caracteristici X i și X j. Cea mai comună reprezentare este sub forma unei matrice de proximitate între caracteristici, unde proximitatea este înțeleasă, de exemplu, ca corelarea caracteristicilor corespunzătoare.

Orez. 1.8. Diagonalizarea matricei de legături.

Este ușor de observat că sarcinile semnificative din matricea de date sunt interpretate pe matrice pătrată ca selectarea unei structuri bloc-diagonale prin rearanjarea simultană a rândurilor și coloanelor. Apoi, în fiecare bloc diagonal, sunt grupate elemente care sunt apropiate în spațiul corespunzător și departe de elementele altor blocuri. O astfel de problemă de grupare este cunoscută ca problema de diagonalizare a matricei de legături (Figura 1.8). Problema diagonalizării unei matrici de legături este cea mai generală pentru matricele de legături de natură arbitrară. De interes deosebit este cazul când matricea de conexiune este o matrice de corelație. Tocmai pentru acest caz au fost dezvoltați algoritmi speciali și sunt utilizați pe scară largă în practică, cunoscuți ca algoritmi pentru gruparea extremă a caracteristicilor (parametrilor).

1.6. Măsurarea caracteristicilor

Am luat în considerare reprezentarea datelor sub forma unei matrice obiect-atribut. Să ne întrebăm cum a fost obținută matricea de date. Evident, datele au fost obținute în timpul experimentului. Prin experiment, ei înțeleg de obicei: interogarea în sociologie; măsurarea caracteristicilor unui proces din industrie; măsurători efectuate pe o instalație specială într-un studiu științific; dezvăluirea opiniei experților cu privire la o anumită problemă (expertiza), etc.

Astfel, datele sunt obținute ca urmare a măsurării unor proprietăți ale obiectelor. Pentru a efectua măsurarea trebuie să fie prezente obiectele reale cu proprietățile fizice care ne interesează și dispozitivul de măsurare. Rețineți că obiectele au de obicei proprietăți foarte diferite. În urma măsurării, doar unele proprietăți ale obiectului sunt fixate și multe altele nu sunt luate în considerare. În consecință, matricea de date conține informații deliberat incomplete despre obiectele de studiu.

De exemplu, obiectele pot fi echivalente în greutate sau lungime dacă valorile unor astfel de caracteristici sunt prezente în matricea de date ca valorile caracteristicilor corespunzătoare. Aceleași obiecte se pot dovedi a fi complet diferite ca culoare sau formă. Dar această diferență nu va afecta în niciun fel rezultatele procesării dacă aceste proprietăți nu au fost prezentate în matricea de date ca valori ale caracteristicilor corespunzătoare.

Sub dispozitivul de măsurare poate fi înțeles nu numai un anumit dispozitiv, ci și o persoană, de exemplu, un respondent care răspunde la întrebări dintr-un anumit chestionar. Este important ca dispozitivul de măsurare să își poată schimba starea ca răspuns la o schimbare a stării obiectului. Evident, capacitatea de măsurare a dispozitivului depinde de cât de structurate sunt proprietățile obiectelor.

Cea mai simplă structurare a proprietăților obiectului face posibilă judecarea coincidenței sau diferenței stărilor. Pentru a reprezenta o astfel de structură destul de grosieră, nu este necesar să folosiți numere, deoarece cuvintele pot indica cu ușurință faptul unei simple coincidențe a stărilor sau diferențele lor. Astfel, limbajul poate fi folosit pentru a exprima concepte de clasificare, a căror totalitate formează o scară de nume sau o scară nominală.

În multe cazuri, structurarea proprietăților este exprimată prin ordonarea naturală a diferitelor stări, de exemplu, în funcție de gradul de manifestare a unei anumite proprietăți. În aceste cazuri, limbajul poate fi folosit pentru a forma o scară de ordine destul de grosieră. De exemplu, diferența poate fi exprimată folosind concepte comparative precum „cald – cald – rece – înghețat”.

Evident, este foarte important să descriem cu exactitate structura proprietăților măsurate. Distincția lingvistică - cu ajutorul limbajului - între manifestările apropiate ale proprietăților și ordonarea lor este adesea prea grosieră, deci sunt necesare gradări mai fine. Posibilitatea unor măsurători mai fine este oferită prin utilizarea numerelor reale în loc de cuvinte. Astfel, semnele, ale căror valori sunt măsurate în termeni de nume sau ordine, se numesc calitative. Semnele, ale căror valori sunt măsurate în scale numerice, adică cantitative, se numesc cantitative.

Proprietățile diferitelor tipuri de semne și scări sunt studiate în teoria măsurătorilor, așa că să luăm în considerare mai detaliat conceptele de bază ale teoriei măsurătorilor.

Etapele analizei cluster (1-2)

Să luăm în considerare etapele analizei cluster din punct de vedere al conținutului și metodologiei matematice.

etapă. Reprezentarea datelor inițiale sub formă de matrice

În etapa inițială, datele inițiale sunt prezentate sub forma unei matrice. Evident, matricea poate fi dreptunghiulară sau pătrată.

Matricea dreptunghiulară a datelor brute în analiza statistică multivariată este denumită mai frecvent matricea „obiect-proprietate” și este cea mai comună formă de reprezentare a datelor brute.

În tabel. 10.2 este arătat clar în vedere generala matrice dreptunghiulară sursă de date de la P elemente – obiecte de studiu. În această calitate pot acționa întreprinderi de inginerie, bănci comerciale, studenți, care sunt descrise de k semne.

În valoarea matricei Hu corespunde obiectului i, care se caracterizează prin j- indicator m, unde r = 1,2,..., n,j= 1,2,..., la.

Tabelul 10.2

Matrice dreptunghiulară a datelor inițiale

(element)

Variabil

P

Dacă facem comparații perechi ale obiectelor după o anumită proprietate, matricea datelor de intrare este o matrice pătrată. De exemplu, distanța dintre orașele din Rusia, rezultatele meci de fotbalîntre echipe etc. În tabel. 10.3 prezentat matrice pătrată date sursă care au același număr de rânduri și coloane.

Tabelul 10.3

Matrice pătrată a datelor inițiale

Obiecte (elemente)

P

(elemente)

P

În analiza statistică multivariată, o astfel de matrice este numită „matrice de comparație în perechi”. Să reprezentăm conținutul tabelului sub forma unei matrice

(10.1)

unde i=l,2,..., P; t = 1,2,..., P; Hu este rezultatul comparării i-lea obiect cu t -al-lea obiect.

Rezultatele calculelor în analiza cluster sunt influențate de unitățile de măsură utilizate și de mărimea (scara) variabilelor. Eliminarea dependenței variabilelor de unitățile de măsură și scară permite procedura de standardizare a datelor inițiale. Astfel, variabilele capătă aceeași pondere atunci când sunt grupate.

În cursul standardizării, trecerea de la matricea de date inițială xj la matricea standardizate valorile z,y. Cea mai des folosită formulă de conversie este:

Unde Xj este valoarea medie a caracteristicii y; σ, este abaterea standard a caracteristicii y-a.

Valoarea medie a caracteristicii y este calculată folosind următoarea formulă:

Unde P este numărul de elemente (obiecte).

Abaterea standard a caracteristicii y este calculată ca:

În timpul procedurii de standardizare, toate proporțiile numerice sunt păstrate, dar toate variabilele nu au unități. Acest lucru vă permite să efectuați operații de calcul cu acestea, ca și pentru variabilele care au aceleași unități de măsură.

În cazul în care variabilele originale au aceleași unități de măsură, nu este necesară standardizarea.

etapă. Determinarea asemănării obiectelor

Definiția asemănării obiectelor este asociată cu conceptul de omogenitate a obiectelor. Determinarea criteriului de omogenitate a obiectelor este etapa cea mai dificilă a analizei cluster și, prin urmare, cea mai puțin formalizată în sarcina clasificării automate. Omogenitatea obiectelor este determinată de măsura gradului de proximitate (asemănarea) obiectelor sau a diferenței dintre obiecte.

Ca măsură a diferenței, distanța dintre obiecte este adesea folosită, notat ca du (de la cuvântul „distanță”), care oferă un algoritm mai simplu de acțiuni. Mai mult, acest algoritm

ritmul este bine realizat în programe de calculator, cum ar fi Statistica, SPSS etc.

În funcție de sursa datelor, se poate folosi unul sau altul tip de distanță. Este important de menționat că criteriul de alegere a tipului de distanță este interpretarea corectă (mai precis, adecvată) a profilului (trăsăturilor) clusterelor.

7.6. Analiza structurală latentă (LSA) Lazarsfeld

7.6.1. Cea mai simplă opțiune LSA: intrare și ieșire

Să luăm în considerare un caz particular de LSA, cel care a fost propus cândva chiar de Lazarsfeld. Să trecem la descrierea acesteia, subliniind că limitările pe care le vom enumera pot fi omise în stadiul actual al tehnologiei LSA (pentru dezvoltarea LSA, vezi [Gibson, 1973; Degtyarev, 1981, Ι995; Lazarsfeld, 1966; , 1973; Osipov, Andreev, 1977, pp. 140-151; Metode statistice de analiză..., 1979, pp. 249-266; Tipologie și clasificare..., 1982, pp. 99-111; Lazarsfeld, Henry, 1968]; câteva aspecte ale aplicării acestei abordări în sociologie, vezi și [Batygin, 1990; Social Research..., 1978, p. 15]).

În lucrările sale, Lazarsfeld menționează în mod repetat că abordarea sa este direct legată de teoria testelor. Să începem descrierea LSA în conformitate cu principiile tradiției de testare formulate mai sus.

Deci, presupunem că există un set de respondenți pentru care există o variabilă nominală latentă unidimensională cu un număr dat de gradații k. Pentru certitudine, fie k = 2. Există un chestionar cu N întrebări dihotomice. Se presupune că întrebările sunt alese în așa fel încât respondenții cu valori diferite o variabilă latentă va oferi aproape întotdeauna răspunsuri diferite la întrebările chestionarului și cu aceeași valoare - de regulă, vor da aproximativ aceleași răspunsuri. Să presupunem, de asemenea, că, din această cauză, relația dintre variabilele observate poate fi explicată prin acțiunea variabilei latente.

Să luăm un exemplu. Lăsați respondenții noștri să fie studenți din Moscova, variabila latentă este atitudinea lor față de viitoarea lor specialitate. Întrebările arată cam așa:

1) Cât de des vizitați biblioteca (cel puțin o dată pe săptămână)?

2) Aveți o bibliotecă acasă de cărți de specialitate (cel puțin 10 cărți)?

3) Ai citit vreodată o carte din specialitatea ta din proprie inițiativă, fără recomandarea unui profesor?

4) Ai luat note proaste la examene?

5) Ați ascultat vreodată un jucător în timp ce participați la o prelegere?

6) Pierzi adesea cursuri (mai mult de trei prelegeri pe săptămână)?

Este clar că studenții care visează la un loc de muncă în specialitatea pe care o dobândesc vor da, de regulă, răspunsuri pozitive la primele trei întrebări și răspunsuri negative la ultimele trei. Iar pentru studenții care sunt indiferenți sau negativi față de specialitatea aleasă, va avea loc imaginea opusă.

De asemenea, este clar că va exista o relație statistică între variabilele observate luate în considerare și că este cel mai probabil să fie explicată prin acțiunea unei variabile latente. Acest lucru se va manifesta prin faptul că atunci când valoarea variabilei latente este fixă, această conexiune va dispărea. Rețineți că această poziție, deja menționată în mod repetat de noi, Lazarsfeld a fost primul care a formulat-o clar și a numit-o axioma independenței locale.

Informațiile inițiale pentru LSA sunt tabele de frecvență de dimensiune arbitrară (dimensiunea unor astfel de tabele depinde de numărul dat de valori ale variabilei latente). Să notăm cu r. - probabilitatea unui răspuns pozitiv al respondenților noștri la întrebarea / "-a (proporția respondenților care au dat un astfel de răspuns); prin p. răspunsuri pozitive simultan la întrebările i-a, y-a și k-a, etc.

Aceleași litere cu indicele 1 în partea de sus (p/, />..", ρ k") vor desemna frecvențele corespunzătoare pentru prima clasă latentă, cu indicele 2 în partea de sus (pf, ρ 2 , pjjk) - același lucru pentru a doua clasă latentă.

r.k - probabilitatea unui răspuns pozitiv la întrebările /-a și k-a și în același timp - un răspuns negativ la întrebarea y "-a.

V, V2 - ponderi ale claselor latente în populația totală a respondenților.

Luați în considerare un set arbitrar de răspunsuri la întrebările chestionarului, de exemplu, +н-I-К Fie Ρ (1/+-Ι-ι--Н) să desemneze probabilitatea ca respondentul care a dat setul de răspunsuri +н -\- + a intrat în prima clasă latentă, iar prin P (2/+H-I-H) la fel pentru a doua clasă latentă.

Pentru a descrie datele inițiale și rezultatele aplicării LSA, vom recurge la terminologia „cibernetică”. Intrarea LSA.

Frecvențe de orice dimensiune: p., p.., pjjk. Cu alte cuvinte, LSA lucrează cu tabele de frecvență. Acest lucru nu poate să nu atragă sociologul: metoda poate funcționa cu scale de orice tip.

Ieșire LSA.

a) Frecvențe similare pentru fiecare clasă latentă. În cazul nostru, cu două clase latente, acestea vor fi frecvențe ale formei

Aceste colecții de frecvențe pot fi considerate descrieri ale claselor latente. O analiză a unor astfel de descrieri poate servi la clarificarea ideilor despre variabila latentă, a cărei existență a fost postulată a priori, în special, poate conduce cercetătorul la concluzia că ar trebui să i se dea un alt nume (cf. raționamentul nostru despre conceptul de „variabilă latentă” din paragraful 1.1). Subliniem că această posibilitate, pe de o parte, distinge favorabil abordarea Lazarsfeld de celelalte metode de scalare unidimensională pe care le-am luat în considerare (de exemplu, când se utilizează scările Likert sau Thurstone, întrebarea dacă variabila poate fi diferită). nici măcar nu este pusă în discuție), iar pe de altă parte, abordează astfel de metode de căutare a variabilelor latente precum analiza factorială și scalarea multivariată (unde problema interpretării axelor este una dintre cele centrale). Se pare că acest lucru caracterizează LSA ca o abordare mai adecvată decât alte metode de scalare unidimensională. În procesul de utilizare a acestuia din urmă, de fapt nu considerăm ca variabila ale cărei valori le căutăm ca fiind latentă - știm ce fel de variabilă este, pur și simplu nu știm cum să o măsurăm „pe frunte” . Și în cazul LSA, admitem inadecvarea ideilor noastre a priori despre esența (numele) unei variabile latente, iar acest lucru, în opinia noastră, este mai aproape de acele situații reale cu care se confruntă de obicei un sociolog.

Să luăm un exemplu. Răspunsurile pozitive la primele trei întrebări de mai sus pot reflecta nu dragostea pentru o viitoare specialitate, ci supunerea față de „fete bune” ale părinților inteligenți care au o specialitate similară. Răspunsurile pozitive la ultimele trei întrebări sunt, dimpotrivă, independența tinerilor intelectuali care și-au ales în mod conștient viitoarea specialitate, negând nevoia ca aceștia să urmeze niște cursuri învechite, capabili să compenseze rapid orele pierdute, permițându-și uneori să „ Relaxați-vă". Este clar că într-o astfel de situație, distribuția completă a răspunsurilor la toate întrebările din clasele latente găsite îl poate ajuta pe cercetător să corecteze numele variabilei latente.

Să menționăm încă o interpretare posibilă a distribuțiilor de frecvență obținute ca urmare a aplicării LSA pentru fiecare clasă latentă. Fiecare astfel de distribuție poate fi interpretată ca o reflectare a acelei opinii „pluraliste” a unui respondent, despre care am vorbit când am discutat despre scalele Thurstone. Putem presupune că aceasta este aceeași distribuție care corespunde unui respondent care a căzut în clasa latentă corespunzătoare (cu toate acestea, după cum vom vedea mai jos, LSA face posibilă judecarea doar a probabilității unei astfel de căderi).

b) Mărimile relative ale claselor. În cazul nostru - V și V2.
Aceste informații, printre altele, pot ajuta și ele
corectarea ideilor cercetătorului despre transferul latent
Schimbare. Notă (și acest lucru va fi util în rezolvarea problemei date
sub ecuații) că V + V2 = 1.

c) Probabilitatea Ρ (1/++-+-+) de a lovi obiectul care a dat
set de răspunsuri ++-I-b, la prima clasă latentă și similare
probabilitatea Ρ (2/++-+-+) - pentru a doua clasă latentă.

Aceasta este cea mai semnificativă diferență dintre LSA și alte metode de scalare unidimensională. Se pare că această diferență este cea care face ca LSA să fie o metodă mai adecvată în cea mai mare măsură decât alte abordări considerate pentru construirea scalelor. Metoda de măsurare cu ajutorul chestionarelor este în mod inerent mai degrabă „aspră”, fapt pentru care nici cele mai „favorabile” răspunsuri ale respondentului nu înseamnă neapărat că acesta este inclus în clasa latentă corespunzătoare acestor răspunsuri. Lazarsfeld acționează mai subtil: vorbește doar despre probabilitatea unei astfel de implicări. Aici se manifestă în cea mai mare măsură dorința lui Lazarsfeld de a urma criteriile adoptate în științele naturii. Utilizarea unor astfel de relații probabilistice în aceste științe este în general acceptată. Această abordare este firească pentru cei mai mulți statistici matematice(Nu-l strică pe sociolog să stea cu ochii pe ceea ce fac matematicienii; uneori, datorită tendinței lor profesionale de a generaliza, ei oferă formulări ale problemelor mai vitale, deși, poate, mai complexe decât sociologul).

7.6.2. Ipotezele modelului LSA

Să revenim la schema „cibernetică”, menționată de mai multe ori, care reflectă procesul de măsurare a derivatelor. Intrările și ieșirile noastre sunt legate de:

Baze de date" href="/text/category/bazi_dannih/" rel="bookmark">bază de date de valori (formând intrarea) pentru a obține rezultatul dorit (ieșire), trebuie să setați regulile care exprimă a doua până la prima ( de exemplu, compuneți ecuațiile corespunzătoare).Care sunt reprezentările model corespunzătoare?

Se poate observa cu ochiul „liber” că numărul cantităților necunoscute depășește atât de mult numărul celor cunoscute, încât în ​​principiu cu greu este posibil să se formuleze ecuații rezolvabile. Pentru a reduce numărul de necunoscute, să reamintim axioma independenței locale: fixarea valorii unei variabile latente duce la dispariția conexiunii dintre observabile (aceasta înseamnă că variabila latentă explică conexiunile dintre observabile).

După cum am spus deja, independența variabilelor noastre /-a și y"-lea înseamnă validitatea relației (7.2).

Este clar că această egalitate, în general, nu va fi adevărată, deoarece răspunsul la o întrebare (să zicem, dacă respondentul are o bibliotecă) depinde de răspunsul său la o altă întrebare (să zicem dacă citește propria voinţă cărți despre viitoarea profesie). Dar pentru persoanele care aparțin aceleiași clase latente, în conformitate cu axioma independenței locale, un astfel de raport va fi corect:

Pj^P"p", P?=pfpf.

Este uşor de observat că utilizarea acestor relaţii ne permite să reducem drastic numărul de necunoscute: dacă găsim p! și p.1, atunci valoarea lui pJ poate fi omisă, deoarece poate fi exprimată cu ușurință în termenii primelor două probabilități (frecvențe relative). Același lucru se poate spune despre alte frecvențe multidimensionale.

Pentru a înțelege cum pot fi scrise ecuațiile necesare, amintim formula pentru probabilitatea totală:

clasificări vagi", care, totuși, pot să nu fie adecvate realității. Acest dezavantaj este acoperit de faptul că indicăm doar probabilitatea de apartenență a unui anumit respondent la o anumită clasă și nu calculăm valoarea exactă a variabilei latente. pentru acest respondent.

În sistemul (7.3), valorile cunoscute sunt în stânga, iar necunoscutele sunt în dreapta. Se poate rezolva. Nu ne vom ocupa de aceasta, adresând cititorul la literatura menționată la începutul paragrafului precedent.

Rămâne să descriem metoda prin care se calculează aceste probabilități. Această metodă se bazează pe așa-numita formulă Bayes: P(a/b) = (P(a) P(b/a))/P(b). Aici ea se transformă în

(Credem că ceea ce s-a spus în acest paragraf l-a convins încă o dată pe cititor că este necesar ca un sociolog să cunoască elementele teoriei probabilităților).

În concluzie, să discutăm cum, în cazul LSA, se rezolvă problemele de construire a indicilor formulate de noi în Secțiunea 7.3.3 (variabila latentă căutată cu ajutorul LSA este și ea un fel de indice).

LSA nu rezolvă prima problemă: se postulează existența unei variabile latente în LSA. Adevărat, ideea acesteia poate fi corectată prin analizarea descrierilor fiecărei clase latente (un set de persoane având aceeași valoare a variabilei latente) obținute în procesul de aplicare a metodei, adică calculând distribuțiile de probabilitate ale răspunsurile respondenților care s-au înscris în clasă la toate întrebările luate în considerare.

A doua și a treia întrebare a noastră primesc răspunsul în felul următor. Valorile latente exacte pentru respondenții individuali nu sunt calculate. În schimb, a) este dată o descriere a fiecărei clase latente și b) pentru fiecare set posibil de răspunsuri la întrebările din chestionar, se calculează probabilitatea ca respondentul care a dat acele răspunsuri să se încadreze în oricare dintre clasele latente.

Se postulează tipul de scară variabilă latentă în LSA. În varianta cea mai simplă a metodei luate în considerare, variabila a fost nominală. Așa cum am precizat deja, în versiunile mai moderne (dar mult mai complexe) ale metodei, o variabilă latentă poate fi obținută la o scară de orice tip și este prevăzută și multidimensionalitatea acesteia.

Capitolul 8. METODE PSIHOSEMANTICE ÎN SOCIOLOGIE

Am spus deja că un sociolog care dorește să evalueze în mod adecvat opinia unui respondent trebuie să fie „prieteni” cu psihologia. Sperăm că cititorul s-a convins de acest lucru luând în considerare în secțiunea anterioară câteva aspecte ale utilizării abordării testului în sociologie. Să trecem la studiul unei alte modalități de implementare a unui sondaj bazat pe realizările psihologiei.

În primul rând, ce este psihosemantica. După cum știți, semantica este „o secțiune a lingvisticii și a logicii care studiază problemele legate de semnificația, sensul și interpretarea semnelor și a expresiilor semnelor”. [Bystroe, 1991, p. 275]. Psihosemantica, pe de altă parte, studiază percepția psihologică a semnificațiilor și semnificațiilor de către o persoană. alt fel obiecte (inclusiv concepte, precum și semne și expresii simbolice), procesul de interpretare a acestor obiecte de către el. Include diverse direcții, într-o anumită măsură prieten grozav unul de altul atât asupra sarcinilor de rezolvat cât şi asupra abordărilor de soluţionare a acestora. Alături de metoda diferenţială semantică (SD), care este discutată în detaliu în secţiunea 8.3, aceasta include şi metoda grilei de repertoriu [Dubitskaya, Iontseva, 1997; Tararukhina, Iontseva, 1997; Tolstova, 1997; Francella, Bannister, 1986] și alte câteva abordări [Baranova, Ι; Petrenko, 1983, 1988; Ka-chanov, Shmatko, 1993; Shmelev, 1983]). Una dintre sarcinile principale ale psihosemanticii este construirea așa-numitului spațiu semantic, adică găsirea unui sistem al acelor factori latenți în cadrul cărora respondentul „lucrează”, evaluând într-un fel sau altul unele obiecte. De subliniat că intimatul, de regulă, nu realizează existența acestor factori. Spațiul semantic este în esență un model de cercetare a structurii conștiinței individuale, pe baza căruia respondentul percepe obiectele, clasificarea, compararea acestora etc.

Uneori, metodele psihosemantice sunt denumite tehnică proiectivă. „Particularitatea procedurilor proiective este că situația stimulatoare capătă sens nu datorită conținutului său obiectiv, ci din motive legate de înclinațiile și pulsiunile subiective ale subiectului, adică datorită semnificației subiective, personale, atașate situației de către Subiectul, parcă, își proiectează proprietățile într-o situație” [Yadov, 1995, p. 190].

Alături de metoda SD, din tehnica proiectivă aparțin și alte procedee: metoda propozițiilor neterminate, studiul diferitelor tipuri de asocieri ale respondenților cu privire la un stimul dat etc. [Sokolova, 1980; Olshansky, 1994, p. 111 - 112; Yadov, 1995, p. 190-193].

După cum s-a menționat în [Yadov, 1995, p. 193], „validitatea procedurilor proiective este determinată în primul rând de ipoteze teoretice, ghidate de care cercetătorul interpretează datele”. Să facem câteva observații preliminare ale unui plan adecvat privind principala metodă psihosemantică de interes pentru noi în această lucrare, SD.

Metoda SD are ca scop nu numai căutarea unui spațiu semantic și analiza factorilor care stau la baza acestuia, ci și studierea poziției relative a obiectelor în acest spațiu (adică diferențele de percepție a obiectelor de către respondentul în cauză). Pentru un sociolog, gama de sarcini rezolvate cu ajutorul SD este mai largă - interesele sale necesită găsirea unor indicatori medii de tipul corespunzător; identificarea tipurilor de persoane cu o percepție similară asupra obiectelor luate în considerare.

În esență, avem de-a face aici cu unul dintre cazurile speciale ale problemei globale care a fost discutată în prima secțiune (secțiunea 3.2): metoda SD ne permite să greu anchetă oficializată pentru a obține informații mai mult sau mai puțin adecvate despre structurile psihologice destul de subtile ale percepției umane asupra lumii înconjurătoare. Și din nou, pentru ca „mai mult sau mai puțin” nostru să aibă mai mult „mai mult” decât „mai puțin”, este necesară monitorizarea atentă a modelului care ne permite să conectăm incompatibilul. Aceasta este ceea ce ne propunem să facem mai jos.

Conceptele de „sens” și „sens” servesc ca bază a teoriei psihologice pe care se bazează metoda SD. Aceste concepte, precum și distincția lor, li se acordă o mare atenție în literatura psihologică, psihosemantică, psiholingvistică [Dridze, 1984; Leontiev, 1974, 1983; Olshansky, 1994;

Sokolova, 1994]. Nu le vom lua în considerare în detaliu. Remarcăm doar că ambele concepte reflectă experiența socială asimilată de individ. Ambele sunt rezultatul unei anumite organizări (clasificări) de către conștiința umană a fluxului de impresii pe care aceasta din urmă le primește din lumea înconjurătoare. Dar primul corespunde experienței colective a oamenilor (de exemplu, copilul atribuie semnificații gata făcute, dezvoltate istoric), iar al doilea - experienței unui subiect individual, acesta este, parcă, un sens motivat intern pentru subiectul. Primul corespunde într-o măsură mai mare clasificării unei naturi cognitive (logica minții), iar al doilea uneia afective (logica sentimentelor). Cu toate acestea, structurile atât ale semnificațiilor, cât și ale semnificațiilor sunt complexe. În special, se pot distinge atât componentele cognitive, cât și cele afective. Ne va interesa mai ales latura emoțională a semnificațiilor atribuite de respondenți anumitor obiecte.

8.2. Diferenţial semantic (SD) 8.2.1. Declarația problemei de către Osgood

Metoda SD a fost propusă de un grup de psihologi americani condus de C. Osgood în 1957. O descriere a metodei SD în limba rusă poate fi găsită în [Osgood, Susi, Tannenbaum, 1972; Osipov, Andreev, 1977; Yadov, 1995]. O privire de ansamblu asupra abordărilor pe aceleași linii poate fi găsită în [Rodionova, 1996].

Prin tehnica adecvată se realizează următoarele scopuri: 1) dezvăluirea componentelor afective ale semnificaţiilor pe care oamenii le pun în anumite obiecte (fenomene, concepte); 2) identificarea acelor factori care determină semnificația semantică a obiectelor pentru fiecare persoană; spaţiul format de aceşti factori este chiar spaţiul semantic în care respondentul, parcă, plasează obiectul, evaluându-l într-un fel; 3) determinarea diferențelor în percepția diferitelor obiecte de către o persoană; de fapt, capacitatea de a rezolva tocmai această problemă a dat denumirea metodei luate în considerare: vorbim despre diferența (diferențial) obiectelor din spațiul semantic; 4) identificarea tipurilor de persoane care au o imagine similară a semnificațiilor studiate, spații psihosemantice asemănătoare; semnificațiile medii corespunzătoare sunt interpretate ca semnificații ale obiectelor pentru subcultura identificată cu tipul de oameni considerat.

Propunând metoda SD, autorii acesteia au propus astfel o modalitate operațională de „capturare” a unor materii atât de subtile precum latura emoțională a sensului investit de un individ în obiectele luate în considerare. Ca orice metodă de acest fel, se bazează pe model specific, anumite idei teoretice ale cercetătorului despre modul în care „fluidele” psihologice dorite, care nu sunt susceptibile de măsurare directă, se pot manifesta în comportamentul extern al individului. Și, ca întotdeauna, comportamentul exterior menționat apare pentru noi în răspunsurile acestui individ la anumite întrebări care i-au fost adresate. Cu alte cuvinte, aici, ca mai sus, dorim să primim informații non-verbale prin metode verbale.

Osgood însuși a folosit o terminologie oarecum diferită de cea descrisă mai sus: în loc de termenul „sens personal”, Osgood a folosit conceptul destul de apropiat de „sens conotativ”, punându-l în contrast cu cel denotativ. În același timp, el credea că denotativul reflectă aspectul obiectiv al cunoașterii, iar conotativul reflectă valori subiective, individuale. Semnele conotative sunt de natură metaforică. Ele caracterizează percepția subiectului și nu descriu obiectul evaluării. Și trăsăturile conotative sunt cele care servesc drept bază pentru modelul pe care l-am descris pe scurt mai sus. Să explicăm sensul definițiilor introduse printr-un exemplu.

Evaluând o persoană, putem analiza dacă este deștept sau prost, gras sau slab etc. Acestea sunt semne denotative (persoana are într-adevăr calitățile corespunzătoare în sensul lor literal; deși evaluarea noastră poate fi subiectivă: să spunem, putem fi un estimare părtinitoare a abilităților mentale ale unei persoane). Și putem afla dacă aceeași persoană este moale sau tare, fierbinte sau rece etc. Este clar că în acest caz nu vom avea în vedere măsurarea rigidității după binecunoscuta scală de duritate Moss (duritatea este același pentru toți oamenii în acest sens), și măsurarea temperaturii - cu un termometru (toți au o temperatură de 36,6). Deci, în acest caz, avem de-a face cu trăsături conotative. Metafora este acolo.

Abordarea propusă de Osgood s-a bazat pe studiul fenomenului de sinestezie (sinestezie) – gândirea prin analogie, apariția unor percepții senzoriale sub influența altora. Procesul de sinestezie este familiar tuturor. Sub influența anumitor seturi de sunete (o piesă muzicală), o persoană are anumite reprezentări vizuale, un miros familiar poate evoca brusc un sunet familiar sau o imagine vizuală din memorie etc.

Fenomenul de sinestezie se reflectă în orice limbă: vorbim despre o inimă caldă, un caracter puternic etc. unele popoare caucaziene, termenul „fier” în raport cu caracterul unei persoane înseamnă moliciunea sa spre deosebire de un oțel, dur. caracter). Aspectele psihologice corespunzătoare au fost folosite de Osgood.

Abordarea luată în considerare presupune că semnificația (mai precis, componenta sa emoțională) pe care o persoană o dă unui anumit concept poate fi dezvăluită dacă această persoană indică poziția conceptului în cauză în sistemul unor trăsături conotative. De exemplu, atunci când încearcă să dezvăluie adevărata atitudine („semnificativă”, sau mai degrabă emoțional-semantică) a respondentului față de un anumit lider politic, se poate întreba cum îi apare acest lider: cald sau rece, pufos sau înțepător etc. (în același timp, desigur, , nu se presupune că liderul poate avea o temperatură de 48 ° sau că poate crește spini ca un arici). Un set de trăsături conotative este considerat ca un sistem: doar totalitatea răspunsurilor respondentului la toate întrebările chestionarului propus poate vorbi despre semnificația obiectului pentru respondent, despre poziția acestui obiect în spațiul semantic corespunzător. Numai totalitatea diferențelor în coordonatele individuale ale acestui spațiu poate vorbi despre diferența obiectelor.

În plus, Osgood credea că, izolând orice obiect de lumea înconjurătoare, determinându-și atitudinea față de acesta, fiecare persoană folosește un sistem de semne bipolare. De aici propunerea de a construi un sistem de trăsături conotative sub forma unor perechi de termeni polari, fiecare dintre acestea să corespundă unui capăt al continuum-ului psihologic corespunzător trăsăturii sau, după cum vom spune, unui pol al trăsăturii.

Pentru a face mai clar despre ce vorbim, vom descrie tehnica SD mai detaliat.

8.2.2. Tehnica SD

Deci, cercetătorul este interesat de componenta afectivă a semnificațiilor atașate de respondenți unor obiecte. Sunt compilate o mulțime de perechi de termeni (Osgood a inventat câteva sute de astfel de perechi), fiecare dintre acestea corespunde unui atribut continuu conotativ (termenii din perechea corespunzătoare corespundeau polilor săi): cald - rece, bun - rău, murdar - curat, etc. Intervalul de modificare a fiecărui astfel de atribut este împărțit în 7 părți, astfel încât atributului îi este atribuită o scară de șapte cifre.

Pentru a clarifica cu ce ar trebui să corespundă gradațiile scalei noastre de șapte cifre, observăm că, de exemplu, perechea „deschis-întuneric” corespunde aproximativ următoarelor expresii și valori ale scării:

foarte deschis 3 nu foarte întunecat -1
lumină 2 întuneric -2

nu foarte deschis 1" foarte întunecat -3

nici lumină, nici întuneric

După cum vom vedea mai jos, în chestionar nu este necesar să se efectueze toată astfel de decodare a punctelor scalei, la fel cum nu este necesar să se utilizeze exact numerele numite: puteți lua numere de la 1 la 7 etc. Mai mult, uneori puteți modifica numărul de gradații: de exemplu, recurgeți la scara de cinci puncte. Întrebarea numărului de gradații folosite este inseparabilă de întrebarea tipului de scale folosite, pe care acum vrem să o atingem.

Adesea, scalele implicate în metoda SD sunt, din motive evidente, denumite ordinale. Dar prelucrarea pe care o presupune tehnica SD este de fapt concepută pentru scale de interval (vorbim despre utilizarea analizei factoriale, utilizarea algoritmilor de clasificare „numerici” etc.). Mai sus (în subsecțiunile 5.2.3 și 7.5.1) am spus deja că cu un număr suficient de mare de gradații utilizate, ipoteza despre intervalul ™ al scalelor implicate poate fi destul de acceptabilă. Acest lucru poate fi folosit pentru a justifica acest pas.

Sondajul se desfășoară după cum urmează. Respondenților li se prezintă pe rând obiectele luate în considerare pentru evaluare și li se cere să coreleze intensitatea sentimentelor lor interioare despre acest sau acel obiect, pe rând, cu toate scalele de evaluare. Fiecare obiect trebuie evaluat de fiecare respondent pe toate scalele luate în considerare.

Să dăm un exemplu de instrument de măsurare adecvat conceput pentru a rezolva una dintre problemele sociologice specifice utilizând metoda SD (Tabelul 8.1). Este despre despre studiul componentei afective a identităţii sociale a individului. Obiectele de identificare (în terminologia noastră - obiecte evaluate) erau importante comunități sociale și grupuri apropiate unei persoane [Baranova, 1994, p. 208].

obiect atribut" este dat în Tabelul 8.2.


Astfel, informațiile obținute prin metoda SD, fiind plasate compact în spațiu, formează un paralelipiped tridimensional, ale cărui axe corespund respectiv respondenților, obiectelor, scalelor. Dacă am intervievat 500 de persoane, le-am dat 20 de obiecte de evaluat și fiecare dintre obiecte a fost rugat să evalueze pe 50 de scale, atunci caseta menționată va avea o dimensiune de 500x20x50.

Există multe moduri în care astfel de informații pot fi analizate și, în consecință, o mulțime de probleme care pot fi rezolvate în acest caz. Printre aceste sarcini se numără cele despre care am vorbit mai sus. Înainte de a trece la o analiză mai detaliată a acestora, reținem următoarele.

Majoritatea metodelor analiza multivariată sunt calculate pe faptul că datele inițiale sunt prezentate sub forma așa-numitei matrice „obiect-atribut”. Aceasta este o masă dreptunghiulară, ale cărei rânduri

Matricea „obiect-atribut” este bidimensională. Metodele care permit, pe baza analizei unei astfel de matrice, dezvăluirea regularităților statistice ascunse în ea, vizează „comprimarea” acesteia. Deci, analiza factorială comprimă matricea pe coloane: selectăm „bundle” prieten legat cu alte semne, văzând în spatele fiecăruia dintre ele acțiunea unui factor latent, pe care îl putem exprima prin variabile observabile (despre asta am vorbit în paragraful 7.2). Metodele de clasificare comprimă matricea pe rânduri: combinăm obiecte care sunt similare între ele în grupuri, personificând fiecare astfel de grup cu un anumit obiect tipic pentru acesta etc.

Setul nostru de date inițiale este tridimensional. Pentru a putea vorbi despre utilizarea metodelor tradiționale de analiză multivariată, este necesar să se elimine cea de-a treia dimensiune. Acest lucru se poate face în moduri diferite. Metoda depinde de problema rezolvată. În primul rând, luați în considerare modul în care Osgood însuși a analizat datele descrise.

8.2.3. Factorii perceptivi identificați de Osgood

În primul rând, observăm că putem lua în considerare date corespunzătoare unui singur respondent. Ele formează o matrice exact de tipul potrivit: rândurile sale corespund obiectelor evaluate, coloanele corespund scalelor. Este clar că este posibil să se găsească factorii de bază care determină percepția obiectelor studiate de către individul luat în considerare folosind analiza factorială. Ne va permite să găsim acele izvoare ascunse care explică conexiunile dintre cântare. Fiecare factor va corespunde unui „mănunchi” de scale corelate.

Este exact ceea ce a făcut Osgood. Descoperirile au fost remarcabile. Prin aplicarea analizei factoriale la matrice de date pentru diferiți respondenți, oferindu-le diferite obiecte de evaluare, folosind scale diferite (s-au folosit scale diferite atât pentru verificarea mai fiabilă a declarațiilor statistice obținute, cât și datorită înțelegerii diferite a acelorași termeni de către persoanele aparținând subculturi diferite, iar Osgood a intervievat respondenți foarte diferiți), Osgood a primit aceiași factori. El le-a numit evaluare (în spatele acestui factor se aflau scale precum „frumos-urât”, „bun-rău”, etc.), puterea („puternic-slab”, „mare-mic”, etc.) și activitate („activ -pasiv”, „rapid-lent”, etc.). Uneori au fost evidențiați și alți factori. Dar pe primul loc au stat întotdeauna evaluarea, forța și activitatea. Deoarece Osgood a analizat o cantitate imensă de date empirice, se poate considera fundamentat empiric că cei trei factori de mai sus stau la baza spațiului semantic al oricărei persoane.

Concluzia este cu adevărat remarcabilă: atitudinea emoțională a oricărei persoane față de orice obiect (mai precis, componenta afectivă a semnificației acestui obiect pentru individul în cauză) este determinată de trei componente ale unei astfel de atitudini - evaluare, forță și activitate. Adevărat, aici este încă necesar să remarcăm că, întrucât acest rezultat nu a fost dovedit teoretic, ci doar empiric, atunci, în general vorbind, în fiecare caz concret necesită confirmarea lui. Unele lucrări exprimă îndoieli cu privire la validitatea (mai precis, cu privire la „comprehensiune”) concluziei lui Osgood (vezi, de exemplu, [Stepnova, 1992]).

Este posibil să scăpăm de tridimensionalitatea paralelipipedului nostru nu numai luând în considerare un singur respondent. Este posibil să se facă o medie a valorilor obținute de la diferite persoane și apoi, în modul descris mai sus, să se lucreze ca și cum ar fi cu un respondent „mediu”. Osgood a făcut-o. Concluziile rămân aceleași. Observăm, totuși, că, probabil, mediarea datelor pe o populație suficient de mare și semnificativă din punct de vedere social de respondenți în multe cazuri poate fi considerată o tranziție de la latura afectivă a semnificațiilor la latura afectivă a semnificațiilor obiectelor luate în considerare.

A doua problemă rezolvată de Osgood este dezvoltarea unui mod de a determina valoarea relativă pentru persoana în cauză a diferitelor obiecte. Este posibil să se determine diferența de percepție a oricăror obiecte de către respondentul nostru dacă considerăm obiectele ca puncte ale spațiului semantic corespunzător acestui respondent (tridimensional, dacă sunt utilizați doar cei trei factori latenți descriși mai sus) și determinăm distante dintre ele.

Acest lucru se poate face dacă, după efectuarea analizei factoriale, se calculează valorile factorilor găsiți pentru fiecare obiect evaluat (clauza 7.2.2). Proximitatea dintre obiecte este de obicei calculată în mod tradițional - se folosește așa-numita „distanță euclidiană”. Să explicăm cum este cu un exemplu.

Să presupunem că avem trei obiecte de evaluat, având valorile factorilor latenți considerați indicați în tabelul de mai jos. Să încercăm să aflăm care dintre obiecte (2 sau 3) este mai aproape ca valoare de obiectul 1 pentru respondentul în cauză (poate media), vezi Tabel. 8.3.


Tabelul 8.3. Un exemplu de tabel care specifică valorile factorilor latenți pentru trei obiecte evaluate de respondenți

Este clar că A(1.2) > R(1.3). Cu alte cuvinte, pentru respondentul în cauză, primul și al doilea obiect sunt mai apropiate ca semnificație unul de celălalt decât primul și al treilea.

Dacă avem același spațiu semantic pentru mai mulți respondenți, atunci după efectuarea unei proceduri de evaluare pentru fiecare dintre ei, putem în mod similar determinați semnificația comparativă a oricăror obiecte pentru diferiți indivizi. Toate tipurile de probleme care pot fi rezolvate pe baza datelor colectate folosind metoda SD pot fi citite mai jos (secțiunea 8.2.4).

Dacă nu dorim sau nu avem posibilitatea de a efectua o analiză factorială a datelor colectate, atunci putem rezolva probleme similare celor descrise prin găsirea locației obiectelor în spațiul semantic într-un mod diferit. Și anume, se poate baza pe rezultatul obținut de Osgood, care constă în faptul că factorii latenți sunt tocmai cei care au fost discutați mai sus. Să presupunem că definim clar ce scale se referă, să zicem, la factorul „putere”. Să presupunem că vor fi solzile „puternic-slab” și „mare-mic” menționate mai sus (și numai ele). Fie ca un obiect de pe prima scară să aibă coordonata 5, iar pe a doua - coordonata 3. Vom presupune că coordonata obiectului nostru în funcție de factorul „tărie” este media aritmetică corespunzătoare (5 + 3) / 2 = 4. Aceasta nu va fi valoarea exactă a factorului nostru (după cum se arată în Secțiunea 7.2.2, în analiza factorilor liniari, valoarea factorului latent este exprimată ca un anumit combinație liniară variabilele observate, care nu coincid neapărat cu suma acestora din urmă). Dar experiența arată că într-o serie de situații o astfel de aproximare poate fi suficientă.

Sensul acestei sau aceleia transformări a datelor inițiale este de a schimba natura distribuției empirice pentru a o aduce în conformitate cu scopul studiului. Cel mai adesea, transformarea este utilizată pentru a slăbi influența valorilor extreme ale caracteristicilor asupra rezultatelor calculului, pentru a compensa influența posibile eroriîn datele inițiale, pentru a face modificări comparabile în valorile atributului în diferite părți ale scalei valorilor sale.

Influența naturii distribuției asupra rezultatelor calculelor este foarte mare, prin urmare, atunci când se stabilește problema, trebuie luată în considerare în special alegerea tipului de transformare pentru fiecare caracteristică separat.

Studiile socio-economice sunt dominate de rânduri cu asimetrie corectă (adică o scădere bruscă a frecvenței cu o creștere a valorii caracteristicii). Când lucrați cu astfel de distribuții, este adesea convenabil să se convertească la o scară logaritmică. Trecerea de la Xj la intervalul de valori 1 gXj reduce intervalele pe măsură ce valorile cresc. O astfel de transformare este utilizată pe scară largă, de exemplu, în studiul sistemelor urbane. Diferențele în valorile caracteristicilor pentru orașele mari sunt de obicei de multe ori mai mari decât diferențele corespunzătoare pentru un număr mare de orașe medii și mici. Transformarea la o scară logaritmică face posibilă studierea acestor date într-o singură sarcină.

De regulă, semnele selectate de cercetător pentru o descriere cuprinzătoare a unui anumit fenomen au dimensiuni diferite și, prin urmare, unitate diferită scară. Pentru a face posibilă compararea caracteristicilor și eliminarea influenței dimensiunii, matricea de date inițială este de obicei transformată (normalizată) prin introducerea unei singure scale pentru toate caracteristicile. Cel mai comun tip de astfel de normalizare a unei matrice de date este reducerea la o formă standard, adică trecerea de la valorile x^ la

unde Xij este valoarea caracteristicii /-a pentru obiectul i; Xj - valoarea medie aritmetică a caracteristicii /-a; Sj - abaterea standard a caracteristicii /-a (Sj2 - varianța caracteristicii /-a).

Mai jos, când luăm în considerare matricea datelor inițiale, vom înțelege o matrice dată în forma standard, adică cu elementele z.

Sunt posibile și alte tipuri de transformare a matricei. De exemplu,

a _ Xii~X* h chi

Z maxfxij)- navă (d: ii) SAU Z ІЗ ~ Etc.

Este necesar să se facă distincția între transformarea seriilor individuale * pentru a le aduce în conformitate cu. enunţarea semnificativă a problemei din normalizarea matricei în ansamblu. Spre deosebire de selecția tipului de transformare individual pentru fiecare caracteristică, matricea este normalizată într-un singur mod.

De asemenea, trebuie menționate transformări speciale, care servesc ca un instrument important pentru luarea în considerare a informațiilor calitative a priori despre datele studiate, care nu sunt conținute direct în matricea de date inițială. Aceste transformări includ diferite căi completarea matricei de date originale cu parametri derivați. Adesea, ca atare parametri noi, rapoartele unora dintre parametrii initiali, sau raportul dintre sumele unora dintre parametrii originali și sumele altora. Adesea, sunt utilizate transformări neliniare pre-studiate ale parametrilor inițiali.

Mai jos, luând în considerare matricea de date normalizată (matricea de date în formă standard), vom presupune că toate transformările speciale, inclusiv transformările datelor într-o formă omogenă cu formele dorite de distribuție a seriilor statistice de parametri individuali, sunt efectuate înainte de normalizarea acesteia.

Normalizarea este ultima transformare a matricei originale, imediat precedând prelucrarea prin metode de analiză factorială.

Deci matrice. datele inițiale, pregătite pentru analiza factorială, sunt un set de valori a n caracteristici pentru N obiecte. Vom nota această matrice cu ||z Atentie speciala ar trebui acordată problemelor de normalizare a datelor inițiale atunci când se rezolvă problema clasificării obiectelor. Analiza variației unei variabile se bazează pe conceptul de valoare medie și abaterea de la această medie. Dacă o caracteristică acționează ca o variabilă, conceptul de valoare medie are un sens clar și este definit în aceleași unități de măsură ca și caracteristica. Dimensiunea sa nu afectează indicatorii de variație ai unei caracteristici. La clasificarea obiectelor, o variabilă este un obiect (țară, oraș, întreprindere etc.) care nu are o unitate de măsură specifică, astfel încât conceptul de valoare medie de aici, în general, nu poate fi interpretat. De regulă, variația unei variabile - un obiect - este o variație a valorilor luate de un obiect dat în funcție de semne de dimensiuni diferite, prin urmare, indicatorii de variație sunt determinați în primul rând prin schimbarea unităților de măsură dintr-un singur semn. altcuiva. Chiar dacă toate semnele sunt exprimate în aceleași ^ unități de măsură, de exemplu, în termeni monetari (volumul producției în milioane de ruble, volumul comerțului cu amănuntul în mii de ruble, castigurile mediiîn ruble etc.), diferențele dintre indicatori în ceea ce privește scara de valori apar în timpul factorizării.

La factorizarea matricelor de date care potrivesc obiecte după valoare diverse semne(adică, la rezolvarea problemelor de clasificare a obiectelor, cu analiză Q), în locul coeficientului de corelație se folosesc coeficienți speciali, special proiectați, care măsoară gradul de asemănare a două obiecte nu numai prin natura modificării valorilor lor. ​de la trăsătură la trăsătură, dar și prin manifestările de nivel ale semnelor similare pe aceste obiecte.

Această măsură este adesea folosită pentru a compara obiecte în diverse metode clasificare automată și recunoaștere a modelelor.

Dacă vectorii specificați sunt normalizați astfel încât lungimile lor să fie egale cu aceeași valoare standard, de exemplu, unul:

2 (%ji ^kg)2 "

Cea mai simplă măsură pentru a determina asemănarea a două obiecte este distanța euclidiană r(Xj, Xb) dintre vectorii coloană Xj și xi care definesc obiectele:

apoi, ca măsură a asemănării unor astfel de vectori normalizați, se poate alege produsul scalar (xi Xj) al vectorilor xI și Xj (pentru mai multe detalii, diferite măsuri de similitudine între obiecte sunt discutate în Capitolul 6). unu.

Mai multe despre subiectul CONVERSIUNI NECESARE DATA MATRIX:

  1. ANALIZA FACTORIALĂ CA PARTE A METODELOR GENERALE DE PRELUCRARE A MATRICE DE DATE
  2. CRIZA SISTEMELOR DE PLANIFICARE ADMINISTRATIVĂ ȘI NEVOIA DE TRANZIȚIE LA UN SISTEM DE PIAȚĂ OBIECTIVELE STABILIZĂRII MACROECONOMICE ÎN TRANZIȚIA LA UN SISTEM DE PIAȚĂ TRANSFORMĂRI INSTITUȚIONALE ÎN TRANZIȚIA LA UN SISTEM DE PIAȚĂ ÎN POLITICA SOCIALĂ DE PIAȚĂ

Date inițiale în spații obiect și caracteristici

Indiferent de natura fenomenelor sau proceselor observate, în majoritatea situațiilor, datele inițiale sunt prezentate sub forma unei matrice (tabel) a unui obiect-atribut, unde rândurile sunt obiecte, iar coloanele sunt semne. Un obiect este orice subiect de studiu, de exemplu, o țară, o companie, o regiune, un grup de studenți etc. Un semn determină caracteristicile obiectului luat în considerare, de exemplu, dacă obiectul de studiu este o companie, atunci numarul de semne care o caracterizeaza poate include numarul de personal, lunar volumul cheltuielilor si veniturilor, numarul contrapartidelor si alte caracteristici. O astfel de matrice de date inițiale are forma prezentată în Fig. unu.

Orez. 1. Obiect de caracteristică a matricei de date

Obiectele de observație sunt mărimi multidimensionale, pentru a căror prelucrare sunt metode multidimensionale analize statistice(ISA). Baza acestor metode este reprezentarea geometrică a obiectelor. Obiectele studiate sunt situate în spațiul teoretic cu o dimensiune corespunzătoare numărului de trăsături prin care sunt caracterizate. În cazul în care numărul de caracteristici nu depășește trei, este posibil să se vizualizeze obiecte în spațiul caracteristicilor. LA in caz contrar este posibilă doar idealizarea matematică a reprezentării obiectelor într-un spațiu multidimensional sau este necesară o trecere la unele trăsături agregate, ceea ce face posibilă reducerea dimensiunii observațiilor.

Într-un spațiu multidimensional, semnele sau obiectele au anumite caracteristici cantitative. Toate valorile acceptate ale caracteristicilor (obiectelor) sunt seturi numere reale. Când utilizați metodele ISA, trebuie luate în considerare următoarele caracteristici:

  • în spațiul m-dimensional rămân valabile prevederile și axiomele fundamentale ale geometriei euclidiene;
  • în ISA, este de obicei folosit număr mare trăsături care sunt de natură eterogenă. În acest sens, în prima etapă a studiului, se pune de obicei problema aducerii tuturor semnelor pe o singură bază: o formă comparabilă. Probleme similare sunt rezolvate prin normalizarea datelor, ceea ce înseamnă din punct de vedere geometric schimbarea scării, și alte transformări ale sistemului de coordonate.
  • prelucrarea seturilor m-dimensionale include un număr mare de operații aritmetice complexe și consumatoare de timp, prin urmare, se realizează pe baza algoritmilor pas cu pas.

Atunci când se prelucrează date multidimensionale, trebuie luat în considerare dualismul reprezentării, deoarece există posibilități de vizualizare atât a obiectelor în spațiul caracteristic, cât și a caracteristicilor în spațiul caracteristic.

Pe lângă reprezentarea datelor inițiale sub forma unei matrice obiect-atribut, există și alte posibilități de reprezentare. De exemplu, folosind coeficientul de corelație între caracteristici, care este calculat prin formulă

unde este valoarea medie a produsului valorilor caracteristicilor x i , x k ; , (- valoarea medie a caracteristicii x i , (xk);sunt eu (s k)- abaterea standard a semnelor corespunzătoare, este posibilă prezentarea datelor inițiale sub forma unei matrice semn-trăsătură (Fig. 2).

Orez. 2. Matrice caracteristică-funcție

Această matrice, spre deosebire de cea anterioară, are dimensiunea . Fiecare celulă a matricei conține valorile coeficientului de corelație dintre caracteristicile corespunzătoare; sunt unele pe diagonala matricei, deoarece corelația trăsăturii cu ea însăși este maximă și egală cu unu. Matricea este simetrică față de diagonala sa. O astfel de matrice este utilizată în calculul componentelor principale.

Asemănarea sau diferența dintre obiectele clasificate se stabilește în funcție de distanța metrică dintre ele. Dacă fiecare obiect este descris de n caracteristici, atunci poate fi reprezentat ca un punct în spațiul n-dimensional, iar asemănarea lui cu alte obiecte va fi determinată ca distanța corespunzătoare. Această împrejurare ne permite să trecem la un alt tip de reprezentare a datelor inițiale, și anume, la matricea obiect-obiect, care este un tabel al distanțelor dintre obiectele analizate. În acest caz, fiecare celulă a matricei conține valoarea distanței, de exemplu, euclidiană, calculată prin formula

.

Aici xij, x kj- valori j-al-lea semn, respectiv, i th și k-lele obiecte.

O astfel de matrice, cu dimensiunile , are forma prezentată în Fig. 3.

Orez. 3. Matrice obiect-obiect

Există zerouri pe diagonala matricei, deoarece distanța de la punct la sine este zero. Elementele matricei sunt simetrice față de diagonală.

Astfel, datele inițiale pot fi reprezentate ca matrici de trei tipuri:

  • matrice obiect-atribut;
  • matrice caracteristică-trăsătură;
  • matrice obiect la obiect.

Metoda componentei principale

Orice studiu al datelor multidimensionale este imposibil fără utilizarea analizei componentelor principale (PC). Esența acestei metode este reducerea dimensionalității datelor prin identificarea unui număr mic de combinații liniare de caracteristici inițiale care explică cea mai mare parte a variabilității datelor în ansamblu. Metoda GK este asociată cu trecerea la sistem nou coordonate, care este un sistem de combinații liniare ortonormale. Această metodă face posibilă n caracteristicile inițiale ale obiectelor pentru a construi același număr de GC, care sunt caracteristici generalizate (agregate). La prima vedere, o astfel de tranziție nu oferă niciun avantaj în prezentarea datelor, dar este posibil să se păstreze informații despre datele în cauză chiar dacă numărul de GC calculate este redus. În plus, atunci când sunt salvate două sau trei GC-uri, se realizează posibilitatea de a vizualiza obiecte multidimensionale într-un spațiu redus de caracteristici. Metoda GC are o serie de proprietăți care o fac eficientă pentru vizualizarea structurii datelor multidimensionale. Toate se referă la cea mai mică distorsiune a structurii geometrice a punctelor (obiectelor) atunci când sunt proiectate într-un spațiu de dimensiune inferioară.

Modelul matematic al GC se bazează pe presupunerea că valorile unui set de caracteristici interconectate generează unele rezultat general. În acest sens, la prezentarea datelor inițiale, așa cum sa discutat în paragraful anterior, este importantă matricea caracteristică-funcție, care conține toate informațiile despre relația perechi dintre caracteristici. Presupunând o formă liniară de legătură între caracteristici, putem scrie sub formă matriceală ecuația dependenței rezultatului F din semne X la fel de

Unde LA- vector de valori parametrice ecuație liniară conexiuni.

Condiția pentru îndeplinirea unei asemenea egalități este corespondența variațiilor, adică. D(X)= D(XB). Pentru că X este o variabilă aleatoare multidimensională, atunci estimarea dispersiei sale este matricea de covarianță S. Constant LA scos din semnul de dispersie și pătrat, rezultând D(F)= B" SB.

Primul GC f 1 (X) set de caracteristici primare X \u003d (x 1, x 2, ..., xn) se numește o astfel de combinație liniară a acestor caracteristici, care, printre alte combinații liniare, are cea mai mare dispersie. Geometric, aceasta înseamnă că primul PC este orientat de-a lungul direcției celei mai mari alungiri a hiperelipsoidului de împrăștiere al setului de date studiat. Al doilea HA are cea mai mare dispersie de dispersie dintre toate transformări liniare, necorelat cu primul PC și este o proiecție pe direcția celei mai mari alungiri a observațiilor în hiperplanul perpendicular pe primul PC. În general, j-m GC al sistemului de caracteristici inițiale X \u003d (x 1, x 2, ..., xn) este o combinație atât de liniară a acestor caracteristici, care nu este corelată cu (j-1) GC anterioare și printre toate celelalte necorelate cu anterioare (j-1) HA are cea mai mare dispersie. Rezultă că HA sunt numerotate în ordinea descrescătoare a variațiilor lor, adică. , iar aceasta oferă o bază pentru a decide câte dintre aceste din urmă GC pot fi excluse de la examinare fără a aduce atingere.

Căutarea PC-urilor se reduce la problema selecției succesive a primului PC cu cea mai mare dispersie, a celui de-al doilea PC etc. O problemă similară are loc cu condiția introducerii restricțiilor. Lăsa

La , maximizăm folosind metoda multiplicatorilor Lagrange, în urma căreia obținem

Ținând cont de ultima egalitate pentru ecuația caracteristică, care ne permite să găsim valorile lui j, avem

Unde E este matricea identitară.

Din setul de valori ale numerelor caracteristice (proprie) j, determinăm cel mai mare 1 și găsim vectorul propriu corespunzător ÎN 1 Acesta este folosit la calcularea primei HA. Pentru a calcula al doilea PC, următoarea cea mai mare valoare proprie 2 și vectorul propriu ÎN 2 etc.

Dacă matricea de date originală X pre-standardizare, apoi matricea de covarianță S va merge la matricea de corelare perechi R, și vector B va fi un vector propriu peste datele standardizate U. Rezolvarea ecuațieiîn formă de matrice ia forma

Ecuația rezultată se numește caracteristică pentru matrice Rși este ecuația algebrică n gradul în raport cu variabila l. În cele din urmă, rapoartele pentru determinarea tuturor n Sursa GC n-vector dimensional X poate fi prezentat sub formă

F= BX.

Remarcăm principalele proprietăți ale GC:

  • așteptarea matematică a lui GK este zero;
  • GC-urile nu sunt corelate între ele;
  • suma varianțelor caracteristicilor inițiale este egală cu suma varianțelor tuturor GC;
  • semnificația fiecărui PC scade odată cu numărul său și este determinată de valoarea proprie corespunzătoare.

Având în vedere aceste proprietăți, este posibil să se propună un criteriu pentru determinarea cantității de HA care este util să se lase ca caracteristici agregate. Acest criteriu poate fi scris ca

Unde n* - numărul de caracteristici agregate rămase în set.

Acest criteriu atinge un maxim egal cu unitatea numai atunci când n*= n.

Metoda schemei de calcul a componentelor principale

Rezolvarea problemei prin metoda GC se reduce la o transformare pas cu pas a matricei de date inițiale. Principalii etape ai metodei sunt prezentate în diagrama prezentată în fig. patru.

Orez. patru. Schema de calcul metoda componentelor principale

Să comentăm etapele calculelor. Ca date inițiale, matricea caracteristică-obiect este de obicei aleasă X. Deoarece caracteristicile obiectelor pot fi semne de altă natură, datele trebuie să fie standardizate, adică centrarea (scăderea valorii medii) și normalizarea (împărțirea la valoarea pătrată medie) a datelor.

La pasul următor, se calculează matricea de corelație Rîntre semne, adică se realizează tranziția la matricea caracteristică-funcție. Elementele diagonale ale acestei matrice sunt egale cu unu, iar matricea însăși este simetrică față de această diagonală, deoarece rij= r ji.

În continuare, se determină matricea vectorilor proprii LA, care, ca și precedentul, este pătrat și este format din n linii şi n coloane. Componentele fiecărui vector propriu sunt reprezentate ca un vector coloană, suma pătratelor ale căror componente, datorită ortogonalității, este egală cu unu.

În etapa următoare, se calculează matricea valorilor proprii, care, spre deosebire de matricele anterioare, este diagonală, adică aici doar pe diagonala matricei se află valorile proprii: toate celelalte elemente ale matricei sunt egale cu zero. Dimensiunea acestei matrice, ca și cele două anterioare, este . Fiecare valoare a lui j determină varianța fiecărui GC. Valoarea totală este egală cu suma variațiilor caracteristicilor originale. Sub rezerva standardizării datelor inițiale

În ultimul pas, GC-urile sunt calculate:

De exemplu, atunci când alegem doar primele două mari valori proprii, determinăm componentele vectorilor proprii corespunzători acestora (două coloane ale matricei LA), pe care o înmulțim cu rândurile matricei X.Înmulțirea primei coloane a unei matrice LA la primul rând al matricei X va da valoarea primului GL pentru primul obiect, înmulțirea aceleiași coloane cu al doilea rând dă valoarea primului GL pentru al doilea obiect și așa mai departe. După efectuarea acelorași operații cu al doilea vector selectat, avem ocazia de a construi toate obiectele în planul primelor două GC-uri, unde poziția relativă a acestora ne permite să tragem concluzii preliminare despre asemănarea (diferența) obiectelor.

Efectuarea calculelor GK conform schemei de mai sus este posibilă numai pe un computer pe care este instalat un pachet adecvat software din domeniul statisticii multivariate. Deși literatura indică metode de calcul (în special, metoda Faddeev) care fac posibilă determinarea HA folosind un calculator, de fapt, o astfel de tehnică este posibilă numai într-o situație în care numărul de caracteristici nu depășește trei. LA situație reală numarul de caracteristici poate ajunge la valori mult mai mari, asa ca este nevoie de ajutorul unui PC.

Din experiența de lucru a autorului, cele mai acceptabile pachete pentru calcularea GC pot fi pachetele Statgraphics și Statistica, iar datorită simplității lor mai mari, ar trebui să se acorde prioritate primului. De exemplu, în fig. 5 prezintă un grafic, în care în planul primelor două PC-uri este prezentat un set de 10 obiecte, fiecare dintre acestea fiind inițial caracterizat de 5 caracteristici.

Orez. 5. Obiecte în planul primelor două PC-uri

După cum se poate observa din grafic, este posibil să se obțină câteva concluzii despre asemănarea (diferența) obiectelor în tranziția la cea redusă. spațiu bidimensional. De exemplu, împărțirea obiectelor în două grupuri (obiecte cu numerele 1-5 și 6-10) și împrăștierea semnificativă în cadrul acestor grupuri pot fi văzute clar. Astfel, din spațiul de trăsături cinci-dimensionale cu ajutorul GC s-a făcut o tranziție către spațiul bidimensional al trăsăturilor agregate și vizualizarea obiectelor multidimensionale.

versiune tipărită

Cititor

Denumirea funcției adnotare
  • Serghei Savenkov

    un fel de recenzie „rare”... parcă s-ar grăbi undeva