Ce este analiza datelor. Analiza si prognoza datelor. Tehnologiile DM folosesc diverse metode și algoritmi matematici: clasificare, grupare, regresie, prognoza serii temporale, asociere, succesiune

Conceptul de analiză a datelor este destul de larg. Însuși conceptul de „analiza” ne-a venit de la Grecia anticăși înseamnă „a dezlega”, „a elibera”. În domeniul analizei datelor, există multe definiții și toate sunt diferite. Să ne întoarcem la Bolșoi dicţionar economic(Institutul de Nouă Economie. A.N. Azriliyan, 1997):

Analiza datelor este o direcție de cercetare statistică care include un set de metode de prelucrare sistem multidimensional date observaționale, caracterizate de multe caracteristici. Spre deosebire de metodele matematice și statistice clasice, care presupun un model probabilistic cunoscut de generare a datelor, metodele de analiză a datelor utilizează doar informațiile înregistrate în aceste date.

În general, definiția este corectă și exactă. Dar o altă componentă a unei astfel de analize este, de asemenea, importantă pentru afaceri. Definiția dicționarului vorbește doar despre prelucrarea datelor, dar pentru orice manager sau manager de top, nu este importantă prelucrarea și structurarea datelor în sine. Etapa finală este mult mai interesantă și utilă - căutarea tiparelor ascunse și obținerea de noi cunoștințe.

Prin urmare, într-un mediu de afaceri În ultima vreme O definiție foarte populară a lui Mario Faria, vicepreședintele Gartner:

Analiza este transformarea datelor în concluzii pe care se vor lua decizii și se vor baza acțiunile folosind oameni, procese și tehnologie.

Este imposibil și incorect să privim analiza datelor doar ca procesare a informațiilor după ce acestea au fost primite și colectate. În primul rând, analiza datelor este un mijloc și o modalitate de testare a ipotezelor și o modalitate de a rezolva problemele cercetătorilor. Prin urmare, printre sarcinile importante ale analizei datelor, evidențiem:

  • prognoza,
  • identificarea abaterilor,
  • primirea de recomandări.

Caracteristicile datelor de analiză

În ceea ce privește caracteristicile sale, datele pe care le folosim în analiză sunt împărțite în 2 grupuri mari:

  • cantitativ
  • si calitate.

Datele calitative sunt importante în cercetarea de marketing - care este produsul dvs., de ce consumatorii ar trebui să îl „iubească”. Cele mai interesante pentru prognoză sunt, desigur, datele cantitative. Cifrele sunt totul! Pe baza acestora, puteți, de exemplu, prezice scăderi sau creșterea vânzărilor. Și asta, vezi tu, este foarte important. Capacitatea de a achiziționa volumul potrivit de mărfuri, de a construi un lanț logistic și de a pregăti personal - toate acestea afectează în cele din urmă veniturile companiei.

Cum să analizezi rapid și util?

Există din ce în ce mai multe informații în lume. Un studiu realizat de IBS afirmă că până în 2003, lumea acumulase 5 exaocteți de date (1 EB = 1 miliard de gigaocteți). În 2011, vor exista deja 1,76 zettabytes de date (1 ZB = 1024 exabytes), iar în mai 2015, volumul global de date a fost de peste 6,5 ZB. Potrivit informațiilor din studiul The Data Age 2025, se estimează că până în 2025 vor fi generați mai mult de 400 zettabytes de informații.

Dar principalul lucru este că toate aceste date acumulate conțin informații importante cu ajutorul cărora se poate și ar trebui să facă predicții, să tragă concluzii și să ia decizii. Pentru a extrage informații utile din întreaga gamă de date acumulate, este necesară prelucrarea acestor date. Sau – analiza datelor.

Procesarea datelor devine din ce în ce mai dificilă. Dacă mai devreme, acum vreo 15 ani, Excel era limita perfecțiunii, acum este cu adevărat un lucru al trecutului. Ca urmare a cererii de analiză a datelor mari, pe piață apar noi soluții pentru afaceri – mici, mijlocii și mari.

Soluțiile de analiză a datelor variază în funcție de costul implementării și de personalul care va fi desfășurat pentru a le gestiona. Exista solutii pt marile corporații, de unde, desigur, nu se poate lipsi investiții mari– atât în ​​etapa de implementare, cât și ulterior – în etapa de funcționare a soluției (cheltuiala principală o reprezintă specialiștii care lucrează cu software-ul).

Introducere

Acest număr este al doilea dintr-o serie de numere care conturează cursul „Modelarea matematică a obiectelor geologice”, însoțit de recomandări educaționale și metodologice, întrebări de control si comentarii. Acest număr se concentrează pe analiza datelor ca disciplină științifică independentă și în conjuncție cu statistica aplicată. Desigur, nu este prezentată „întreaga” analiză a datelor, ci doar fragmentele sale individuale necesare înțelegerii cursului în ansamblu. Sunt furnizate informațiile minime necesare despre statisticile aplicate.

Modelarea matematică a obiectelor geologice este strâns legată de analiza datelor, ca disciplină științifică independentă și statistica aplicată.

Cum sunt utilizate împreună analiza datelor, modelarea matematică și statisticile aplicate pentru a rezolva probleme geologice specifice și, în special, pentru a crea modele de obiecte geologice? De obicei, crearea unui model al unui obiect geologic este împărțită într-un număr de subsarcini care formează o singură diagramă bloc cu mișcare secvențială și paralelă a informațiilor procesate din proceduri originale la rezultatul final – sinteza modelului.

Soluția pentru fiecare dintre aceste subprobleme se rezumă fie la construirea și analiza unui anumit model, fie la căutarea unei relații stocastice între anumiți parametri, fie la soluționarea unuia sau altuia. sarcină tipică analiza datelor etc. ÎN acest din urmă caz este selectat un algoritm care satisface cerințele informațiilor inițiale. Aceste cerințe pot fi fie de natură pur formală (de exemplu, prezența diferitelor tipuri de caracteristici într-un tabel face imposibilă utilizarea unor algoritmi), fie reprezintă „dificil” de oficializare a ideilor despre sistemul de obiecte studiate, care ar trebui de asemenea, nu trebuie neglijat.

În prezent, nu există o metodă matematică formală universală pentru selectarea unui algoritm adecvat. Prin urmare, atunci când alegeți un algoritm, împreună cu verificarea adecvării sale matematice formale, se recomandă să se concentreze asupra simplității sale relative și a interpretării semnificative a aparatului matematic utilizat în sarcina specifica, experiență în utilizarea algoritmului în rezolvarea unor probleme similare.

Recunoasterea formelor

Subsarcini principale

Principalele sarcini secundare ale sarcinii de recunoaștere sunt:

1 ) realizarea unei liste inițiale de caracteristici;

2 ) selectarea claselor de obiecte;

3 ) pregătirea mesei(e) de antrenament;

4 ) selectarea unei familii de reguli de decizie;

5 ) căutarea regulii de decizie optimă (față de un anumit criteriu sau criteriu) în această familie;

6 ) pregătirea descrierilor mostrelor;

7 ) recunoașterea probei.

Pe etape 1 -3 se face selecţia şi explicație semne (vezi manualul de Krasavchikov, 2008) și compilarea unei baze de date.

La crearea unei liste inițiale de caracteristici, pot fi implementate două abordări:

A) o descriere cuprinzătoare a obiectelor, tipică pentru situațiile în care cercetătorul nu știe din ce caracteristici ar trebui compilată lista finală (un sistem informativ de caracteristici), conform cărora eșantioanele vor fi recunoscute. Prin urmare, el selectează astfel de caracteristici care, în principiu, pot conțin informații utile (deși, la prima vedere, legătura lor cu problema în curs de rezolvare poate să nu fie evident)și se bazează pe algoritm și pe programul care îl implementează pentru a selecta un sistem informativ de caracteristici.

B) descrierea obiectelor pe baza unui model geologic pentru care lista caracteristicilor este cunoscută dinainte.

Atunci când se aleg clase de obiecte, acestea pornesc nu numai de la enunțarea problemei (de exemplu, pentru a sorta ridicările locale în promițătoare și nepromițătoare pe baza rezultatelor interpretării datelor seismice), ci se bazează și pe simțul și experiența geologică. în rezolvarea unor probleme similare. Poate fi necesar să se efectueze descompunere sarcinile și implementarea solutie pas cu pasîn cadrul unei diagrame bloc serial-paralel, mai multe sarcini de recunoaștere.

Când se pregătește un tabel(e) de antrenament, ar trebui, dacă este posibil, să se evite apariția trăsăturilor caracteristice măsurate într-o scară de nume (nominală) cu numărul de valori pe care le acceptă depășind două, deoarece limitează drastic alegerea algoritmului de recunoaștere. . Ele pot conține informații foarte semnificative, dar este mai bine să nu fie incluse în lista de caracteristici. De obicei, clasele sunt formate pe baza valorilor unor astfel de caracteristici.

Selectarea unei familii de reguli de decizie nu este o procedură formală. Cu toate acestea, această alegere are și cerințe formale. De exemplu, dacă printre caracteristici se numără unele nominale sau de ierarhizare, atunci puteți utiliza doar acei algoritmi care sunt capabili să lucreze cu informațiile prezentate în scale calitative.

Unul dintre criteriile principale pentru alegerea unei reguli de decizie este „simplitatea” acesteia. Practica a arătat că ar trebui să se acorde preferință regulilor de decizie mai simple. Dacă printre regulile de decizie „simple” (mai mult, disponibile cercetătorului în implementare software) nu este posibil să găsiți pe cineva capabil să facă față sarcinii (sau, în cazul ( A), reduc radical dimensiunea descrierii), apoi se trece la altele mai complexe etc.

Formalizarea conceptului de simplitate nu este atât de ușoară! În logica matematică și teoria algoritmilor există o întreagă direcție asociată formalizării și studiului simplității construcțiilor matematice, dar familiarizarea cu acest subiect nu este inclusă în obiectivele cursului. Prin urmare, vom trata această problemă ca intuitiv intuitiv. Aparent, cele liniare pot servi drept exemplu pentru cele mai simple reguli de decizie (vezi mai jos). Dacă există două reguli de decizie liniare, atunci cea mai simplă este, evident, cea care utilizează mai puține caracteristici.

Când ( A) atunci când alegeți o familie de reguli de decizie, ar trebui să acordați atenție Atentie speciala asupra capacităţii de a reduce radical dimensiunea descrierii.

După selectarea unei familii, se face o căutare a funcției de decizie și a regulii corespunzătoare, care în această familie au "cea mai buna calitate"în legătură cu materialul de instruire şi examen.

Pentru a evalua calitatea regulii de decizie se folosesc functionali ca de mai jos:

Δ(F,λ,ε)=p 1 M 1 + p 2 M 2 + p 3 M 3 + p 4 M 4 ,

unde pentru materiale de instruire și examen

M 1 – numărul de obiecte recunoscute eronat din clasa I;

M 2 – numărul de obiecte eronat recunoscute din clasa a II-a;

M 3 – numărul de defecțiuni pentru obiectele de primă clasă;

M 4 – numărul de defecțiuni pentru obiectele din clasa a doua.

Coeficienții p j , j=1,...,4, sunt „penalități” pentru o eroare de tipul corespunzător. Cu cât valoarea lui Δ(F,λ,ε) este mai mică (cu liste fixe de obiecte de învățare și examinare), cu atât este mai mare calitatea regulii de decizie.

După ce valorile funcției de decizie au fost calculate pentru toate obiectele de antrenament și examinare, parametrii de control ai algoritmului λ, ε pot fi selectați optim, adică. astfel încât calitatea funcțională a regulii de decizie să atingă un minim:

Δ(F,λ * ,ε *)=min Δ(F,λ,ε),

unde minimul este preluat pe toate λ, ε și ε>0.

Când ( A) Un alt criteriu de calitate (și nu mai puțin important) este o reducere bruscă a numărului de caracteristici utilizate în recunoaștere în comparație cu lista originală. Asta pentru ca

Un număr mic de caracteristici reduce influența „zgomotului informațional”, ceea ce face recunoașterea mai fiabilă;

Timpul necesar pentru pregătirea descrierilor mostrelor este redus. Astfel, la recunoașterea la nodurile grilei, numărul de hărți care trebuie construite scade;

Devine posibil să se interpreteze în mod semnificativ regula deciziei etc.

Eșantioanele sunt descrise pe baza caracteristicilor utilizate în regula de decizie optimă. Când ( A) acest lucru este deosebit de important deoarece, în special, timpul de pregătire a descrierilor este redus semnificativ.

Exemple de algoritmi de recunoaștere

Sute de metode de recunoaștere au fost publicate până în prezent. Sunt uniți în familii. Adesea, aceste familii sunt descrise sub forma unor funcții de decizie (sau reguli) cu parametri nedefiniți. Nu există o clasificare stabilită, general acceptată, a familiilor de algoritmi de recunoaștere. Prin urmare, ne vom limita la o scurtă descriere a mai multor familii de algoritmi care și-au demonstrat eficiența în rezolvarea problemelor geologice aplicate, în special în geologia petrolului și gazelor.

Pentru o introducere detaliată în utilizarea metodelor de recunoaștere în geologia petrolului și gazelor, trimitem cititorul la publicații din anii 60-80 ai secolului trecut, când utilizarea lor în rezolvarea problemelor de profiluri predictive și de căutare era larg răspândită. Metodele de recunoaștere au fost utilizate, în special, în rezolvarea problemelor de prognoză a câmpurilor petroliere gigantice, a productivității ridicărilor locale, a stării de fază a hidrocarburilor din zăcăminte etc. (Pattern recognition..., 1971; Separate forecasting..., 1978, Prognoza câmpurilor..., 1981 etc.).

4.3.1. Reguli bayesiene de decizie

Aceste reguli decisive sunt descrise în detaliu în manual Demin (2005), unde ne referim cititorului. Pentru o înțelegere mai profundă a aplicațiilor teoriei decizionale bayesiene în geologia petrolului și gazelor, vă recomandăm să consultați monografia (Prognoza câmpurilor..., 1981).

4.3.2. Metode combinatoriale-logice în recunoaștere

Să luăm în considerare aplicarea acestor metode folosind exemplul unei scheme de recunoaștere specifice bazate pe aparatul de matematică discretă și logica matematică.

În primul rând, pentru simplitatea prezentării, toate semnele X 1,...,X n să fie binare. Conform lui Zhuravlev (1978), numim o mulțime arbitrară W de mulțimi de caracteristici de forma w=(X j (1) ,…,X j (k)), unde k=1,…,n, un sistem de mulţimi suport, W=(w 1 , w 2 ,…, w N ), iar elementele sale w r sunt mulţimi suport.

Fie wÎW, w=(X j (1) ,…,X j (L)), S k – rând de tabel, Q p – rând de tabel. Rândurile S k și Q p diferă în setul de caracteristici w dacă există o caracteristică X j (r) inclusă în w astfel încât X j (r) (S k)¹X j (r) (Q p). Altfel vom spune că nu diferă.

Definiția 1.Set de caracteristici wÎW voturi pentru atribuirea rândului S primei clase dacă în tabel T 1 există un șir S k astfel încât șirurile S și S k nu diferă de mulțimea w; w voturi pentru atribuirea rândului S la clasa a doua dacă în tabel T 2 există un șir Q p astfel încât șirurile S și Q p nu diferă de mulțimea w.

pentru Г 1 (S) > Q p) și Г 2 (S) ≤ Г 2 (S i), obiectul S aparține clasei K 1;

pentru Г 2 (S) > S i) și Г 1 (S) ≤ Г 1 (Q p), obiectul S aparține clasei K2;

în alte cazuri, S nu este recunoscut.

Sensul acestei reguli decisive este că pentru a atribui un eșantion S la clasa K j, unde j = 1,2, acesta trebuie să primească

Această schemă este una dintre cele mai simple opțiuni pentru vot folosind un sistem de set de suport. Algoritmul este o implementare a așa-numitului „principiu al precedentului parțial” (Zhuravlev, 1978), în care se face o concluzie despre apartenența unui obiect la o clasă pe baza unei analize a potrivirilor fragmentelor descrierii sale cu fragmentele corespunzătoare de descrieri ale obiectelor acestei clase. Coincidența fragmentelor de descrieri ale obiectului de învățare și testului este un precedent parțial.

Exemplu de sistem de set suport: structura de testare. La baza ei se află conceptele de test și de testare fără fund propuse de S.V. Yablonsky ca aparat de diagnosticare matematică dispozitive tehnice(Zhuravlev, 1978).

Definiția 2. Setul de coloane w se numește Test pentru o pereche de tabele T 1, T 2 dacă nu există potriviri între rândurile S i și Q p, unde

Definiția 3.Testul este numit capat de drum, dacă nici o singură coloană nu poate fi scoasă din ea fără ca aceasta să înceteze a fi un test.

Dmitriev, Zhuravlev, Krendelev (1966) au folosit aparatul de teste în impas pentru a crea algoritmi de clasificare a obiectelor și fenomenelor.

În geologia petrolului și gazelor, metodele combinatoriale-logice au fost utilizate pentru prima dată în rezolvarea problemelor de prognoză a câmpurilor petroliere gigantice (Pattern Recognition..., 1971), unde a fost utilizat un design de testare. Sub conducerea A.A. Abordarea de testare a lui Trofimuk a fost aplicată și pentru rezolvarea altor probleme importante de prognoză în geologia petrolului și gazelor (Prognoză separată..., 1978 etc.). Un serial realizat de A.A. Prognozele lui Trofimuk, care nu au găsit susținere la momentul publicării, au fost ulterior confirmate cu brio.

Konstantinov, Koroleva, Kudryavtsev (1976), folosind material factual reprezentativ privind prognoza minereului, au confirmat eficacitatea algoritmilor de abordare a testului în comparație cu alți algoritmi de recunoaștere utilizați pentru a rezolva problemele de prognoză a minereului.

În geologia petrolului și gazelor nu au fost utilizate alte sisteme de set de referință.

Dacă tabelele conțin caracteristici măsurate pe scale cantitative, atunci pentru ele sunt utilizate măsuri de prag de discriminare a valorilor (vezi Krasavchikov, 2009).

4.3.1. Metode liniare

Metodele liniare au fost printre primele care au fost folosite pentru a rezolva problemele de recunoaștere a modelelor (vezi Tu, Gonzalez, 1978) la mijlocul secolului trecut.

Fie F(u 1 ,…,u n)=a 1 u 1 + a 2 u 2 + … +a n u n – funcție liniară n variabile u 1 ,…,u n . Metodele de găsire a funcțiilor și regulilor de decizie liniare sunt de obicei numite liniare. Forma generală regulile de decizie liniare pot fi specificate după cum urmează:

pentru un 1 X 1 (S) + un 2 X 2 (S) + … +a n X n (S)≥λ+ε obiectul S se referă la K 1;

pentru un 1 X 1 (S) + un 2 X 2 (S) + … +a n X n (S)≤λ-ε obiectul S se referă la K 2;

la λ-ε

Lăsa , . Pentru a verifica existența unei reguli de decizie liniară, este suficient să verificăm existența unei soluții a sistemului de inegalități liniare pentru orice ε>0:

,

unde j=1,…,n, i=1,…,m(1), k=m(1)+1,…,m cu necunoscute y 1 ,…,y n (valorile dorite ale coeficienților a j ) și λ. Pentru a verifica existența unei soluții la sistemele de inegalități liniare, se folosesc metode de calcul ale algebrei liniare; această verificare „nu este prea complexă” și software-ul este conținut în pachete utilizate în mod obișnuit. Dacă există o soluție, atunci ea este fie unică, fie sunt infinite dintre ele.

Există numeroase metode pentru găsirea regulilor de decizie liniare care implementează diverse cerințe suplimentare (cum ar fi maximizarea ε, reducerea dimensiunii descrierii etc.).

Interpretarea geometrică a regulii de decizie liniară este următoarea. Fie ca toate caracteristicile să fie măsurate în scale cantitative și spațiu euclidian n-dimensional. Hiperplanul a 1 X 1 +a 2 X 2 +…+a n X n = λ împarte E n în două părți în așa fel încât fiecare dintre ele să conțină puncte ale uneia dintre clase. Astfel de hiperplanuri se numesc împărțind.

Situația devine considerabil mai complicată dacă nu există un hiperplan de separare și este necesar să se găsească un hiperplan care să minimizeze calitatea recunoașterii funcționale. Din punct de vedere computațional, această problemă este mult mai dificilă.

Metodele de recunoaștere liniară au fost folosite de câțiva ani pentru a prezice productivitatea ridicărilor locale și a clarifica limitele rezervoarelor naturale de hidrocarburi din zăcămintele Jurasicului mijlociu inferior din Siberia de Vest (Kashtanov și Sokolov, 1976, Krasavchikov, 2007).

Comanda

În practică, în loc să găsim o funcție de decizie care să satisfacă lanțul de inegalități (1), este adesea suficient să obținem o corelație „bună” a ordonării în ordine descrescătoare a valorilor funcției F cu ordonarea pe material de instruire. Acest lucru este de o importanță fundamentală, deoarece funcția decisivă pentru care sunt satisfăcute inegalitățile (1) poate să nu existe în clase de funcții „simple” (cum ar fi liniare etc.). Pentru a rezolva aproximativ această problemă, puteți utiliza aparatul matematic de regresie liniară multiplă, implementat în produsul software Statistica pentru Windows.

Să se caute soluția aproximativă F în clasa funcțiilor liniare,

F(u 1 ,u 2 ,…,u n)= A 1 u 1 + a 2 u 2 +…+ un n u n + b,

Unde A 1 ,…,A n, b sunt coeficienții variabilelor și, respectiv, termenul liber, Ψ este o funcție monotonă definită pe setul de valori ale atributului țintă (de exemplu, logaritmul, vezi explicația din Secțiunea 10). Apoi, rezolvând o problemă de regresie liniară multiplă de forma:

gaseste un 1 ,…, A n, b, pentru care funcționalitatea

atinge un minim,

obţinem o soluţie aproximativă a problemei de ordonare prin aproximarea unei funcţii monotone a caracteristicii ţintă. Deoarece funcția Ψ este monotonă, este posibil, folosind coeficientul Spearman, să se evalueze fiabilitatea relației dintre soluția problemei de regresie și valorile atributului țintă. X n +1. Sens r s este un indicator natural al calității unei soluții aproximative a problemei de ordonare.

Se poate arăta că a găsi exacte pentru a rezolva F din clasa funcțiilor de decizie liniare, este suficient să rezolvi un sistem de m-1 inegalități liniare nestrictive cu n necunoscute p 1 ,…,p n:

, i=1,…,m-1, (3)

unde n este numărul de caracteristici, e>0 este o mică constantă pozitivă. În acest caz, după cum este ușor de observat, diferențele X j (S i) - X j (S i +1) = H ij sunt mărimi cunoscute. În schimb, din existența unei soluții a sistemului de inegalități liniare (3) rezultă că există o soluție a sistemului de inegalități (2). Cu toate acestea, după cum sa menționat deja, în clasa funcțiilor de decizie liniare este posibil să nu existe o soluție.

Software-ul pentru rezolvarea sistemelor de inegalități liniare nestrictive nu este disponibil în pachetul Statistica. Cu toate acestea, în principiu, este destul de comun și este conținut în produse software concepute pentru a rezolva probleme de algebră computațională.

Analiza grupului

Există un număr mare de metode și algoritmi de analiză a clusterelor. Dintre acestea, se remarcă două grupuri mari, cărora le aparțin majoritatea algoritmilor publicati. Aceștia sunt algoritmi ierarhici care generează clasificări arborescente ale obiectelor și algoritmi care generează partiții (grupări).

Algoritmi ierarhici

Dintre algoritmii ierarhici se pot distinge două clase principale: aglomerative și divizive. Aceștia sunt algoritmi pas cu pas. Algoritmii aglomerativi încep cu fiecare obiect fiind un cluster separat și se termină cu toate clusterele fiind combinate într-un singur obiect. La fiecare pas, cele două grupuri „cel mai apropiate”, într-un anumit sens, sunt combinate. Proximitatea dintre clustere este dată de „distanță” sau o măsură a proximității. Prin „distanță” în acest caz înțelegem o funcție simetrică nenegativă. Exemple de astfel de funcții vor fi discutate mai jos. În metodele divizionare, dimpotrivă, la primul pas toate obiectele formează un grup, în ultimul - fiecare obiect reprezintă un grup separat.

6.1.1. Algoritmi aglomerativi

Să luăm în considerare metodele aglomerative prezentate în pachetul Statistica pentru Windows. Pentru a face acest lucru, definim mai întâi funcțiile care sunt utilizate pentru a estima distanțele dintre submulțimi finite ale spațiului metric. M.

Lăsați setul de descrieri de obiecte S=(S 1 ,…,S m ) caracteristicile X 1 (S),…,X n (S) sunt cuprinse în spațiul euclidian E n , astfel încât pentru orice pereche de obiecte S i , S j din S se definește metricul (distanța) ρ ij = ρ(S i ,S j) și se poate compila o matrice simetrică a distanțelor R=(ρ ij) m ´ m. Să dăm exemple de funcții a două variabile, ale căror valori joacă rolul distanțelor dintre submulțimile disjunse în analiza clusterului, deși, formal, aceste funcții nu sunt metrici. Fie A l , A q М S nu au elemente comune, A l ÇA q = Æ. Apoi:

a) ρ lq este egală cu distanța dintre cele mai apropiate două obiecte ale mulțimilor A l , A q ;.

b) ρ lq este egală cu distanța dintre obiectele cele mai îndepărtate ale mulțimilor A l, A q;

c) ρ lq este egală cu distanța dintre centrele de greutate ale mulțimilor A l, A q (puncte cu medie

valorile tuturor indicatorilor);

d) ρ lq este egal cu media aritmetică a distanțelor dintre obiectele mulțimilor A l, A q;

e) ρ lq este egală cu distanța dintre punctele cu valorile mediane ale caracteristicilor pentru multiplu

proprietăți A l, A q;

e) ρ lq este egal cu suma distanțelor dintre elementele mulțimilor A l, A q.

g) ρ lq este egal cu așa-numita „distanță statistică” (Durand, Odell, 1977) între

seturi A l , A q:

.

Iată vectorii valorilor medii ale caracteristicilor pentru submulțimile A l , A q , T– semn de transpunere. Astfel, „distanța statistică” dintre submulțimile A l, A q este pătratul distanței dintre vectorii valorilor medii ale caracteristicilor (centre de greutate) cu coeficientul m l m q /(m l +m q).

În algoritmii de aglomerare ierarhică bazați pe calcularea „distanțelor” dintre submulțimile A l , A q de forma (a-g) și altele asemenea, la primul pas fiecare obiect este considerat un cluster separat. La pasul următor, cele mai apropiate două obiecte sunt combinate pentru a forma o nouă clasă, iar „distanțele” de la această clasă la toate celelalte obiecte sunt determinate. În consecință, matricea distanțelor se modifică ținând cont de rezultatele grupării, inclusiv prin reducerea dimensiunii acesteia. La pasul p, aceeași procedură se repetă pentru clustere și matricea distanțelor din pasul anterior R p -1 până când toate obiectele sunt combinate într-un singur cluster. Spre deosebire de R 1 =R, când p>1 elementele lui R p nu sunt distanțele dintre obiecte, ci „distanțele” dintre clustere.

Dacă mai multe obiecte (sau grupuri) au o „distanță” minimă simultan, atunci sunt posibile două strategii: selectați o pereche aleatorie sau combinați toate perechile deodată. Prima metodă este clasică; Uneori în literatură se numește clasificare ierarhică ascendentă. A doua metodă este folosită mult mai rar.

Metoda bazată pe calcularea „distanței statistice” (vezi paragraful (g) de mai sus) se numește metoda Ward (Mandel, 1988) după numele specialistului care a propus-o. Numele metodelor rămase sunt determinate de distanța folosită în ele.

Rezultatele tuturor procedurilor aglomerative ierarhice sunt de obicei prezentate sub forma așa-numitelor dendrograme(vezi fig. 1), în care numerele obiectelor sunt afișate pe orizontală, iar valorile distanțelor între grupuri ρ lq la care cele două grupuri fuzionate sunt afișate pe verticală.

6.1.2. Algoritmi divizibili

Vom descrie această clasă de algoritmi de analiză de cluster folosind exemplul „Algoritm combinațional divizional rapid” propus de Chaudhuri (Mandel, 1988). Experimentele efectuate la INGG au arătat eficiența sa ridicată în rezolvarea problemei grupării secțiunilor prin grosimile orizontului lor constitutiv pe baza informațiilor conținute în grilele de grosime. Prelucrarea informațiilor privind Jurasicul Mijlociu din sud-estul WSP a arătat că grupează rapid și „inteligent” cantități uriașe de date reprezentate de modele de grilă. Utilizarea altor algoritmi pentru a grupa aceste matrice, uneori constând din mai mult de un milion de obiecte caracterizate prin mai mult de 10 caracteristici, este adesea imposibilă sau extrem de dificilă. Algoritmul Chaudhuri nu este prezentat în produsul software „Statistica pentru Windows”.

Pentru concizie, vom numi și acest algoritm algoritmul hipercub. Să facem o scurtă descriere a acesteia.

Hipercubul, care conține toate punctele (determinate de gama de variație a caracteristicilor), este împărțit la prima treaptă de-a lungul fiecărei axe de un plan perpendicular pe aceasta în 2 n„cub” unde n– numărul de semne. Pe j La pasul -, fiecare dintre aceste cuburi este, de asemenea, spart, adică se dovedește 2 n j hipercub. Dacă cubul rezultat conține cel puțin un obiect, acesta este considerat umplut; dacă nu, este considerat gol. Un cluster aici este cea mai mare zonă conectată în care două obiecte sunt conectate prin celule nevide (adică, o componentă conexă a unui grafic ale cărui vârfuri sunt obiecte și două vârfuri în care sunt conectate printr-o muchie dacă și numai dacă sunt fie în aceeași celulă, fie le conțin celulele au o margine comună, chiar dacă este formată dintr-un punct).

Pe măsură ce cresc j numărul de clustere este în creștere, adică Algoritmul este de natură divizor. Este unul dintre cei mai rapidi algoritmi ierarhici, nu necesită normalizarea preliminară a indicatorilor, stocarea și recalcularea matricei distanțelor și poate funcționa în spațiul original. Acestea și alte caracteristici îl fac unul dintre cei mai preferați algoritmi pentru construirea clasificărilor ierarhice în cazul bazelor de date mari.

Sectiunea 2

1. Funcția decisivă în recunoașterea modelelor este o mapare care convertește un set de valori ale diferitelor tipuri de caracteristici X 1 (S),...,X n (S) într-un număr. Acest număr este valoarea funcției de decizie F pe obiectul S. Regula de decizie în recunoașterea modelelor este o declarație care conține valorile funcției de decizie și ale parametrilor de control și, ținând cont de aceste valori, fie atribuie eșantionează la una dintre clase sau refuză recunoașterea.

2. Formulați conceptul de funcție de decizie în raport cu problema de ordonare.

3. Caracteristica țintă în raport cu versiunea problemei de ordonare formulată în Secțiunea 2 poate fi a) logică; b) nominal?

4. De ce a fost numită „învățare nesupravegheată” la etapele inițiale de dezvoltare a analizei cluster (spre deosebire de recunoașterea modelelor)?

5. Dependenţa dintre caracteristici poate fi prezentată atât sub forma rezolvată faţă de una sau alta caracteristică, de exemplu, X j ≈ f(X i ,X k ,…,X l), cât şi fără o astfel de rezoluţie. De exemplu, (ln(X j)) 2 + ln(X j +X k) -1≈0.

6. Formulați problema recunoașterii ca sarcină de completare a unui singur gol.

7. Formulați sarcina de a completa un singur gol într-un atribut binar sau nominal ca sarcină de recunoaștere.

Secțiunea 3

1. În ce cazuri și de ce să evaluăm relația dintre cantitativ semne de folosit rațional rang Coeficientul Spearman?

2. Regresia liniară multiplă va rezolva întotdeauna problema de ordonare cu acuratețe?

3. Este posibil să se aplice modelul de regresie liniară din secțiunea 3 dacă Y este un atribut de rang?

4. Este posibil să se aplice modelul de regresie liniară din secțiunea 3 dacă Y este un atribut nominal?

5. Este posibil să se aplice modelul de regresie liniară din secțiunea 3 dacă cel puțin o caracteristică din lista X 1,...,X n este de rang sau nominal?

6. Este posibil, fără normalizarea prealabilă a caracteristicilor, să se compare ponderile cu care acestea sunt incluse în ecuația de regresie pentru a le ordona în funcție de influența lor asupra valorii indicatorului prezis?

7. Ce este b în secțiunea „Regresie liniară multiplă” a pachetului „Statistica pentru Windows”? Cum pot fi utilizate valorile b j atunci când se compară trăsăturile caracteristice pe baza influenței lor asupra valorii caracteristicii dependente (țintă)?

Secțiunea 4

1. Care este explicația în stadiul formării unei liste de caracteristici inițiale?

2. Cum ne permit sancțiunile pentru erori și eșecuri să reglementăm evaluarea calității recunoașterii?

3. Care dintre cele două reguli liniare de decizie care au aceeași evaluare a calității recunoașterii este de preferat: una folosind 5 caracteristici sau 7?

4. Dacă metoda de recunoaștere este utilizată pentru a clarifica limitele (lateral) ale unui obiect geologic în secvența sedimentară, atunci un anumit procent de defecțiuni sau chiar erori în nodurile grilei pot să nu afecteze locația prevăzută a limitei acestuia. Ca urmare a rezolvării problemei recunoașterii modelului pentru nodurile grilei pentru a determina dacă o zonă locală (al cărei centru este un nod) aparține obiectului modelat, apare o versiune preliminară a graniței. De obicei, ca urmare a analizei versiunii rezultate, situația geologică, în general, devine clară, astfel încât cercetătorul este deja capabil să tragă „independent” granița obiectului.

5. Ca urmare a rezolvării problemelor de recunoaștere folosind caracteristici calculate din grile de suprafețe geofizice de referință și date de foraj adânc (defalcare pe niveluri stratigrafice, grosimea orizontului etc.), limitele (laterale) ale principalelor orizonturi stratigrafice în partea inferioară - Depozitele Jurasicului mijlociu ale Siberiei de Vest, care, la rândul lor, au făcut posibilă clarificarea estimărilor resurselor de hidrocarburi din Jurasic într-un număr de regiuni mari.

6. La citirea lucrărilor privind aplicarea metodelor de recunoaștere în geologia petrolului și gazelor, trebuie avut în vedere că, de regulă, cercetătorul se bazează pe experiența sa în rezolvarea unor probleme similare și pe datele din literatură; În același timp, nu folosește software-ul „cel mai bun”, ci cel pe care îl are și știe să îl folosească.

7. Experienta in rezolvarea a numeroase probleme practice in domeniul modelarii obiectelor geologice intr-un strat stratificat ne permite sa formulam urmatoarele cerinte pentru algoritmi si software de recunoastere a modelelor in legatura cu modelarea obiectelor regionale, zonale si locale intr-un bazin sedimentar:

- „a fi capabil” să lucreze cu caracteristicile specificate pe grile;

- găsiți reguli de decizie simple și ușor de interpretat;

- asigura o reducere efectivă a dimensiunii de descriere n;

- munca cu caracteristici dependente și eterogene;

- ia în considerare natura complexă a divizării claselor (lateral).

Secțiunea 5

Analiza de regresie liniară multiplă este concepută pentru a găsi dependența liniară a caracteristicii Y de caracteristicile X 1 ,…,X n

Y≈ A 1 X 1 +…+ a n X n + b=L(X1,..., Xn). (4)

În problema de ordonare, este necesar să se rezolve o problemă mai generală: să se găsească dependența F, care aranjează obiectele de învățare în ordinea descrescătoare a valorilor caracteristicii țintă X n +1. În acest caz, se poate dovedi că valorile funcției F pentru obiecte de antrenament și mostre nu vor coincide cu valorile caracteristicii țintă.

Rezolvarea problemei de regresie liniară a găsirii minimului funcționalului (4) poate să nu conducă la găsirea unei aproximări acceptabile a soluției problemei de ordonare. Cu toate acestea, puteți încerca să transformați caracteristica țintă X n +1 cu o funcție monotonă Ψ în așa fel încât pentru Ψ(X n +1) aproximarea dorită să poată fi obținută folosind metoda celor mai mici pătrate. Deoarece Ψ este monoton, aceasta oferă o soluție la problema de ordonare.

Cel mai probabil, nu există o modalitate „universală” de a selecta Ψ. Cu toate acestea, putem oferi câteva recomandări practice pentru selectarea acestuia.

Funcția monotonă Ψ este utilizată de obicei în cazul în care coeficientul de corelație de pereche „obișnuit”. r(Demin, 2005, pp. 42-44) între valorile caracteristicii țintă X n +1 și valorile corespunzătoare calculate folosind ecuația de regresie liniară multiplă este „mică”. În același timp, considerentele de fond ne permit să presupunem că este încă posibilă ordonarea obiectelor în ordinea descrescătoare a atributului țintă X n +1 în funcție de valorile X 1 ,..., X n. Cel mai adesea, regresia liniară multiplă cu Ψ „bine aleasă” este aplicată cu succes atunci când distribuția valorilor în secvența X n +1 (S m), X n +1 (S m -1),..., X n +1 (S 1) are un caracter neliniar pronunțat, comparabil, de exemplu, cu unul exponențial. Funcția Ψ este de obicei aleasă în așa fel încât să elimine, dacă este posibil, neliniaritatea ascuțită. Logaritmul este un exemplu tipic al unei astfel de funcții, folosit în mod repetat în situații similare atunci când se rezolvă probleme practice

Secțiunea 6

1. Fie A l =((0,1), (2,0), (2,3)), A q =((5,1), (6,2), (8,3), (9 ,5), (10,7)). Calculați distanțele (a–g).

2. Presupunând S= A l ÈA q, rezolvați problema grupării unei colecții de obiecte S folosind metoda Choudary

3. La nivel local, pentru o singură zonă sau cluster de zone (zonă „mică”), analiza cluster este utilizată cu succes pentru a corela faliile disjunctive conform datelor seismice 3D (Kashik et al, 2004).

Experiența în utilizarea analizei cluster la nivel regional și zonal a arătat că aceste metode pot oferi informații utile despre istoria dezvoltării straturilor studiate și procesele tectonice, tipurile de secțiuni geologice, distribuția lor laterală, zonele de dezvoltare a rezervorului în ele și continutul de petrol si gaze. Cu toate acestea, pentru aceasta, după cum s-a dovedit, sunt necesare grile regulate destul de „dense” de grosimi de sedimente, astfel încât principalul factor care limitează utilizarea acestuia în construcțiile regionale și zonale (în cazul teritoriilor „mari”) este nevoia de a stoca și recalculați matricea distanțelor pentru întregul set de obiecte.

Pe baza estimării complexității calculului , apoi la nivel local, cu excepția prelucrării datelor seismice 3D, este foarte posibil să folosiți aproape orice algoritm de analiză a clusterelor. Atunci când se realizează construcții regionale și zonale folosind modele de grilă (în cazul teritoriilor „mari”), precum și la prelucrarea datelor seismice 3D (chiar și la nivelul unei zone individuale sau „zonă mică”), este recomandabil să alegeți un algoritm care nu necesită recalcularea matricei distanțelor, de exemplu, metoda Choudary.

4. Să schițăm, în termeni generali, o abordare care face posibilă utilizarea eficientă a analizei cluster a datelor de foraj în construcțiile predictive. Să analizăm, de exemplu, datele privind un rezervor de hidrocarburi regional sau zonal. Pe baza unei liste inițiale de caracteristici (fără a include rezultatele testelor și coordonatele acestora), obiectele sunt grupate.

Analiza datelor

Analiza datelor- un domeniu de matematică și informatică care se ocupă cu construirea și cercetarea celor mai generale metode matematice și algoritmi de calcul pentru extragerea cunoștințelor din date experimentale (în sens larg); proces de explorare, filtrare, transformare și modelare a datelor pentru extragere Informatii utileși luarea deciziilor. Analiza datelor are multe aspecte și abordări, acoperind metode diferite V diverse zoneștiință și activitate.

Analiza datelor sociologice

Scopul principal al analizei datelor în sociologie este identificarea (confirmarea, corectarea) a unor modele statistice de interes pentru cercetător; sau, cu alte cuvinte, un anumit tip de compresie, medierea informațiilor conținute în date. În metodologia analizei datelor ca domeniu al metodologiei cercetării sociologice, ar trebui să se distingă structural cel puțin următoarele părți interconectate:

Note


Fundația Wikimedia. 2010.

Vedeți ce este „Analiza datelor” în alte dicționare:

    Studii statistice legate de calculul unui sistem de date observaționale multidimensionale care are mulți parametri. Iad. clasificate: 1. Prin descrierea unor parametri prin alţii şi alcătuirea de noi parametri. 2. Limba de prezentare... ... Dicţionar de termeni de afaceri

    Engleză analiză, date; limba germana Analiza datei. Etapa sociologiei empirice. cercetare, în cursul căreia cu ajutorul considerațiilor de fond și statisticii matematice. metode bazate pe informații primare, se dezvăluie relațiile dintre variabilele studiate.... ... Enciclopedia Sociologiei

    Analiza datelor- vezi Statistici aplicate... Dicționar economic și matematic

    analiza datelor- — Analiza datelor EN Evaluarea datelor digitale, de ex. date reprezentate printr-o succesiune de caractere de cod. (Sursa: MGH) … … Ghidul tehnic al traducătorului

    ANALIZA DATELOR- 1. Ansamblu de acțiuni desfășurate de un cercetător în procesul de studiu a datelor obținute într-un fel sau altul pentru a-și forma anumite idei despre natura fenomenului descris de aceste date. În procesul lui A.D. cercetător mai des... Enciclopedia Sociologică Rusă

    ANALIZA DATELOR- un domeniu de matematică și informatică care se ocupă cu construirea și cercetarea celor mai generale metode matematice și algoritmi de calcul pentru extragerea cunoștințelor din experimente (în în sens larg) date. În sociologie A.D. folosit in... ... Sociologie: Enciclopedie

    ANALIZA DATELOR- o direcție de cercetare statistică, care include un set de metode de prelucrare a unui sistem multidimensional de date observaționale, caracterizat de multe caracteristici. Spre deosebire de metodele matematice și statistice clasice, care presupun un cunoscut... ... Dicționar economic mare

    ANALIZA DATELOR- (analiza datelor) cercetarea si prelucrarea informatiilor lucrări științifice sondaje sau experimente. Datele sociale pot fi analizate printr-o serie de metode, inclusiv tabelare încrucișată, teste statistice (vezi Statistici și statistici... ... Dicționar sociologic mare explicativ

    ANALIZA DATELOR- – 1. Ansamblu de acțiuni desfășurate de un cercetător în procesul de studiu a datelor obținute într-un fel sau altul pentru a-și forma o anumită idee despre natura fenomenului descris de aceste date. Cercetătorul încearcă datele... ... Dicţionar Enciclopedic de Psihologie şi Pedagogie

    Analiza datelor- un ansamblu de acțiuni desfășurate de un cercetător în procesul de studiu a datelor obținute într-un fel sau altul pentru a-și forma anumite idei despre natura fenomenului descris de aceste date... Dicţionar sociologic Socium

Agenția Federală de Comunicații Instituția bugetară pentru educație de stat federală de învățământ profesional superior „Povolzhsky Universitate de stat telecomunicaţii şi ştiinţa informaţiei” ________________________________________________________________ Departamentul sisteme de informareși tehnologii NOTE DE PRELEȚIE PRIVIND DISCIPLINA ACADEMĂ „ANALIZA DATELOR” în specialitatea (direcția de formare): Sisteme și tehnologii informaționale, Informatică de afaceri Samara 2013 UDC 004.02:004.6 Salmin A.A. Analiza datelor. Note de curs. – Samara.: FGOBU VPO „PGUTI”, 2013. - 111 p. Sunt luate în considerare aspectele analizei datelor. Sunt prezentate câteva dintre metodele fundamentale de analiză a datelor, cum ar fi: analiza regresiei, corelarea, analiza varianței etc. Problemele de data mining, cu ajutorul cărora puteți identifica modele necunoscute anterior, netriviale în date, sunt reflectate. Recenzător: Tarasov V.N. – Doctor în științe tehnice, profesor, șef. Departamentul „Software și control în sisteme tehnice” PGUTI Instituția bugetară de învățământ de stat federal de învățământ profesional superior „Universitatea de stat de telecomunicații și informatică din Regiunea Volga” © Salmin A.A., 2013 2 Conținutul notelor de curs INTRODUCERE 5 1. INTRODUCERE LA „ANALIZA DATELOR” 7 1.1. Lucrul cu datele 7 1.2. Etapele rezolvării problemei analizei datelor și relațiile acestora 9 2. DISTRIBUȚIA PROBABILITĂȚII 18 2.1.Probabilitatea 18 2.2.Distribuțiile probabilității 20 2.3.Variabile aleatoare și eșantioane de date aleatoare 23 2.4.Distribuția normală 24 2.5.Formula Bayes 25 3.1.Intervalele de încredere 30 3.2.Testarea ipotezelor 32 3.2.1. Tipuri de erori 33 3.2.2. Domenii de acceptare și neacceptare 34 3.2.3. distribuţia t 35 3.3. Aplicarea unui test neparametric pentru datele pereche 39 4. ANALIZA DATELOR TABELULUI 43 4.1. Tabele pivot 43 4.2. Calculul numărului preconizat de observații 46 4.3. Statistica chi-pătrat Pearson 48 5. BAZELE ANALIZEI REGRESIUNII 51 5.1. Conceptul de „regresie” 51 5.2. Relație liniară simplă 52 5.2.1. Ecuația de regresie 52 5.2.2. Ajustarea unei drepte de regresie 54 5.2.3. Interpretarea parametrilor de regresie 57 5.3. Verificarea modelului de regresie 59 3 6. CORELARE 63 6.1. Conceptul de „corelare” 63 6.2. Matricea de corelație 65 6.3. Matricea graficelor de împrăștiere a corelațiilor 66 7. APARATE DE REGRESIUNE MULTIPLĂ 69 7.1. Ecuația de regresie multiplă 69 7.2. Testarea ipotezelor de regresie 73 7.3. Regresie în trepte 75 7.4. Regresia logistică 76 7.5. Nu regresie liniara 77 8. ANALIZA VARIANȚEI 78 8.1. Analiza unidirecțională a varianței 78 8.2. Analiza unidirecțională a varianței și analiza regresiei 84 8.2. Analiza bifactorială a varianței 86 9. ANALIZA COGNITIVĂ. GRUPURI 92 9.1. Analiza cognitivă 92 9.2. Metode de analiză cognitivă a situaţiilor complexe 93 9.3. Regresie - analiză cognitivă 96 10. ANALIZA INTELIGENTĂ A DATELOR 99 10.1. Sisteme prelucrare analitică date 99 10.1.1. CRM – tehnologie 99 10.1.2. Sisteme ERP 102 10.1.3. OLAP – tehnologie 103 10.2. Exploatarea datelor ( Exploatarea datelor) 105 10.2.1. Etapele explorării datelor folosind metodele Data Mining 105 10.2.2. Tipuri de modele 106 10.2.3. Metode de extragere a datelor 107 4 INTRODUCERE Notele de curs propuse pentru disciplina „Analiza datelor” pregătesc studenții pentru utilizarea eficientă a instrumentelor computerizate moderne de analiză a datelor. Sunt oferite principalele subiecte dedicate formării deprinderilor teoretice și practice în lucrul cu pachete de aplicații software pentru rezolvarea problemelor de analiză și interpretare a datelor pentru a crea prognoze de situație și a lua decizii de management. În cadrul notelor de curs privind disciplina, sunt luate în considerare diverse modalități de creare, formatare și descriere a principiilor de bază de lucru cu tabele de date în scopul analizei lor ulterioare folosind metode statistice și matematice. Astfel, viitorii specialiști dezvoltă bazele cunoștințelor teoretice și abilităților practice în domeniul analizei datelor și al luării deciziilor de management. De remarcat, de asemenea, se propune utilizarea produsului MS Excel ca software pentru stăpânirea cursului, care dispune de suficiente instrumente de analiză a datelor, precum un pachet de analiză, funcții statistice generale ale vrăjitorului de funcții etc. În plus, se propune utilizarea suplimentară a plug-in-ului StatPlus. Disciplina „Analiza datelor” se bazează pe cunoașterea disciplinelor „ Tehnologia de informație„, „Electronic 5 tabele”, „Probabilitate și statistică”, studiat în instituțiile de învățământ de învățământ superior. Elementele cursului „Analiza datelor” sunt utilizate în studiul cursurilor „Modelarea sistemelor”, „Proiectarea sistemelor informaționale”, „Fiabilitatea sistemelor informaționale”. Scopul materialului din aceste note de curs este de a: - oferi studenților Informații generale pe principiile prelucrării și analizării datelor în vederea obținerii de noi informații de la acestea; - arata metode, instrumente si tehnologii pentru analiza datelor; - arata, folosind exemplul analizei de regresie, principiul obtinerii de noi cunostinte din date. Cunoștințele și aptitudinile obținute în urma studierii acestei discipline pot fi aplicate: 1. la efectuarea analizei datelor în vederea obținerii de informații statistice sau prognozării unei situații; 2. să interpreteze rezultatele obţinute în timpul analizei; 3. la formularea specificațiilor tehnice la crearea unui IP de către dezvoltatori profesioniști. 6 1. INTRODUCERE ÎN „ANALIZA DATELOR” 1.1. Lucrul cu date Datele sunt fapte, evenimente, mesaje, caracteristici măsurate și semnale înregistrate percepute de o persoană. Specificul datelor este că, pe de o parte, ele există independent de observator, iar pe de altă parte, devin „date” reale numai atunci când există un subiect care le colectează în mod intenționat. Concluzia: datele ar trebui să fie fundamentul pe care sunt construite toate concluziile, concluziile și deciziile. Ele sunt secundare în raport cu scopul cercetării și domeniul de studiu, dar primare în raport cu metodele de prelucrare și analiză a acestora, care extrag din date doar acele informații care sunt potențial disponibile în materialul selectat. Datele sunt obținute ca rezultat al măsurătorilor. Măsurarea se referă la atribuirea simbolurilor modelelor conform unor reguli. Aceste caractere pot fi alfabetice sau numerice. Caracterele numerice pot reprezenta, de asemenea, categorii sau pot fi numerice. Există 4 tipuri de scale de măsurare: 1) Scala de nume. Această scară este utilizată numai în scopuri de clasificare. Fiecărei clase de date i se atribuie propria denumire, astfel încât denumirile diferitelor clase să nu coincidă. De exemplu, clasificarea persoanelor după gen M și F (1 și 2, 10 și 100) sau o categorie da/nu. Mai mult decât atât, operațiile aritmetice nu au sens pentru denumirea scalelor. Pentru această scară 7, centrul de măsurare este modul (un element repetat frecvent). 2) Scara ordinală. Această scară vă permite nu numai să împărțiți datele în clase, ci și să organizați clasele în sine. Fiecărei clase i se atribuie o desemnare diferită, astfel încât ordinea desemnărilor să corespundă ordinii claselor. Dacă numărăm clase, atunci clasele sunt în ordine numerică; dacă notăm clase prin litere, atunci clasele sunt în ordine alfabetică. De exemplu, este necesară identificarea indivizilor după trei categorii socio-economice - scăzut, mediu, ridicat: 1 - scăzut, 2 - mediu, 3 - ridicat; sau X – scăzut, Y – mediu, Z – ridicat. Se folosește orice denumire de numere sau litere. Operatii aritmetice pentru această scară nici nu au sens. 3) Scala de intervale. Această scară permite nu numai clasificarea și organizarea datelor, ci și cuantificarea diferențelor dintre clase. Pentru a efectua astfel de comparații, este necesar să introduceți o unitate de măsură și un punct de referință arbitrar (punct zero). De exemplu, temperatura în grade Fahrenheit aparține unei scale de interval, unde 0F este începutul și 1F este unitatea de măsură. 4) Scala de relații. Această scară diferă de scara intervalului doar prin faptul că are un punct de referință absolut. Acestea. Această scală poate fi utilizată pentru a determina de câte ori o măsurătoare este superioară alteia. De exemplu: înălțimea unei persoane în inci aparține unei scale de raport în care 0 inci este un punct de referință fix și 1 inch este o unitate de măsură. 8 În plus, observațiile sunt împărțite în: discrete și continue. Datele numite și ordinale sunt întotdeauna discrete, dar datele de interval și date pot fi fie discrete, fie continue. De exemplu, continuu: tragerea la o țintă (orice rezultat), temperatură (scala de interval); discrete: zaruri (1, 2, 3...6), monedă (capete/cozi), număr de convorbiri telefonice într-o oră (scara de raport) (Fig. 1.1). Orez. 1.1. Date discrete și continue 1.2. Etapele rezolvării problemei analizei datelor și a relațiilor lor Analiza datelor este un set de metode și mijloace de extragere a informațiilor din datele organizate pentru luarea deciziilor. Principalele etape ale rezolvării problemei de analiză a datelor sunt prezentate în partea stângă a Fig. 1.2. În partea dreaptă, fiecare dintre ele este împărțită în etape mai mici. 9 Etapa 1 1.1. Definirea scopului Enunțarea problemei cercetării 1.2. Determinarea compoziției datelor 1.3. Colectarea datelor 1.4. Selectarea instrumentelor de analiză a datelor 1.5. Formalizarea datelor Etapa 2 2.1. Introducerea datelor în memorie Introducerea datelor computerului în 2.2. Lucrul cu prelucrarea arhivei de date 2.3. Formarea unei sarcini de procesare Etapa 3 3.1. Definiție Analiza calitativ-simplică a datelor caracteristice 3.2. Vizualizarea datelor 3.3. Analiza structurii datelor Etapa 4 4.1. Selectarea unui model de date Cantitate 4.2. Efectuarea prelucrării și descrierii datelor Etapa 5 5.1. Analiza rezultatelor Interpretare 5.2. Luarea deciziilor și rezultate Fig. 1.2. Etapele analizei datelor Formularea problemei (este etapa definitorie de care depinde întregul curs de analiză) începe cu etapa de formulare a scopului doar 10

Mecanismul de analiză și prognoză a datelor oferă utilizatorilor (economiști, analiști etc.) posibilitatea de a căuta modele neevidente în datele acumulate în baza de informații. Acest mecanism permite:

  • căutarea tiparelor în datele sursă ale bazei de informații;
  • gestionează parametrii analizei efectuate atât programatic, cât și interactiv;
  • realiza acces programatic la rezultatul analizei;
  • afișa automat rezultatul analizei în document foaie de calcul;
  • creați modele de prognoză care vă permit să preziceți automat evenimentele ulterioare sau valorile anumitor caracteristici ale obiectelor noi.

Mecanismul de analiză a datelor este un set de obiecte limbaj încorporate care interacționează între ele, ceea ce permite dezvoltatorului să-și folosească componentele în orice combinație în orice soluție de aplicație. Obiectele încorporate facilitează organizarea configurației interactive a parametrilor de analiză de către utilizator și, de asemenea, vă permit să afișați rezultatul analizei într-o formă convenabilă pentru afișare într-un document foaie de calcul.

Mecanismul vă permite să lucrați atât cu date obținute din baza de informații, cât și cu date obținute din sursă externă, preîncărcat într-un tabel de valori sau într-un document de foaie de calcul:

Aplicând unul dintre tipurile de analiză datelor sursă, puteți obține rezultatul analizei. Rezultatul analizei reprezintă un anumit model de comportament al datelor. Rezultatul analizei poate fi afișat în documentul final sau salvat pentru utilizare ulterioară.

Utilizarea ulterioară a rezultatului analizei este că pe baza acestuia poate fi creat un model de prognoză care să permită prezicerea comportamentului noilor date în conformitate cu modelul existent.

De exemplu, puteți analiza ce produse sunt achiziționate împreună (într-o singură factură) și puteți salva acest rezultat al analizei în baza de date. Mai târziu, la crearea următoarei facturi:

Pe baza rezultatului analizei salvate, puteți construi un model de prognoză, îl puteți alimenta cu „intrare” cu date noi conținute în această factură și „ieșire” să primiți o prognoză - o listă de bunuri pe care contrapartea B.S. Petrov. De asemenea, cel mai probabil le va dobândi dacă i se oferă:

Motorul de analiză și prognoză a datelor implementează mai multe tipuri de analiză a datelor:

Tipuri de analiză implementate

Statistica generala

Este un mecanism de colectare a informațiilor despre datele din eșantionul studiat. Acest tip de analiză este destinat investigației preliminare a sursei de date analizate.

Analiza relevă o serie de caracteristici ale câmpurilor numerice și continue. Când trimiteți raportul într-un document de foaie de calcul, completați diagrame circulare pentru a afișa compoziția câmpurilor.

Caută asociații

Acest tip de analiză caută împreună grupuri de obiecte care apar frecvent sau valori caracteristice și, de asemenea, caută reguli de asociere. Căutarea de asociere poate fi utilizată, de exemplu, pentru a determina împreună bunuri sau servicii achiziționate frecvent:

Acest tip de analiză poate funcționa cu date ierarhice, ceea ce permite, de exemplu, să găsești reguli nu numai pentru anumite produse, ci și pentru grupurile acestora. Caracteristică importantă Acest tip de analiză este capacitatea de a lucra atât cu o sursă de date obiect, în care fiecare coloană conține o anumită caracteristică a obiectului, cât și cu o sursă de evenimente, în care caracteristicile obiectului sunt situate într-o coloană.

Pentru a face rezultatul mai ușor de perceput, este prevăzut un mecanism pentru a elimina regulile redundante.

Căutare secvență

Tipul de analiză de căutare secvențială vă permite să identificați lanțuri secvențiale de evenimente într-o sursă de date. De exemplu, acesta ar putea fi un lanț de bunuri sau servicii pe care clienții le cumpără adesea secvenţial:

Acest tip de analiză permite căutări ierarhice, ceea ce face posibilă urmărirea nu numai a secvențelor unor evenimente specifice, ci și a secvențelor grupurilor părinte.

Un set de parametri de analiză permite unui specialist să limiteze distanțele de timp dintre elementele secvențelor căutate, precum și să ajusteze acuratețea rezultatelor obținute.

Analiza grupului

Analiza cluster vă permite să împărțiți setul original de obiecte studiate în grupuri de obiecte, astfel încât fiecare obiect să fie mai asemănător cu obiectele din grupul său decât cu obiectele din alte grupuri. Analizând în continuare grupurile rezultate, numite clustere, puteți determina cum este caracterizat acest sau acel grup și puteți decide asupra metodelor de lucru cu obiecte. diverse grupuri. De exemplu, folosind analiza clusterului, puteți împărți clienții cu care compania lucrează în grupuri pentru a aplica strategii diferite când lucrezi cu ei:

Folosind parametrii analizei cluster, analistul poate configura algoritmul prin care va fi efectuată partiționarea și, de asemenea, poate modifica dinamic compoziția caracteristicilor luate în considerare în analiză și poate configura coeficienți de ponderare pentru acestea.

Rezultatul grupării poate fi afișat într-o dendrogramă - un obiect special conceput pentru a afișa relații secvențiale între obiecte.

Arborele de decizie

Tipul de analiză a arborelui de decizie vă permite să construiți structura ierarhica reguli de clasificare, prezentate sub forma unui arbore.

Pentru a construi un arbore de decizie, trebuie să selectați un atribut țintă pe care va fi construit clasificatorul și un număr de atribute de intrare care vor fi folosite pentru a crea reguli. Atributul țintă poate conține, de exemplu, informații despre dacă clientul a trecut la alt furnizor de servicii, dacă tranzacția a avut succes, dacă munca a fost făcută bine etc. Atributele de intrare, de exemplu, pot fi vârsta angajatului, experiența lui de lucru, situația financiară a clientului, numărul de angajați din companie etc.

Rezultatul analizei este prezentat sub forma unui arbore, al cărui nod conține o anumită condiție. Pentru a decide cărei clase trebuie să i se aloce un nou obiect, este necesar, răspunzând la întrebările de la noduri, să treci prin lanțul de la rădăcină la frunza copacului, trecând la nodurile copilîn cazul unui răspuns afirmativ şi unui nod vecin în cazul unui răspuns negativ.

Un set de parametri de analiză vă permite să ajustați precizia arborelui rezultat:

Modele de prognoză

Modelele de prognoză create de mecanism sunt obiecte speciale care sunt create din rezultatul analizei datelor și vă permit să efectuați automat o prognoză pentru date noi în viitor.

De exemplu, un model de prognoză de căutare de asociere, construit prin analiza achizițiilor clienților, poate fi utilizat atunci când lucrezi cu un client cumpărător pentru a-i oferi bunuri pe care este probabil să le achiziționeze împreună cu bunurile pe care le-a ales.

Utilizarea mecanismului de analiză a datelor în soluții aplicative

Pentru a familiariza dezvoltatorii de soluții de aplicații cu mecanismul de analiză a datelor, o bază de informații demonstrative este plasată pe discul „Information and Technology Support” (ITS). Include prelucrare universală„Consola de analiză a datelor”, care vă permite să efectuați analize de date în orice soluție de aplicație, fără a modifica configurația.

  • Serghei Savenkov

    un fel de recenzie „scurtă”... de parcă s-ar grăbi undeva