Cuantificarea informațiilor. Estimarea cantității de informații nu este un lucru foarte simplu, deoarece depinde de mulți factori, care sunt adesea greu de oficializat. Informații calitative și cantitative

informație- informatii despre obiectele si fenomenele mediului inconjurator, care reduc gradul de incertitudine cu privire la acestea, caracterul incomplet al cunoasterii.

Date - semne sau observații înregistrate care din anumite motive nu sunt folosite, ci doar stocate.

Indicatori de calitate a informațiilor: suficiență, realitate, posibilitate, comoditate pentru percepție, valoare după timpul curent.

2. Sisteme numerice de tehnologie informatică.

Studiul sistemelor numerice care sunt utilizate în computere este important pentru înțelegerea modului în care datele numerice sunt procesate într-un computer.

Notaţie- un mod de a scrie numere folosind un set dat de caractere speciale (numere) și de a compara aceste înregistrări cu valori reale. Toate sistemele numerice pot fi împărțite în non-pozițional și pozițional. În sistemele de numere nepoziționale, care au apărut mult mai devreme decât cele poziționale, semnificația fiecărui caracter nu depinde de locul în care se află. Un exemplu de astfel de sistem de numere este cel roman, în care literele alfabetului latin sunt folosite pentru a scrie numere. În acest caz, litera I înseamnă întotdeauna unul, litera V înseamnă cinci, X înseamnă zece, L înseamnă cincizeci, C înseamnă o sută, D înseamnă cinci sute, M înseamnă o mie etc. De exemplu, numărul 264 este scris ca CCLXIV. Dezavantajul sistemelor nepoziționale este absența regulilor formale de scriere a numerelor și, în consecință, a operațiilor aritmetice cu numere cu mai multe valori.

Folosit în calcul pozițional sisteme de numere. Există multe sisteme de numere poziționale și diferă unele de altele în alfabet - setul de numere folosit. Se numește dimensiunea alfabetului (numărul de cifre din acesta). bază sisteme de numere. Scrierea secvențială a caracterelor alfabetice (numerele) reprezintă un număr. Poziția unui caracter într-un număr este numită deversare. Numărul de bit 0 corespunde bitului cel mai puțin semnificativ al părții întregi a numărului. Fiecare simbol corespunde unui anumit număr, care este mai mic decât baza sistemului numeric. În funcție de poziția (cifra) numărului, valoarea simbolului este înmulțită cu gradul bazei, al cărei indicator este egal cu numărul cifrei.

Astfel, un număr întreg pozitiv A în sistemul de numere pozițional poate fi reprezentat prin expresia:

unde p este baza sistemului numeric, un întreg pozitiv; a - simbol (număr); n este numărul cifrei celei mai semnificative a numărului.

Denumirile cifrelor sunt preluate din alfabet, care conține p caractere. Fiecare cifră corespunde unui anumit echivalent cantitativ. Denumirea ak trebuie înțeleasă ca o cifră în a k-a cifră. Inegalitatea este întotdeauna valabilă: ak

Un exemplu de sistem numeric este binecunoscutul zecimal notaţie. Orice număr din el este scris folosind numere: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9. Este important ca valoarea fiecărei cifre să depindă de locul în care se află în această intrare. De exemplu, 1575: numărul 5 din înregistrarea numărului apare de două ori: numărul 5 din ultima cifră este numărul de unități, iar numărul 5, situat în stânga intrării numărului, este numărul sutelor. Deoarece valoarea fiecărei cifre („greutatea sa”) este determinată de poziția pe care o ocupă cifra în notația numărului, apoi sistemul numeric se numește pozițional. În sistemul numeric zecimal, valoarea unității fiecărei cifre este de 10 ori mai mare decât unitatea cifrei din dreapta adiacentă acesteia. Numărul 10 însuși este numit bază sisteme de numere și numerele utilizate în sistemul zecimal - numerele de bază acest sistem.



Calculatorul foloseste zecimal, binar și hexazecimal sisteme de numere. Numărul de cifre necesare pentru afișarea unui număr într-un sistem de numere pozițional este egal cu p. de bază. De exemplu, numerele binare necesită două cifre, zecimalul necesită zece, iar hexazecimalul necesită șaisprezece.

Sistem binar calculul are un set de cifre (0, 1), p=2.

Sistemul de numere binar are o importanță deosebită în informatică: reprezentarea internă a oricărei informații dintr-un computer este binară, adică. este descrisă de un set de caractere format din doar două caractere 0 și 1.

Reprezentarea informațiilor stocate în memoria computerului în adevărata sa formă binară este foarte greoaie din cauza numărului mare de cifre. Prin urmare, atunci când se înregistrează astfel de informații pe hârtie sau se afișează pe ecran, se obișnuiește să se utilizeze octal sau hexazecimal sisteme de numere. Cele mai multe calculatoare moderne folosesc hexazecimal notaţie. Exemplu:

Pentru a converti numere întregi din zecimală în bază p:

Împărțiți în mod constant numărul dat și părțile întregi rezultate la noua bază numerică (p) până când partea întreagă devine mai mică decât noua bază numerică.

Resturile rezultate din împărțire, reprezentate prin numere din noua socoteală, se scriu ca număr, începând de la ultima parte întreagă. Pentru a converti partea întreagă a unui număr dintr-un sistem de numere zecimal într-un sistem de bază p, trebuie să o împărțiți la p, restul va da cifra cea mai puțin semnificativă a numărului. Coeficientul rezultat este din nou împărțit la p - restul va da următoarea cifră a numărului și așa mai departe.

Exemplu: Convertiți numărul zecimal 25 în sistem de numere binar:

25: 2 = 12 (restul 1);

12: 2 = 6 (restul 0),

6: 2 = 3 (restul 0),

3: 2 = 1 (restul 1),

1:2 = 0 (restul 1).

Deci 25(10) = 11001(2) .

Conversia numerelor din zecimal în hexazecimal se face într-un mod similar. Conversia numerelor din binar în octal și hexazecimal și invers este ușoară, deoarece numerele 8 și 16 sunt puteri întregi ale lui 2.

De exemplu: 12345667(8) = 001 010 011 100 101 110 110 111(2) =

1 010 011 100 101 110 110 111(2);

1100111(2) = 001 100 111(2) = 147(8)

3. Organizarea computerului conform lui Von Neumann. generații de calculatoare. Clasificarea calculatoarelor moderne.


Generații de calculatoare:

  • Primele calculatoare au apărut computere;

a fugit după 1945

  • Prima generație - 1950 - 1960 - calculatoare cu lampă;
  • A 2-a generație -1960 - 1970 - calculatoare cu tranzistori;
  • A 3-a generație - 1970 - 1980 – circuite integrate de calculator;
  • A 4-a generație - 1980 - 1990 - circuite integrate mari și ultra-mari ale calculatoarelor;
  • Generația a 5-a - 1990 - prezent - microprocesoare super complexe;
  • a 6-a și următoarele - calculatoare optoelectronice, modelarea sistemelor biologice.

Clasificarea calculatoarelor moderne:

In functie de conditiile de functionare:

birou (universal);

special.

Birou conceput pentru a rezolva o gamă largă de sarcini în condiții normale de funcționare.

Special calculatoarele servesc la rezolvarea unei clase mai restrânse de probleme sau chiar a unei probleme care necesită soluții multiple și funcționează în condiții speciale de funcționare. Resursele mașinii ale calculatoarelor speciale sunt adesea limitate. Cu toate acestea, orientarea lor restrânsă face posibilă implementarea cât mai eficientă a unei anumite clase de probleme.

După performanță și natura utilizării:

microcalculatoare, inclusiv calculatoare personale;

· minicalculatoare;

mainframe (calculatoare universale);

supercalculatoare.

Microcalculatoare- Sunt calculatoare in care unitatea centrala de procesare este realizata sub forma unui microprocesor. Tip de microcalculator microcontroler. Este un dispozitiv specializat bazat pe microprocesor care este integrat într-un sistem de control sau linie de producție. Personal Calculatoarele (PC-urile) sunt microcalculatoare de uz general concepute pentru un utilizator și controlate de o singură persoană. Clasa de computere personale include diverse mașini - de la aparate ieftine de acasă și de jocuri cu memorie RAM mică, cu memorie de program pe o casetă și un televizor obișnuit ca afișaj (anii 80), până la mașini super-complexe cu un procesor puternic, un hard disk cu o capacitate de zeci de gigaocteți, cu dispozitive grafice color de înaltă rezoluție, instrumente multimedia și alte dispozitive suplimentare.

minicalculatoareȘi superminicalculatoare se numesc mașinile care sunt realizate structural într-un singur rack, adică ocupând un volum de aproximativ o jumătate de metru cub. Acum computerele din această clasă sunt pe cale de dispariție, lăsând loc microcalculatoarelor.

Mainframe-uri concepute pentru a rezolva o clasă largă de probleme științifice și tehnice și sunt mașini complexe și costisitoare. Este indicat să le folosiți în sisteme mari cu cel puțin 200 - 300 de locuri de muncă. Procesarea centralizată a datelor pe mainframe costă de aproximativ 5 până la 6 ori mai puțin decât procesarea distribuită cu o abordare client-server. Celebrul mainframe S/390 de la IBM este de obicei echipat cu cel puțin trei procesoare. Cantitatea maximă de stocare online ajunge la mai mult de 300 Terabytes. Zeci de mainframe pot lucra împreună sub același sistem de operare pentru a efectua o singură sarcină.

Supercalculatoare- Acestea sunt computere foarte puternice, cu o performanță de peste 100 de megaflop (1 megaflop - un milion de operațiuni în virgulă mobilă pe secundă). Se numesc superrapid. Aceste mașini sunt complexe multiprocesoare și (sau) multimașini care funcționează pe o memorie comună și un câmp comun de dispozitive externe. Există supercalculatoare din clasa de mijloc, clasa de deasupra mijlocului și cea de vârf.

În aceste mașini, multe operații similare sunt efectuate în paralel, adică în același timp (aceasta se numește multiprocesare). Astfel, performanța ultra-înaltă nu este asigurată pentru toate sarcinile, ci doar pentru sarcinile care pot fi paralelizate.

4. Echipamentul de bază al unui computer personal. Tipuri de monitoare și modul în care funcționează:

Echipament de bază:

· unitate de sistem;

monitor - afișarea informațiilor grafice și textuale;

· tastatură;

Tipuri de monitor: Monitoare CRT și panouri plate.

Monitoare CRT: toate astfel de monitoare sunt bazate pe un tub catodic (CRT - kinescop). Pentru a crea o imagine pe un monitor CRT, se folosește un pistol de electroni, de unde provine un flux de electroni sub acțiunea unui câmp electrostatic puternic. Printr-o mască sau grătar metalic, acestea cad pe suprafața interioară a ecranului de sticlă a monitorului, care este acoperită cu puncte de fosfor multicolore. Fosforul începe să strălucească sub influența electronilor accelerați, care sunt creați de trei tunuri de electroni. Fiecare dintre cele trei tunuri corespunde uneia dintre culorile primare și trimite un fascicul de electroni către diferite particule de fosfor, a căror strălucire a culorilor primare cu intensități diferite este combinată și ca rezultat se formează o imagine cu culoarea necesară.

panouri plate sunt impartite in:

· Ecran LCD: este format dintr-o matrice LCD (o placă de sticlă cu cristale lichide între straturi) și surse de lumină pentru iluminare din spate. Fiecare pixel al matricei LCD constă dintr-un strat de molecule între doi electrozi transparenți și două filtre de polarizare, ale căror planuri de polarizare sunt perpendiculare.

  • plasma: Ecranul de descărcare în gaz se bazează pe fenomenul luminiscenței unui fosfor sub influența razelor ultraviolete care decurg dintr-o descărcare electrică într-un gaz ionizat, cu alte cuvinte, într-o plasmă.
  • Emițătoare de lumină: un dispozitiv semiconductor format din compuși organici - polimeri, care emite eficient lumină atunci când trece un curent electric prin el.

5. Structura internă a unității de sistem.

Placa de baza este componenta principală a unui computer. Acesta găzduiește unitatea centrală de procesare, care efectuează operațiunile principale atunci când computerul funcționează și controlează toate dispozitivele, inclusiv RAM, unde sunt stocate datele și programele pentru procesor și alte dispozitive. În special, există sloturi speciale pentru instalarea plăcilor de expansiune, care pot fi: o placă de sunet, un modem intern, o placă video pentru ieșirea datelor către un monitor și altele.

unitate de putere este conceput pentru a furniza energie tuturor dispozitivelor din interiorul unității de sistem prin firele care ies din sursa de alimentare.

Unități de disc:

HDD(capacitate, rata de transfer, dimensiune), unitatea de disc salvează informații, astfel încât să puteți continua să lucrați cu ea după oprirea alimentării.;

disc magnetic flexibil;

discuri optice(CD-ROM, CD-R, CD-RW, DVD-ROM, DVD-R, DVD-RW, Blue Ray DVD, HD DVD);

placa video- Calitatea imaginii;

placa de sunet- procesarea sunetului.

Cititor de dischete vă permite să lucrați cu dischete, să scrieți sau să citiți programe și date de pe acestea. Dischetele sunt folosite în principal pentru a transfera informații de la un computer la altul sau pentru a stoca date și sunt folosite în computerele mai vechi.

6. Sisteme situate pe placa de baza. Principalele caracteristici ale microprocesorului.

Orice placa de baza este formata din următoarele grupuri de dispozitive logice:

Set de porturi și conectori pentru a conecta diverse dispozitive computerizate. Autostrada informațională care îi leagă între ele este Obosi. Magistrala de sistem constă dintr-o magistrală de adrese, o magistrală de date, o magistrală de comandă. Cu ajutorul ei, semnalele sunt transmise între dispozitivele computerului, iar informațiile sunt, de asemenea, livrate către CPU. Aceasta include și unele chipset de bază - "chipset", cu care placa de bază controlează tot ce se întâmplă în unitatea de sistem. De asemenea, este inclus un cip numit BIOS, care este un punct focal al plăcii de bază.

Dispozitive suplimentare încorporate (integrate) ale computerului. Există pe plăcile de bază astfel întrerupătoare Cum " săritori„, cu ajutorul cărora sunt reglați parametrii de funcționare ai plăcii de bază, pot fi folosiți și pentru a „reseta” conținutul cipului BIOS. Există și niște conectori de alimentare, la care, la rândul lor, este conectat. mai receȘi indicatori situat pe unitatea de sistem.

Există multe părți diferite pe placa de bază, toate joacă un anumit rol important, dar majoritatea funcțiilor cad pe umerii mai multor microcircuite, care sunt numite colectiv un simplu cuvânt - „chipset”. Depinde de chipset ce tip de memorie și procesor va suporta placa de bază, iar viteza de transfer de date prin autobuz către dispozitivele computerului va depinde și ea. După cum știți, funcția principală a plăcii de bază este de a „construi punți” între dispozitivele computerului, astfel încât componentele principale ale oricărui chipset pot fi numite și „punți”. Chipsetul are două „punți” și fiecare dintre ele este un cip-microcircuit separat și are o sarcină clară:

podul „nord” conectează procesorul, RAM, este responsabil pentru lucrul cu magistrala internă;

puntea „sud” controlează toate dispozitivele periferice conectate ale computerului, precum și controlerele interne (sunet, rețea, porturi etc.).

CPU - acesta este un cristal de siliciu crescut conform unei anumite tehnologii, care conține multe elemente individuale - tranzistoare conectate prin contacte metalice. Cu ajutorul lor, procesorul lucrează cu date, este angajat în calcule, efectuând operații matematice specifice cu numere, din care constă orice informație care intră în computer.

În principiu, procesorul central dintr-un dispozitiv computer nu este singurul; o placă video, o placă de sunet, precum și multe dispozitive externe diferite, cum ar fi o imprimantă sau un scaner, au propriul procesor. Aceste microcircuite funcționează împreună cu Unitatea Centrală de Procesare, dar spre deosebire de aceasta, ele sunt responsabile doar pentru o funcție specifică a computerului, de exemplu, procesarea sunetului sau crearea unei imagini pe ecranul monitorului.

Pe orice chip de procesor se află:

Miezul procesorului este principalul dispozitiv de calcul al unui computer. Aici sunt procesate toate datele care intră în procesor.

coprocesor- o unitate suplimentară inclusă în dispozitivul computerizat, care este proiectată pentru calcule matematice deosebit de complexe. Este utilizat în mod activ atunci când lucrați cu programe grafice sau multimedia.

Cache- Memoria tampon este un fel de stocare pentru date. Folosit adesea în procesoarele moderne 2 tipuri de cache:

primul nivel- mic, doar câteva zeci de kilobytes, dar memorie ultra-rapidă

al doilea nivel- puțin mai lent, dar în volum - de la 128 kilobytes la 2 megabytes.

Trei modificări principale ale procesorului:

"Birou"- folosit pentru a lucra cu jocuri pe calculator și programe multimedia.

"Acasă"- procesoare universale pentru computerele personale de acasă.

"Jocuri"- procesoare deosebit de puternice incluse în dispozitivul computerului, care sunt utilizate pentru sarcini atât de serioase precum procesarea video sau lucrul cu grafică tridimensională, precum și pentru jocuri pe calculator.

Specificații procesor:

Frecvența ceasului - Acesta este numărul de operații sau cicluri elementare pe care procesorul le efectuează într-o secundă.

Numărul de procesoare (nuclee)

Până în prezent, procesoarele Core2 Two Duo dual-core incluse în dispozitivul computerului au ocupat deja o parte specială a pieței, iar epoca procesoarelor Core Two Quad nu este departe pentru a le înlocui. În fiecare an, numărul de nuclee din procesoare se dublează în mod constant.

Adâncimea de biți a procesorului- acesta este numărul maxim de biți de informație pe care procesorul este capabil să îi prelucreze și să îi transmită simultan.

Frecvența ceasului- viteza cu care procesorul extrage informatii. Și adâncimea de biți caracterizează cantitatea de informații care este inclusă în memoria sa virtuală într-o singură ședință.

Până la un anumit moment, toate procesoarele dintr-un dispozitiv computer au fost pe 32 de biți. De-a lungul timpului, lățimea de biți a autostrăzii informaționale autobuz, prin care informațiile de la alte dispozitive computerizate intră în procesor, s-a schimbat. A devenit pe 64 de biți.

Frecvența autobuzului - magistrala, ca și procesorul, are propria așa-numită lățime de bandă, numită frecvență. Cu cât această cifră este mai mare, cu atât mai bine.

Mărimea cache-ului: Memoria cache din procesor este de obicei de două tipuri. Cel mai rapid este cache-ul de prim nivel, care la rândul său are o cantitate mică de memorie de 16,32 kb.

Al doilea tip este memoria cache de nivel al doilea, care este de obicei mai puțin rapidă, dar mai voluminoasă, volumul său ajunge la 2 MB. Trebuie remarcat faptul că fiecare nucleu al unui procesor multi-core are propria sa memorie cache de o anumită cantitate.

7. Clasificarea rețelelor de calculatoare după diverse criterii. Model de referință OSI.

Rețea de calculatoare este o colecție de computere și diverse dispozitive care asigură schimbul de informații între computere dintr-o rețea fără utilizarea vreunui mediu de stocare intermediar.

Clasificare generala: Întreaga varietate de rețele de calculatoare poate fi clasificată în funcție de un grup de caracteristici:

1. Prevalența teritorială;

2. Apartenența departamentală;

3. Viteza transferului de informații;

4. Tipul de mediu de transmisie;

După repartizarea zonei rețelele pot fi locale, globale și regionale.

-Local- sunt rețele care acoperă teritoriul pe o rază de câțiva kilometri (LAN - LAN - rata mare de transfer de date);

-regional- situat pe teritoriul unui oraș sau al unei regiuni (РВС -MAN - care deservește megaorașe etc.),

-global pe teritoriul unui stat sau al unui grup de state, de exemplu, World Wide Web, WAN - WAN - rată scăzută de transfer de date)

Prin afiliere distinge între rețelele departamentale și cele de stat.

-Departamental aparțin aceleiași organizații și sunt situate pe teritoriul acesteia.

-Stat rețele - rețele utilizate în structurile guvernamentale.

Pentru a lucra eficient cu informațiile (utilizați-o) în viitor, trebuie să înțelegeți lucruri destul de simple la etapa inițială: informațiile prezentate vă sunt utile sau nu, poate fi de încredere, sunt necesare informații suplimentare etc. Deci, procesul nu este altceva decât o evaluare a informațiilor primite de tine.

Criterii de evaluare a informațiilor - (importanță, acuratețe, semnificație)

Pentru fiecare episod (bloc de text, mesaj etc.), este necesar să luați o decizie cu privire la necesitate, stocare și utilizare ulterioară. Adunarea tuturor informațiilor din jur, sincer, este foarte dificilă: acest lucru necesită resurse enorme.

Procesul de sacrificare în sine ar trebui să aibă criterii clare. Pentru a lua o decizie cu privire la nevoia de informații, se efectuează evaluarea inițială a acesteia. Criteriile inițiale de evaluare ar trebui să fie ușor grosiere pentru a evita pierderea de informații importante, dar nu semnificativ, altfel fluxul se va transforma într-unul necontrolat. Setul minim de criterii pentru evaluarea inițială este un semn - relevanța acestor informații pentru a noastră. Cu alte cuvinte, dacă informația este într-un fel legată de tema noastră sau poate ajuta potențial în lucrul la proiectul nostru, atunci este de interes pentru noi. Așadar, îl ținem cu noi și începem noi lucrări.

Rezultatul unei astfel de evaluări a informațiilor ar trebui să fie o concluzie cu privire la relevanța acesteia pentru problema noastră.

Mai devreme, am discutat despre proprietățile informațiilor, care, în esență, sunt criteriile de evaluare a acesteia:
obiectivitate – subiectivitate
credibilitate – lipsă de încredere
Completitudine - incompletitudine
Relevanță – irelevanță
Valoarea este lipsa de valoare
Claritate - incomprehensibilitate

Aceasta este o abordare academică. În practică, de obicei procedează după cum urmează. Inițial, informațiile primite sunt evaluate din punct de vedere al relevanței. Dacă informația este relevantă - întrebarea este fiabilitatea acesteia. Apoi - în relevanța sa. Și după aceea, dacă este necesar, se efectuează o evaluare în funcție de alte criterii. Adesea, un set simplificat de criterii este utilizat pentru a accelera procesul de evaluare. În plus, în funcție de sarcină, importanța uneia sau alteia proprietăți a informațiilor se modifică până la respingerea completă a unei proprietăți. De asemenea, se practică combinarea mai multor proprietăți într-un singur parametru sintetic. De exemplu, obiectivitate și fiabilitate sau completitudine și valoare. Sau o proprietate este folosită pentru evaluare. Acest lucru se poate face în timpul colectării inițiale de informații despre o problemă necunoscută anterior. Totul este colectat - principalul lucru este că informațiile ajută cumva la înțelegerea problemei.

Criterii pentru evaluarea simplificată a informațiilor
RELEVANȚA informațiilor - prezența unei legături cu problema (corespunzătoare intereselor noastre) și capacitatea informației de a contribui la procesul de înțelegere a problemei. Cu alte cuvinte, trebuie să compari aceste informații cu nevoile tale de informații și să răspunzi la întrebarea: te poate ajuta cu ceva acum sau în viitorul apropiat? Dacă da - treceți la pasul următor, dacă nu - la coș (cu excepția cazului în care vă este util în altă problemă).

FIABILITATEA informațiilor – modul în care descrierea prezentată corespunde realității. Este posibil să aveți încredere în informații sau sunt necesare cercetări suplimentare, sau nu poate fi de încredere în principiu?

SEMNIFICAȚIA informațiilor:
- înțelegerea informațiilor în sine,
- acoperire completă a subiectului de interes,
- Actualitatea informațiilor și suficiența acesteia pentru luarea deciziilor.

Decizia privind relevanța informațiilor pentru o anumită problemă se realizează în funcție de mai multe criterii. Primul semn este prezența unei indicații clare a zonei de interes. O astfel de indicație este relevată prin prezența cuvintelor cheie (titluri, nume, date, termeni specifici etc.). Al doilea semn este mai complex, este prezența unei indicații indirecte, semantice. Aici nu va fi posibilă denumirea directă a semnelor - în fiecare situație sunt diferite.

Al doilea criteriu este credibilitatea. Se verifică următoarele:
- disponibilitatea confirmării din alte surse;
- andocare cu alte informații;
- cunoașterea sursei și a acesteia;
- autoritate sau o lungă istorie pozitivă de lucru cu sursa;
- proprietăţile canalului de transmitere a informaţiei.

După cum puteți vedea, locul cel mai important aici este ocupat de cunoștințele despre sursa de informații. Prin urmare, este important să se lucreze la studiul surselor, la colectarea constantă de informații despre acestea. Cu cine sunt afiliați, cât de obiectiv acoperă problemele, cu cine cooperează, ale căror interese fac lobby etc. Pentru a identifica informațiile greșite, trebuie să:
- separă clar faptele și opiniile despre acestea;
- să înțeleagă dacă sursa poate avea acces la informațiile transmise;
- ţine cont de relaţia sursei cu obiectele sau evenimentele descrise;
- ține cont de caracteristicile personale ale sursei (autorului) - interes, fantezie, dependență, îngâmfare;
- amintiți-vă că informațiile dorite sunt cel mai ușor percepute.

De asemenea, este necesar să se țină cont de faptul că informațiile sunt distorsionate și neintenționat. Acest lucru se întâmplă din următoarele motive:
- transmiterea unei părți a mesajului;
- repovestirea a ceea ce a auzit cu propriile cuvinte și introducerea în conținut a atitudinii sale, a părerii sale;
- mesajele care circulă prin canale orizontale și informale sunt mai puțin predispuse la distorsiuni, iar informațiile furnizate „la etaj” sunt mai mult, deoarece persoana care transmite date are dorința de a mulțumi, de a primi recompense și de a evita pedeapsa.

În cazul dezinformării intenționate, se folosesc următoarele tehnici:
- ascunderea faptelor;
- selecția (enunțarea) părtinitoare a faptelor;
- încălcarea conexiunilor logice sau temporare;
- prezentarea de informații fiabile într-o asemenea formă sau context încât să fie percepută ca dezinformare;
- un rezumat al informațiilor importante pe fundalul unor date strălucitoare, care distrag atenția;
- utilizarea unor cuvinte ambigue în prezentare care pot fi interpretate în diferite moduri;
- omiterea detaliilor cheie.

În procesul de lucru cu informații (în orice etapă), poate apărea o situație când nu există suficiente date pentru a înțelege ce se întâmplă. În acest caz, puteți utiliza metoda de recuperare a datelor.

Esența lui este că ceva precede orice eveniment, un fel de pregătire, niște evenimente și peste tot există o urmă. Unele procese însoțesc evenimentul principal, ceva devine o consecință a acestui eveniment. Trebuie să fiți capabil să restabiliți succesiunea evenimentelor și să identificați locurile în care pot rămâne informații despre eveniment. Dar trebuie să începeți cu prelucrarea informațiilor deja disponibile. Și în acest sens, procesul de atestare a sursei de informații este foarte important.

Orez. 5.6. Clasificarea informațiilor primare

Informații calitative este necesar ca cercetătorii să pătrundă mai adânc în natura oamenilor care fac achiziții de bunuri specifice. Astfel de studii au ca obiect psihologia cumpărătorilor în aspecte aplicate comerțului, și comerțului cu bunuri specifice (doar cele care sunt tranzacționate de firma care realizează acest studiu). Informațiile calitative pot fi folosite pentru a îmbunătăți produsul, pentru a-și dezvolta proprietățile de consum, ținând cont de valorile morale și etice ale cumpărătorilor. Informațiile calitative îi fac pe producători și pe comercianți să se gândească la adevăratele valori ale mărfurilor pe care le oferă, să își privească bunurile prin ochii cumpărătorilor. Informațiile de calitate nu pot fi ignorate. Utilitatea sa este fără îndoială, iar acuratețea și fiabilitatea sa sunt în mare măsură determinate de calificările cercetătorilor.

Informațiile cantitative sunt indispensabile pentru înțelegerea comportamentului unor grupuri mari de oameni (potenţiali cumpărători). Prin natura sa, nu îi permite cercetătorului să pătrundă adânc în fenomenele psihologice ale cumpărăturilor, dar îl ajută să se ridice la un nivel destul de ridicat de generalizări asupra problemelor de volum al vânzărilor, atitudinea unor grupuri mari de cumpărători față de proprietățile de consum ale produsul. Concluziile desprinse din indicatorii cantitativi pot avea o aplicație foarte largă. Informațiile cantitative, desigur, completează informațiile calitative și destul de semnificativ. Este necesar să începem culegerea de informații cantitative primare de la premisa că subiectul cercetării este măsurabil și că este posibil să se obțină caracteristici cantitative destul de definite ale comportamentului său. Nu se recomandă începerea colectării de informații cantitative dacă nu este posibilă evaluarea rezultatelor unui astfel de studiu folosind instrumente statistice, dacă nu este posibil să se facă generalizări și concluzii de încredere de interes profesional pentru marketeri , pentru antreprenori (clienții studiului).

  1. Informații primare și metode de colectare a acestora. Aplicarea metodei cercetării de marketing: chestionare (determinarea mărimii eșantionului)

prin observatii , diverse sondaje ( interviu ), chestionare , testarea , experimente (vezi figura 5.4). În literatură sunt denumite și alte metode, sau acestea sunt aceleași, dar într-un mod diferit. Deoarece în Rusia cercetarea de marketing este adesea identificată cu chestionare și deoarece chestionarele sunt utilizate mai des decât alte metode, este logic să începem descrierea metodelor de colectare a informațiilor primare cu chestionare.

Chestionar¾ este un sondaj scris asupra cumpărătorilor reali și potențiali prin completarea ultimelor formulare speciale (chestionare) pregătite în prealabil de cercetători cu o listă de întrebări. Esența unui astfel de studiu este că fiecare subiect, în procesul de contact cu cercetătorul sau prin poștă, primește un chestionar, pe care îl completează singur și îl returnează cercetătorului personal sau prin poștă.


Compilarea chestionarului, de regulă, este precedată de multă muncă analitică: este necesar să se stabilească limitele pieței studiate, structura acesteia pe segmente, numărul întregii populații de cumpărători chestionate, care se numește populatie generala , numărul de segmente, dimensiunea eșantionului în general, precum și pe segmente, dacă sunt selectate, conturează principalii parametri care trebuie clarificați în procesul de chestionare etc. Totalitatea răspunsurilor ar trebui să ofere un raport complet descrierea problemei studiate la un moment dat, întrucât în ​​urma prelucrării chestionarelor se vor obține informații calitative și cantitative, care vor permite stabilirea unor relații de cauzalitate care există în procesele comerciale și de schimb.

Este posibil (și uneori necesar) să începeți o anchetă prin determinarea mărimii eșantionului, care este înțeles ca o parte a populației generale care poartă trăsăturile și semnele caracteristice întregii populații a subiecților (fenomenelor sau proceselor) examinați și este, din punct de vedere cantitativ și calitativ, necesar și suficient pentru a face judecăți ca în general, pentru întreaga populație, și pentru fiecare dintre elementele sale separat (desigur, cu un anumit grad de acuratețe și fiabilitate). Este necesar să se determine dimensiunea eșantionului, deoarece nu este posibilă sondajul întregii populații generale - nu va fi suficient timp sau fonduri pentru o astfel de anchetă.

Calculul volumului de eșantionare aleatorie nerepetitivă (respondentul este selectat aleatoriu și nu este interogat a doua oară), care este utilizat cel mai des, se efectuează conform formulei 1:

n = t 2s2 N/ (D 2 N + t 2s2), (5,1)

Unde n¾ numărul de unități de prelevare;

t¾ factor de încredere calculat din tabele speciale în funcție de probabilitatea cu care se poate garanta că eroarea marginală nu depășește t-eroare de ori (cu o probabilitate de 0,990 este egală cu 3, cu o probabilitate de 0,999 ¾ 3,28; în practică se ia mai des probabilitatea de 0,954, la care t = 2);

s 2 ¾ varianța eșantionului (este determinată pe baza unui experiment sau prin analogi disponibili în trecut);

D ¾ eroare maximă admisibilă (specificată) de eșantionare;

N¾ mărimea populației generale.

Exercițiu. Aplicați această formulă în exemplul următor. Să fie populația generală de 100 de mii de oameni. Dispersia, așa cum arată datele studiilor similare anterioare, este de ± 5 ruble per persoană. Coeficientul de încredere poate fi egal cu 2, iar eroarea marginală este ¾ 1 rub. Determinați dimensiunea eșantionului.

Acum încercați să determinați dimensiunea eșantionului pentru sondajul cumpărătorilor de produse ale organizației dvs.

Există și alte abordări și formule pentru determinarea dimensiunii eșantionului. Destul de des, în eșantion, este necesar să se țină cont de structura populației generale, adică de structura pieței în funcție de segmente , iar în timpul sondajului, intervievați reprezentanții tuturor segmentelor în proporții adecvate. Dacă nu se ține cont de structura populației, erorile sunt inevitabile. Esența acestor erori constă adesea în faptul că oamenii greșiți sunt intervievați. Astfel de erori apar adesea în studiul opiniei publice. S-a făcut o greșeală de manual când s-a studiat opinia publică a alegătorilor americani în ajunul următoarelor alegeri prezidențiale (vezi digresiunea 5.4).

Digresiune 5.4. Managementul resurselor în condițiile pieței. Carte. 5. Managementul informaţiei. M.: MTsDO LINK, 1997. S. 51-52.

În timpul campaniei pentru alegerile prezidențiale din SUA din 1936, revista Literary Digest a efectuat un sondaj pentru a determina intențiile alegătorilor. Peste două milioane de alegători au fost supuși studiului, ale căror nume și adrese au fost alese aleatoriu din lista de abonați a revistei și din agenda telefonică. Rezultatele unui sondaj al acestui număr mare de oameni care au alcătuit eșantionul au arătat că, în general, l-ar susține pe candidatul republican. Cu toate acestea, majoritatea alegătorilor au votat pentru Franklin Delano Roosevelt ¾ Democrat.

De ce au fost greșite rezultatele sondajului? Care a fost greșeala? Și greșeala a fost că au fost intervievați oamenii nepotriviți. Abonații revistei erau în majoritate republicani, telefoanele, deoarece erau destul de scumpe, erau și majoritatea republicani, deoarece erau mai bogați decât democrații. Deci s-a dovedit că eșantionul s-a dovedit a nu fi reprezentativ, adică nu este reprezentativ (nu toate segmentele populației au fost reprezentate în el).

Istoria studiului opiniei publice cunoaște multe astfel de greșeli. Evident, aceste greșeli, la persoanele care nu sunt la curent cu complexitatea eșantionării, încă dau naștere unui sentiment de neîncredere în astfel de informații. În special, ei susțin că, din moment ce nu au fost intervievați toți reprezentanții acestui sau aceluia segment al populației, atunci nu pot exista informații veridice. Opus unor astfel de afirmații, unul dintre liderii institutului american de sondaje de opinie Gallup a spus: „Dacă vrei să vezi cât de gustoasă a ieșit supa, nu trebuie să mănânci toată oala. Pentru a face acest lucru, trebuie să luați o lingură de supă, după ce ați amestecat întreaga tigaie, în care ar fi toate ingredientele sale, și să mâncați numai pe ea. Acest lucru va fi suficient pentru a vă forma propria idee despre ceea ce s-a întâmplat. Apropo, când francezii spun că „nu ai nevoie de un butoi întreg de vin pentru a-i judeca calitatea”, se referă și la o dimensiune rezonabilă a eșantionului. Același lucru ar trebui făcut și atunci când se determină eșantionul în cercetarea de marketing. Pentru ca eșantionul să fie reprezentativ, este necesar să se „amestecă” întreaga populație și, cu respectarea proporțiilor existente, să se selecteze reprezentanți tipici din ea care să o caracterizeze în ansamblu.

Cu toate acestea, materialul Digresiunii 5.4 nu poate fi luat atât de simplu. Luați în considerare următorul exemplu condiționat, care sugerează că este o logică elementară sănătoasă de definit marime de mostra uneori nu suficient. Fie ca piața oricărei firme (adică, populația generală) să fie egală cu 100 de mii de oameni. Această piață este formată din trei segmente, identificate după criteriul „venitului”: cumpărători cu venituri mici (săraci ¾ 10%), cumpărători cu venituri medii (țărani mijlocii ¾ 75%), cumpărători cu venituri mari (bogați ¾ 15%) . Să presupunem că cercetătorii de piață au două propuneri privind dimensiunea eșantionului pe care le-au formulat fără a apela la formula (5.1) sau la orice alte formule similare, dar ghidate, după cum li s-a părut, doar de bunul simț: opțiunea 1 ¾ intervievați 100 de persoane; opțiunea 2 ¾ interviu 1000 de persoane. Pentru ca rezultatele studiului să fie de încredere, în ambele cazuri eșantionul trebuie să fie proporțional cu populația generală, adică eșantionul conform primei opțiuni trebuie să includă 10 oameni bogați, 15 oameni săraci și 75 țărani mijlocii. Și eșantionul conform celei de-a doua opțiuni ar trebui să includă 100 de oameni bogați, 150 de oameni săraci și 750 de țărani mijlocii (Fig. 5.7).

Orez. 5.7. Raportul proporțional dintre eșantion și populația generală

La o primă aproximare, poate părea că a doua opțiune este mai precisă și mai fiabilă. Unii pot spune că acuratețea celei de-a doua opțiuni este de 10 ori mai mare decât acuratețea primei și vor fi complet greșite. Costul celei de-a doua opțiuni va fi de 10 ori mai mare decât costul primei, dar nu și acuratețea. Precizia va crește cu siguranță, dar nu cu un factor de 10, ci cu mult mai puțin, iar compararea costurilor și acurateței nu va vorbi deloc în favoarea creșterii dimensiunii eșantionului. Dependența acurateței rezultatelor de dimensiunea eșantionului poate fi reprezentată sub forma următorului grafic (Fig. 5.8).

După cum rezultă din Fig. 5.8, o dimensiune acceptabilă a eșantionului pentru un sondaj ar fi X de clienți, ceea ce ar oferi o acuratețe a rezultatelor egală cu Y. Nu are sens să încercăm să creștem dimensiunea eșantionului, crezând că aceasta va oferi cea mai mare acuratețe. Acest lucru nu se va întâmpla, iar costul cercetării va crește. La fundamentarea probei, pe lângă bunul simț, care este indispensabil, trebuie să se folosească și formule.

Orez. 5.8. Dependența aproximativă a preciziei rezultatelor de dimensiunea eșantionului

Există, după cum sa menționat deja, și alte abordări metodologice pentru a determina dimensiunea cea mai adecvată a eșantionului. Fără a pierde prea mult în acuratețea și fiabilitatea rezultatelor, acestea vă permit să efectuați un studiu la un cost mai mic. Deci, în special, dacă se cere să se ia în considerare eterogenitatea pieței pe segmente, atunci formula 5.1 este modificată: varianța eșantionului din aceasta este înlocuită cu media variațiilor intragrup. Cu toate acestea, în acest caz, selecția ar trebui efectuată pentru fiecare grup proporțional cu diferențierea trăsăturii, așa cum se arată în Fig. 5.7 (adică, în deplină conformitate cu logica bunului simț). Formula pentru determinarea dimensiunii eșantionului în acest caz va arăta astfel 2:

Unde k¾ număr i-x segmente de piata;

N i¾ putere i-al-lea segment;

s i¾ abaterea standard a unei caracteristici în i- al-lea segment.

2017 FD.ru

Gestionarea datelor ca activ al întreprinderii: calitatea datelor și rezultatul afacerii

Datele au fost considerate de mult timp un activ important al întreprinderii și li se aplică adesea epitete precum „ulei nou” sau „mină de aur”. Și este un activ cu creștere rapidă. Volumul numai de date structurate crește cu 40% anual. Dacă luăm în considerare toate datele, inclusiv datele nestructurate (date din rețelele sociale, surse de pe Internet, precum și date generate automat), atunci creșterea anuală a acestora este estimată la aproximativ 80%.

Dar este acest activ întotdeauna utilizat eficient? Ce preț plătesc companiile pentru erorile de date? Cum să evaluăm corect calitatea datelor și să construim un sistem eficient de management al calității datelor? Există exemple de succes de implementare a unui astfel de sistem în practica rusă?

Câteva statistici

În 2015, Experian a efectuat un sondaj pe scară largă pe 1.239 de companii din Statele Unite, Franța, Australia, Germania, Spania și Țările de Jos. Sondajul a constatat că peste 97% dintre organizații suferă de erori frecvente în informațiile de contact ale clienților. 83% recunosc că pierd venituri din cauza calității slabe a datelor și a caracterului incomplet, iar dacă calitatea datelor ar fi de top, afacerea ar putea crește veniturile în medie cu 15%.

Faptul că doar 35% dintre companii gestionează datele centralizat, iar mai mult de jumătate (57%) identifică erorile de date după fapt, după raportarea de către angajați sau clienți, reflectă și nivelul scăzut de maturitate al proceselor de management al datelor. Și în timp ce majoritatea organizațiilor folosesc un fel de soluție tehnologică pentru a controla, pregăti și curăța, aproape o treime dintre companii (29%) încă își verifică și curăța manual datele. 77% dintre CIO văd pe bună dreptate datele ca pe un activ strategic care este subutilizat în întreaga organizație.

Analiștii Gartner au descoperit că calitatea slabă a datelor este cauza principală a eșecului a 40% din inițiativele de afaceri. Calitatea datelor afectează și eficiența operațională, capacitatea de a gestiona riscul și de a răspunde flexibil la factorii externi, erorile de date reduc productivitatea cu o medie de 20%.

Mai mult, pe măsură ce ne îndreptăm către procese automatizate, calitatea datelor devine factorul care limitează calitatea întregului proces. S-a demonstrat că erorile de date reduc eficiența IT cu 10%.

Cum se interpretează și se măsoară calitatea datelor?

Calitatea datelor este proprietatea datelor de a satisface cerințele impuse acestora. Mai mult, în conformitate cu principiile de bază ale calității datelor (definite de standardele din seria ISO / TS 8000, GOST R 56214-2014 / ISO / TS 8000-1: 2011), conceptul de calitate a datelor afectează doar acele date care sunt implicați în luarea oricărei decizii de management. Datele de calitate previn reapariția defectelor și reduc costurile în exces.

Definiția tradițională a calității datelor se concentrează pe cum sunt proprietățile datelor:

  • completitudine
  • Precizie
  • Actualitatea furnizării
  • Origine

Standardul ISO/IEC25012:2008 a extins semnificativ lista caracteristicilor de calitate a datelor pentru a include caracteristici care depind de sistemul informatic (eficiență, disponibilitate, portabilitate, recuperabilitate, confidențialitate etc.). Zece din cele cincisprezece caracteristici de calitate a datelor sunt dependente de sistem, subliniind importanța alegerii instrumentului potrivit de management al calității datelor.

Valorile sunt utilizate pentru a evalua în mod obiectiv calitatea datelor. Aceștia pot fi atât indicatori de bază măsurați direct conform anumitor reguli, cât și metrici combinate mai complexe calculate pe baza mediilor ponderate ale indicatorilor de bază.

Exemple de astfel de valori sunt valorile privind disponibilitatea datelor, valorile corectitudinii datelor, valorile costurilor de asigurare a calității, valorile costurilor pentru corectarea erorilor.

Pentru a aplica metrici, trebuie să existe reguli de validare care să oficializeze măsurarea și calculul indicatorilor. Dar metricile și regulile nu sunt suficiente; pentru a obține un efect tangibil care să afecteze performanța financiară a unei organizații, este necesară o abordare sistematică a managementului calității datelor.

Managementul sistematic al calității datelor

Managementul calității datelor se bazează pe trei elemente: structura organizațională, procese și instrumente de management al calității datelor.

Structura organizatorică prevede repartizarea rolurilor și a celor responsabili pentru procesele de lucru cu date. Companiile mari vorbesc din ce în ce mai mult despre repartizarea rolului CDO (Chief Data Officer) și organizarea serviciului CDO din subordinea acestuia. Directorul de informații gestionează structura de date distribuite în întreprindere, serviciul CDO asigură circulația operațională a datelor, monitorizează orice acțiuni cu date și, de asemenea, controlează utilizarea activelor informaționale ale companiei.

Procesele de management al calității datelor (în conformitate cu GOST R 56215-2014 și ISO/TS 8000-150:2011) sunt împărțite în trei grupuri:

  • procese pentru efectuarea de operațiuni asupra datelor,
  • procese continue de control al calității datelor
  • procese de îmbunătățire a calității datelor.

Procesele de efectuare a operațiunilor asupra datelor includ gestionarea structurii datelor în cadrul unei organizații, inclusiv luarea în considerare a utilizării datelor în sistemele distribuite, dezvoltarea și construirea unei scheme de date, efectuarea de operațiuni asupra datelor (crearea, căutarea, ștergerea, actualizarea).

Procesele continue de control al calității au ca scop identificarea erorilor de date și includ planificarea calității, definirea metricilor și regulilor de verificare a calității, reglementarea proceselor de evaluare a datelor conform criteriilor specificate.

Procesele de îmbunătățire a calității datelor ar trebui să asigure că erorile de date sunt corectate și că cauzele lor sunt eliminate.

În cele din urmă, al treilea element îl reprezintă instrumentele de management al calității datelor. Există un arsenal larg de sisteme instrumentale pentru lucrul cu date pe piață. Acestea sunt produse de clasă Data Quality, sisteme de management al datelor de bază, soluții specializate pentru lucrul cu analiza clienților, numeroase platforme de integrare cu un arsenal bogat de instrumente ETL, soluții industriale.

Controlul calității datelor este efectuat în mod tradițional după ce datele sunt preluate de la sursă înainte de a fi introduse în depozitul de date, în ceea ce este cunoscut sub numele de proces ETL. Acest proces, de regulă, implică atât efectuarea unui număr de verificări sistemice de date (verificarea integrității, consecvenței, corectitudinii completării atributelor), cât și efectuarea unor verificări comerciale suplimentare (verificarea convergenței soldurilor și cifrei de afaceri, respectarea conturi personale cu bilanţuri etc.). În timpul procesului ETL, pot fi efectuate și operațiuni de îmbogățire și clasificare a datelor, ceea ce crește valoarea datelor pentru analiza ulterioară. Rezultatele procedurilor ETL sunt înregistrate, problemele de date sunt analizate și corectate. Utilizarea soluțiilor specializate din clasa de calitate a datelor simplifică stabilirea procedurilor de control, facilitează controlul asupra rezultatelor procesului. De regulă, astfel de soluții oferă instrumente grafice speciale care reflectă caracteristicile calității datelor, cum ar fi completitatea, consistența, coerența, acuratețea, integritatea și absența duplicaturilor. Astfel de soluții sunt furnizate atât de companii IT străine, cât și interne. Spre deosebire de furnizorii occidentali, furnizorii ruși oferă din ce în ce mai mult soluții mai rentabile pentru managementul calității datelor. Deci, compania Intersoft Lab a dezvoltat un modul special de evaluare a calității datelor ca parte a platformei de depozit de date „”. Modulul colectează informații despre indicatorii de calitate a datelor acumulați în depozitul de date, precum și informații despre faptele de eliminare a defectelor datelor. Utilizatorilor li se oferă instrumente pentru analiza indicatorilor de calitate a datelor în diverse secțiuni analitice, inclusiv analiza dinamicii modificărilor calității datelor, precum și analiza costurilor forței de muncă pentru a elimina defectele datelor clasificate pe tipuri de erori, ramuri, performeri, perioade și alte secțiuni analitice.

Un exemplu din practica internă a managementului calității datelor

Până în prezent, majoritatea proiectelor care se ocupă de controlul calității datelor sunt legate de (CD) sau de implementarea aplicațiilor analitice, inclusiv aplicații pentru managementul riscurilor, relația cu clienții, raportarea. Cel mai ilustrativ exemplu în acest sens este exemplul industriei financiare, în care cerințele pentru calitatea analizei clienților și cerințele pentru calitatea raportării furnizate autorității de reglementare sunt extrem de ridicate.

Mai mult, CBR a definit legal cerințele privind calitatea datelor sistemelor informaționale utilizate pentru calcularea valorii riscului de credit pe baza ratingurilor interne.

Pavel Filimonok, vicepreședintele Consiliului de Administrație al PJSC Bank Saint Petersburg, a împărtășit experiența sa în soluționarea problemei calității datelor la Bank Saint Petersburg într-un comentariu postat pe site-ul web al Asociației Băncilor Ruse: „Am fost foarte conștienți că costul asigurării calității este întotdeauna mai mic decât costul corectării erorilor. Măsurile de asigurare a calității datelor au fost inițiate ca parte a unui proiect de construire a unui depozit de date corporativ și s-au încheiat cu crearea unui serviciu de calitate a datelor, ceea ce este încă rar în practica rusă. Astăzi, acest serviciu funcționează cu succes ca parte a Departamentului de Tehnologia Informației. Au fost depanate proceduri regulate pentru urmărirea și corectarea erorilor. Este asigurat un control complet și regulat al datelor în toate IS-urile care furnizează date depozitului de date. Experimentul de implementare a serviciului de calitate a datelor a fost finalizat cu succes în mare parte datorită asistenței organizatorice și tehnologice a furnizorului de stocare a datelor, Intersoft Lab, care a oferit suport tehnologic pentru procesele de verificare și îmbogățire a datelor. Cu ce ​​am ajuns? S-a redus semnificativ numărul de erori în date. Este semnificativ faptul că numai în portofoliul de credite numărul tipurilor de erori a scăzut de 15 ori. Erorile grave care afectează performanța financiară sunt complet excluse. Încrederea utilizatorilor în stocarea datelor a crescut și, odată cu aceasta, și calitatea deciziilor de management. Acestea. a fost construit un sistem eficient de management al calității datelor care funcționează în interesul tuturor departamentelor.”

Astfel, adoptarea întreprinderii crește valoarea datelor companiei ca un activ care poate fi folosit pentru a sprijini atingerea obiectivelor de afaceri.

Estimarea cantității de informații nu este un lucru foarte simplu, deoarece depinde de mulți factori, care sunt adesea greu de oficializat. Aceeași informații pentru diferiți oameni pot conține cantități complet diferite de informații. Ceea ce știe cineva de multă vreme poate fi complet nou pentru altul. Simpla concentrare a atenției vă permite să obțineți mai multe informații.

Există diferite aspecte ale evaluării cantității de informații.

Este posibil să se evalueze informația în funcție de conținutul (valoarea) semantic. În acest caz, desigur, este necesar să se determine criteriul valorii. De exemplu, pentru a măsura conținutul semantic al informațiilor, puteți utiliza măsura tezaurului, reflectând capacitatea destinatarului informațiilor de a percepe mesajul primit. Atunci cantitatea de informație primită este o anumită funcție J=f(S * ,S p), unde S * este conținutul semantic al informației din mesaj, S p este tezaurul utilizatorului, măsurat prin cantitatea de informație percepută de către l.

Dacă informațiile sunt folosite pentru a gestiona soluția unei anumite probleme, atunci valoarea informațiilor poate fi estimată prin diferența de efect, de exemplu, economic, fără a lua în considerare și a ține cont de informațiile din mesajul primit.

R. Hartley și K. E. Shannon au fost primii care au investigat temeinic problemele de evaluare a cantității de informații.

Să presupunem că școala are opt clase (1, 2, ..., 8) și trebuie să aflăm în care învață Sasha Ivanov punând întrebări despre numărul clasei și primind răspunsuri precum „da” sau „nu”. Este ușor să arăți că numărul minim de întrebări este de trei. De exemplu, ați putea întreba mai întâi: numărul clasei este mai mare decât 4? Dacă răspunsul este „nu”, trebuie să întrebați: numărul clasei este mai mare decât 2? După ce ai răspuns, este suficient să pui o altă întrebare și problema va fi rezolvată. Se poate propune estimarea cantității de informații despre numărul clasei în care învață Sasha Ivanov, în funcție de numărul minim de întrebări adresate. În acest caz, obținem valoarea 3.

O idee similară a fost folosită de inginerul american R. Hartley, care în 1928 a propus estimarea cantității de informații folosind formula

unde J este cantitatea de informații dintr-unul dintre N mesaje echiprobabile. Este ușor de observat că atunci când înlocuim N = 8 (N este numărul de clase) în formula Hartley, obținem valoarea 3. De fapt, în acest caz, cantitatea de informații este egală cu numărul de biți necesari pentru codificați numărul maxim de clasă (adică valoarea lui N) cu un număr binar.

Când lucrați cu sisteme informaționale, informațiile obținute adesea sunt măsurate prin cantitatea de memorie de calculator necesară pentru stocarea acesteia. În acest caz, se utilizează formula Hartley.

O teorie mai generală și mai riguroasă a evaluării cantitative a informațiilor a fost dată de omul de știință american Claude Elwood Shannon în 1948.

El a propus evaluarea cantității de informații printr-o caracteristică numerică, reflectând gradul de incertitudine (incompletitudinea cunoștințelor) care dispare după primirea mesajului. Măsura incertitudinii care este redusă prin transferul de informații, Shannon a propus să apeleze entropie(Acest termen a apărut inițial în termodinamică; în fizica statistică, entropia este considerată ca o măsură a probabilității ca un sistem să se afle într-o stare dată). Evident, cantitatea de informații depinde de probabilitatea de a primi un mesaj despre un anumit eveniment. Deci, dacă am ști vârsta lui Sasha Ivanov, atunci ar fi foarte posibil să fie necesare mai puține întrebări pentru a determina clasa.

Dacă, în urma primirii mesajului, se obține o claritate completă despre obiect, atunci entropia devine egală cu zero.

Să presupunem că un mesaj este transmis cu informații despre un anumit sistem X. Lăsați incertitudinea cunoștințelor destinatarului despre sistem X(inainte de a primi mesajul) este determinata de entropia H( X). După primirea mesajului, entropia a devenit H * ( X). Cantitatea de informații obținute în acest mod J( X) = H( X) – H * ( X). Dacă, după primirea mesajului, există claritate completă despre sistem X, ton*( X) = 0 și, în consecință, J( X) = H( X).

Transmiterea de mesaje discrete poate fi întotdeauna redusă la transmiterea numerelor corespunzătoare. Chiar dacă informația reflectă stări (fenomene) calitativ diferite, atunci prin numerotarea acestora, transmiterea mesajelor se poate reduce la transmiterea numerelor corespunzătoare. Deci, atunci când transmiteți text, puteți numerota literele alfabetului și puteți transmite numere. Orice informație din memoria computerului este, de asemenea, un set de numere binare.

La derivarea formulelor pentru estimarea cantității de informații și a măsurilor de incertitudine, Shannon a pornit de la următoarele considerații.

Fie ca sursa de mesaje discrete să emită o succesiune de mesaje-numere elementare (x 1 , x 2 , … , x m ), fiecare dintre ele corespunde uneia dintre stările posibile ale sistemului X. Atunci totalitatea acestor mesaje elementare poate fi numită alfabet, iar numărul m poate fi numit volumul alfabetului. La transmiterea textului, mesajul elementar este o literă din alfabetul obișnuit; la trimiterea comenzilor - alfabetul va fi o listă de comenzi posibile; la transmiterea unui mesaj despre starea sistemului - o listă de stări posibile ale sistemului etc.

Să presupunem că la primirea simbolului x i, starea sursei mesajului (sistemul X) în momentul transmiterii este determinată în mod unic. Cu cât probabilitatea P i a stării x i este mai mică, cu atât vom primi mai multe informații la primirea simbolului x i (S P i = 1, P i £ 1). Dacă starea sursei a fost cunoscută anterior, atunci primirea simbolului x i nu oferă nicio informație suplimentară (adică, informația primită este zero). Cu alte cuvinte, cantitatea de informație purtată de simbolul x i trebuie să fie o funcție a informațiilor a priori (deja disponibile înainte de transmitere) despre probabilitatea P i ca sursa să fie în starea x i la momentul transmiterii sale.

Modificarea entropiei la primirea simbolului x i K. Shannon a propus să calculeze prin formula

J(x i) = - K 0 ×log a P i ,

unde coeficientul K 0 și baza logaritmului (a) determină unitatea de măsură a cantității de informații. Pentru ca entropia să fie pozitivă, semnul „-” este pus în fața formulei (logaritmul este negativ pentru numere<1).

În general, simbolurile au probabilități diferite. Apoi, teoria probabilității propune utilizarea valorii medii pentru estimări, care este definită ca suma produselor valorilor parametrilor individuali prin probabilitatea lor. Prin urmare, formula finală a lui K. Shannon pentru entropia sursei mesajului are forma

H(X) = - K 0 åP i log a P i .

Dacă acceptăm toate stările sistemului X ca fiind la fel de probabile (adică Р i = 1/m), atunci entropia m

H(X) = - K 0 å[(1/m)∙log a 1/m] = K 0 log a m.

Este ușor de arătat că în formula lui Shannon cantitatea H(X) £ log a m este întotdeauna prezentă. Este egal cu log a m numai dacă toate probabilitățile P i sunt aceleași (adică P i =1/m). Din punct de vedere al teoriei probabilităților, ultima afirmație se explică prin faptul că cunoașterea probabilităților ne oferă unele cunoștințe a priori suplimentare despre informațiile obținute cu simbolul. Ignoranța probabilităților ne obligă să presupunem că toate simbolurile sunt la fel de probabile, adică. entropia maximă (necunoașterea maximă) are loc la P i =1/m.

Formulele pentru estimarea cantității de informații și a entropiei au fost introduse axiomatic sub următoarele ipoteze:

1) entropia H este continuă în raport cu argumentele sale;

2) la P i = 1, valoarea lui J(х i) = 0;

3) dacă toate evenimentele sunt la fel de probabile, atunci entropia este maximă și este determinată de formula H max = log n, unde n este numărul de rezultate posibile (evenimente);

4) dacă alegerea este împărțită în două etape succesive, atunci valoarea inițială a entropiei H va fi o sumă ponderată a valorilor individuale. Aceasta înseamnă că atunci când caracterele x i și x k sunt transmise secvențial, cantitatea de informații adusă de această pereche de simboluri este egală cu suma cantităților de informații aduse de x i și adăugate de x k .

Să luăm ca unitate cantitatea de informație conținută în mesajul că unul dintre cele două evenimente independente la fel de probabile a avut loc. Atunci, evident, P i = ½ (i=1, 2) și un mesaj este suficient pentru a avea informații complete despre starea obiectului. Mai mult, atunci când sosește un mesaj x i, entropia va deveni egală cu zero, adică. cantitatea de informație primită J(x i) = H(X).

Presupunem ca in conditiile prezentate mai sus, mesajul primit aduce o unitate de informatie. Atunci J(x i) = H(X) = - K 0 ∙(½× log a ½ + ½× log a ½)= K 0 ∙ log a 2 = 1. Egalitatea de mai sus este valabilă pentru a=2 și K 0 = 1 . Dacă sistemul va avea m stări echiprobabile, atunci vom obține J(X) = log 2 m = H max. Ultimul rezultat parțial este nimeni altul decât formula lui R. Hartley.

Formula J=log 2 m permite de fapt estimarea cantității maxime posibile de informații primite în timpul transmiterii unui caracter (un mesaj).

Dacă entropia H max este cunoscută și N simboluri sunt primite de la sursa mesajului, atunci cantitatea maximă posibilă de informații transmise cu mesajele este N×H max .

La transmiterea informațiilor digitale, o unitate binară este utilizată ca unitate de măsură a entropiei - pic.

Lasă literele alfabetului care conțin n = 32 de caractere să fie transmise folosind un cod binar, iar atunci când primim un mesaj, determinăm în mod unic litera. Dacă probabilitățile de apariție a simbolurilor sunt aceleași, atunci entropia maximă în transmisia-recepția unui simbol

H max = log 2 32 = 5 (bit).

Această informație medie pe caracter se obține în ipoteza „textului absolut haotic”, când ordinea literelor în transmitere este independentă.

Să presupunem că, într-un alfabet de caractere A, mesajele sunt trimise sub formă de cuvinte de lungime L (de obicei datele sunt trimise folosind coduri digitale uniforme, adică coduri de aceeași lungime). În acest caz, N = A L sunt posibile cuvinte diferite. Apoi, la transmiterea unui cuvânt, destinatarul va avea informații în cantitate

J = log 2 N = L log 2 A (bit).

Dacă probabilitățile de apariție a caracterelor binare sunt diferite, atunci modificarea medie a entropiei la primirea unui caracter:

H cf = -(P 1 log P 1 + P 2 log P 2 + ... + P m log P m) = -å P i log a P i .

În acest caz, entropia pe simbol H av £ H max . Diferența (H max - H cf) se numește informație redundantă, iar valoarea R = 1 - H cf / H max - factor de redundanță. De fapt, redundanța arată cât de mult este prelungit mesajul de la caracterele unui anumit alfabet în comparație cu lungimea minimă posibilă. De exemplu, pentru vorbirea rusă normală H av = 1,5 biți. Prin urmare, sursa mesajelor bazate pe alfabetul rus are un factor de redundanță

R ≈1–1,5/5 = 0,7.

Rețineți că, în cazul general, pentru a asigura transmisia fiabilă a datelor pe canalele de comunicație, este necesară redundanța, deoarece mesajele pot fi distorsionate în timpul transmisiei. Prezența redundanței permite, chiar și în prezența distorsiunilor, înțelegerea sensului mesajului.

În viață, de foarte multe ori informațiile ulterioare depind de cea anterioară, adică. există o anumită probabilitate ca caracterul x k să apară după caracterul x i . Apoi, la primirea următoarei litere a unui text, este posibil să le preziceți pe cele ulterioare.

Luați în considerare definiția entropiei în cazul în care simbolurile au nu numai probabilități diferite P(x i), dar depind și unele de altele. Notăm cu P(x k /x i) probabilitatea condiționată de apariție a simbolului x k dacă cel anterior a fost x i . Apoi cantitatea de informație obținută cu simbolul x i va fi definită ca entropia condiționată

J(x k /x i) = -S.

În general, simbolurile au probabilități diferite. Apoi, cantitatea medie de informație sau entropia unei surse cu simboluri interdependente și neechiprobabile este

H(X) = -S P(x i) ×S.

În cele din urmă, pentru simboluri la fel de probabile, dar interdependente, obținem

H(X) \u003d - 1 / m S ×S.

Entropia sursei și cantitatea de informații obținute cu un simbol atinge un maxim dacă simbolurile sunt independente și la fel de probabile.

La transmiterea datelor, canalul de comunicație este afectat de interferențe. Sub influența lor, simbolul x i se poate schimba într-un simbol fals x j . Să notăm probabilitatea unei astfel de înlocuiri cu P(x i / x j), iar entropia simbolurilor false cu H(X/X*).

Apoi cantitatea de informații primite, ținând cont de erorile de transmisie, este determinată de formulă

J(X/X*) =H(X) – H(X/X*).

Valoarea lui H(X/X*) este determinată prin analogie cu sursa mesajelor care produce simboluri reciproc dependente și neechiprobabile.

Cu o interferență puternică, probabilitatea de eroare, determinată de probabilitățile de tranziție P(x i / x j), poate atinge valorile Р osh = 0,5, ceea ce este echivalent cu o întrerupere a canalului.

Mai sus, au fost luate în considerare formule pentru calcularea cantității de informații pentru cazul în care mesajele sunt transmise într-o formă discretă. Există formule speciale pentru sursele de mesaje continue, care se caracterizează prin faptul că în fiecare moment t mesajul x(t) poate lua un număr infinit de valori cu o probabilitate infinitezimală a fiecăreia dintre ele.

Trebuie spus că evaluarea cantitativă a informațiilor nu a fost încă pe deplin rezolvată, deși metodele existente sunt utilizate pe scară largă pentru a evalua debitul rețelelor de transmisie a datelor, rețelelor de calculatoare, a evalua imunitatea la zgomot a rețelelor de comunicații, a calcula caracteristicile bazelor de date și metode de codare etc.

  • Serghei Savenkov

    un fel de recenzie „rare”... parcă s-ar grăbi undeva