Matrice mari de date. Cum funcționează tehnologia Big Data? Big Data și securitatea informațiilor

Accelerarea constantă a creșterii datelor este o parte integrantă a realităților de astăzi. Rețelele sociale, dispozitivele mobile, datele de la dispozitivele de măsurare, informațiile de afaceri sunt doar câteva dintre tipurile de surse care pot genera cantități uriașe de date.

În prezent termenul Date mare(Datele mari) au devenit destul de comune. Departe de oricine este încă conștient de cât de rapid și profund tehnologiile de prelucrare a cantităților mari de date schimbă cele mai diverse aspecte ale societății. Au loc schimbări în diverse domenii, dând naștere la noi probleme și provocări, inclusiv în domeniul securității informațiilor, unde aspecte atât de importante precum confidențialitatea, integritatea, disponibilitatea etc. ar trebui să fie în prim plan.

Din păcate, multe companii moderne recurg la tehnologia Big Data fără a crea infrastructura adecvată pentru aceasta, care ar putea asigura stocarea fiabilă a cantităților uriașe de date pe care le colectează și le stochează. Pe de altă parte, tehnologia blockchain se dezvoltă în prezent rapid, care este concepută pentru a rezolva aceasta și multe alte probleme.

Ce este Big Data?

De fapt, definiția termenului se află la suprafață: „big data” înseamnă gestionarea unor cantități foarte mari de date, precum și analiza acestora. Dacă priviți mai larg, atunci aceasta este o informație care nu poate fi procesată prin metode clasice datorită acesteia volume mari.

Termenul Big Data în sine (big data) a apărut relativ recent. Potrivit serviciului Google Trends, creșterea activă a popularității termenului scade la sfârșitul anului 2011:

În 2010 au început să apară primele produse și soluții legate direct de prelucrarea datelor mari. Până în 2011, majoritatea celor mai mari companii IT, inclusiv IBM, Oracle, Microsoft și Hewlett-Packard, folosesc în mod activ termenul Big Data în strategiile lor de afaceri. Treptat analiştii de piaţă tehnologia Informatieiîncepe cercetarea activă asupra acestui concept.

În prezent, acest termen a câștigat o popularitate considerabilă și este utilizat în mod activ într-o varietate de domenii. Cu toate acestea, nu se poate spune cu certitudine că Big Data este un fel de fenomen fundamental nou - dimpotrivă, sursele mari de date există de mulți ani. În marketing, acestea pot fi baze de date cu achizițiile clienților, istoriile de credit, stilurile de viață și multe altele. De-a lungul anilor, analiștii au folosit aceste date pentru a ajuta companiile să prezică nevoile viitoare ale clienților, să evalueze riscurile, să modeleze preferințele consumatorilor și multe altele.

În prezent, situația s-a schimbat în două aspecte:

- a apărut mai mult instrumente complexeși metode pentru analiza și compararea diferitelor seturi de date;
— instrumentele de analiză au fost completate cu multe surse de date noi, ceea ce se datorează tranziției pe scară largă la tehnologii digitale, precum și noi metode de colectare și măsurare a datelor.

Cercetătorii prevăd că tehnologiile Big Data vor fi utilizate cel mai activ în producție, asistență medicală, comerț, administrație publică și în alte domenii și industrii foarte diverse.

Big Data nu este o serie specifică de date, ci un set de metode de procesare a acestora. Caracteristica definitorie a datelor mari nu este doar volumul acestora, ci și alte categorii care caracterizează procesele de prelucrare și analiză a datelor care necesită forță de muncă.

Datele inițiale pentru prelucrare pot fi, de exemplu:

— jurnalele de comportament ale utilizatorilor de internet;
- Internetul Lucrurilor;
- social media;
— date meteorologice;
— cărți digitizate ale celor mai mari biblioteci;
– semnale GPS de la vehicule;
— informații despre tranzacțiile clienților băncii;
- datele despre locația abonatului retele mobile;
— informații despre achizițiile din marile lanțuri de retail etc.

De-a lungul timpului, cantitatea de date și numărul surselor acestora este în continuă creștere, iar pe acest fond apar noi metode de prelucrare a informațiilor și sunt îmbunătățite metodele existente de prelucrare a informațiilor.

Principiile de bază ale Big Data:

- Scalabilitate orizontală - matricele de date pot fi uriașe și asta înseamnă că sistemul de procesare a datelor mari trebuie să se extindă dinamic pe măsură ce volumul lor crește.
- Toleranta la erori - chiar daca unele echipamente defecteaza, intregul sistem trebuie sa ramana functional.
— Localitatea datelor. În sistemele mari distribuite, datele sunt de obicei distribuite pe un număr semnificativ de mașini. Cu toate acestea, ori de câte ori este posibil și pentru a economisi resurse, datele sunt adesea procesate pe același server în care sunt stocate.

Pentru funcționarea stabilă a tuturor celor trei principii și, în consecință, eficiența ridicată a stocării și procesării datelor mari, noi tehnologii inovatoare precum blockchain.

Pentru ce sunt datele mari?

Domeniul de aplicare al Big Data este în continuă extindere:

— Datele mari pot fi folosite în medicină. Deci, este posibil să se stabilească un diagnostic pentru un pacient nu numai pe baza datelor analizei istoricului medical, ci și luând în considerare experiența altor medici, informații despre situația ecologică a zonei de reședință a pacientului. , și mulți alți factori.
— Tehnologiile Big Data pot fi utilizate pentru a organiza circulația vehiculelor fără pilot.
— Prin procesarea unor cantități mari de date, este posibilă recunoașterea fețelor în materiale fotografice și video.
- Tehnologiile Big Data pot fi utilizate de comercianții cu amănuntul - companiile comerciale pot folosi în mod activ matricele de date din retele sociale pentru a-și personaliza eficient campaniile publicitare, care pot fi direcționate maxim către un anumit segment de consumatori.
— Această tehnologie este utilizată activ în organizarea campaniilor electorale, inclusiv pentru analiza preferințelor politice din societate.
— Utilizarea tehnologiilor Big Data este relevantă pentru soluțiile de clasa de asigurare a veniturilor (RA), care includ instrumente pentru detectarea inconsecvențelor și analiza aprofundată a datelor care permit identificarea în timp util a pierderilor probabile sau a distorsiunilor de informații care pot duce la o scădere a rezultatelor financiare .
— Furnizorii de telecomunicații pot agrega date mari, inclusiv date de geolocalizare; la rândul lor, această informație poate fi interes comercial pentru agențiile de publicitate care îl pot folosi pentru a afișa publicitate țintită și locală, precum și pentru retaileri și bănci.
— Big data poate juca un rol important în decizia de a deschide un punct de vânzare cu amănuntul în locație specifică pe baza datelor privind prezența unui flux puternic de persoane vizate.

Astfel, cea mai evidentă aplicație practică a tehnologiei Big Data se află în domeniul marketingului. Datorită dezvoltării internetului și proliferării tuturor tipurilor de dispozitive de comunicare, datele comportamentale (cum ar fi numărul de apeluri, obiceiurile de cumpărături și achizițiile) devin disponibile în timp real.

Tehnologiile de date mari pot fi utilizate eficient și în finanțe, cercetare sociologică și multe alte domenii. Experții susțin că toate aceste posibilități de utilizare a datelor mari sunt doar partea vizibilă a aisbergului, deoarece aceste tehnologii sunt utilizate în volume mult mai mari în informații și contrainformații, în afaceri militare, precum și în tot ceea ce se numește în mod obișnuit războaie informaționale.

În termeni generali, secvența de lucru cu Big Data constă în colectarea datelor, structurarea informațiilor primite folosind rapoarte și tablouri de bord și apoi formularea de recomandări de acțiune.

Să luăm în considerare pe scurt posibilitățile de utilizare a tehnologiilor Big Data în marketing. După cum știți, pentru un marketer, informația este principalul instrument de prognoză și strategie. Analiza datelor mari a fost mult timp folosită cu succes pentru a determina public țintă, interesele, cererea și activitatea consumatorilor. Analiza datelor mari, în special, face posibilă afișarea reclamelor (pe baza modelului de licitație RTB - Real Time Bidding) doar acelor consumatori care sunt interesați de un produs sau serviciu.

Utilizarea Big Data în marketing le permite oamenilor de afaceri să:

- recunoaște-ți mai bine consumatorii, atrage un public similar pe Internet;
- evaluarea gradului de satisfacție a clienților;
— să înțeleagă dacă serviciul propus îndeplinește așteptările și nevoile;
- găsiți și implementați noi modalități de creștere a încrederii clienților;
— creați proiecte care sunt solicitate etc.

De exemplu, serviciul Google.trends poate spune unui agent de marketing o prognoză a activității sezoniere a cererii pentru un anumit produs, a fluctuațiilor și a zonei geografice a clicurilor. Dacă comparați aceste informații cu statisticile colectate de plugin-ul corespunzător de pe site-ul dvs., puteți face un plan de distribuție a bugetului de publicitate, indicând luna, regiunea și alți parametri.

Potrivit multor cercetători, succesul campaniei Trump se află în segmentarea și utilizarea Big Data. Echipa viitorului președinte al SUA a reușit să împartă corect audiența, să-i înțeleagă dorințele și să arate exact mesajul pe care alegătorii vor să-l vadă și să-l audă. Așadar, potrivit Irinei Belysheva de la Data-Centric Alliance, victoria lui Trump s-a datorat în mare măsură unei abordări non-standard a marketingului pe Internet, care s-a bazat pe Big Data, analiză psihologic-comportamentală și publicitate personalizată.

Tehnologii politici și marketerii lui Trump au folosit un model matematic special dezvoltat, care le-a permis să analizeze în profunzime datele tuturor alegătorilor din SUA și să le sistematizeze, făcând o țintire ultra-precisă nu numai după caracteristicile geografice, ci și după intențiile, interesele alegătorilor, psihotip, caracteristici comportamentale etc. După ce marketerii au organizat comunicarea personalizată cu fiecare dintre grupurile de cetățeni în funcție de nevoile, stările de spirit, opiniile politice ale acestora, caracteristici psihologiceși chiar culoarea pielii, folosind propriul mesaj pentru aproape fiecare alegător individual.

În ceea ce o privește pe Hillary Clinton, ea a folosit în campania ei metode „testate în timp”, bazate pe date sociologice și marketing standard, împărțind electoratul doar în grupuri formal omogene (bărbați, femei, afro-americani, hispanici, săraci, bogați etc.) .

Drept urmare, câștigătorul a fost cel care a apreciat potențialul noilor tehnologii și metode de analiză. În special, cheltuielile de campanie ale lui Hillary Clinton au fost de două ori mai mari decât cele ale adversarului ei:

Date: Pew Research

Principalele probleme ale utilizării Big Data

Pe lângă costul ridicat, unul dintre principalii factori care împiedică introducerea Big Data în diverse domenii este problema alegerii datelor care urmează să fie prelucrate: adică determinarea ce date trebuie extrase, stocate și analizate și care dintre ele. nu trebuie luate în considerare.

O altă problemă a Big Data este etică. Cu alte cuvinte, apare o întrebare firească: o astfel de colectare de date (mai ales fără știrea utilizatorului) poate fi considerată o încălcare a limitelor de confidențialitate?

Nu este un secret pentru nimeni că informațiile stocate în motoarele de căutare sistemele Googleși Yandex, le permite giganților IT să-și îmbunătățească în mod constant serviciile, să le facă ușor de utilizat și să creeze noi aplicații interactive. Pentru a face acest lucru, motoarele de căutare colectează date utilizatorilor despre activitatea utilizatorului pe Internet, adrese IP, date de geolocalizare, interese și achiziții online, date personale, mesaje de e-mail etc. Toate acestea vă permit să demonstrați publicitate contextualăîn conformitate cu comportamentul utilizatorului pe Internet. În același timp, de obicei nu se cere consimțământul utilizatorilor pentru acest lucru, iar alegerea informațiilor despre ei înșiși să furnizeze nu este oferită. Adică, în mod implicit, totul este colectat în Big Data, care va fi apoi stocat pe serverele de date ale site-urilor.

De aici urmează următoarea problemă importantă privind securitatea stocării și utilizării datelor. De exemplu, este o anumită platformă de analiză pe care consumatorii din mod automat le transfera datele? În plus, mulți reprezentanți ai afacerilor constată o lipsă de analiști și agenți de marketing cu înaltă calificare, care sunt capabili să opereze în mod eficient cantități mari de date și să rezolve probleme specifice de afaceri cu ajutorul lor.

În ciuda tuturor dificultăților cu implementarea Big Data, afacerea intenționează să crească investițiile în acest domeniu. Potrivit unui studiu Gartner, liderii industriilor care investesc în Big Data sunt companiile media, retail, telecom, bancare și servicii.

Perspective de interacțiune între tehnologiile blockchain și Big Data

Integrarea cu Big Data are un efect sinergic și deschide o gamă largă de noi oportunități pentru afaceri, inclusiv permițând:

— obțineți acces la informații detaliate despre preferințele consumatorilor, pe baza cărora puteți construi profiluri analitice detaliate pentru anumiți furnizori, produse și componente ale produsului;
- să integreze date detaliate despre tranzacții și statistici privind consumul anumitor grupe de bunuri de către diverse categorii de utilizatori;
- obțineți date analitice detaliate privind lanțurile de aprovizionare și consum, controlați pierderile de produse în timpul transportului (de exemplu, pierderea în greutate din cauza contracției și evaporării anumitor tipuri de mărfuri);
– contracararea produselor contrafăcute, creșterea eficienței luptei împotriva spălării banilor și fraudei etc.

Accesul la date detaliate privind utilizarea și consumul de bunuri va debloca în mare măsură potențialul tehnologiei Big Data pentru optimizarea proceselor cheie de afaceri, reduce riscurile de reglementare și deschide noi oportunități pentru monetizare și crearea de produse care vor satisface cel mai bine preferințele actuale ale consumatorilor.

După cum știți, reprezentanții celor mai mari instituții financiare își manifestă deja un interes semnificativ pentru tehnologia blockchain, inclusiv etc. Potrivit lui Oliver Bussmann, manager IT al holdingului financiar elvețian UBS, tehnologia blockchain poate „reduce timpul de procesare a tranzacțiilor de la câteva zile la câteva zile. minute”.

Potențialul de analiză din blockchain folosind tehnologia Big Data este imens. Tehnologie registru distribuit asigură integritatea informațiilor, precum și stocarea fiabilă și transparentă a întregului istoric al tranzacțiilor. Big Data, la rândul său, oferă noi instrumente pentru analiză eficientă, prognoză, modelare economică și, în consecință, deschide noi oportunități pentru luarea unor decizii de management mai informate.

Tandemul de blockchain și Big Data poate fi folosit cu succes în domeniul sănătății. După cum știți, datele imperfecte și incomplete despre starea de sănătate a pacientului cresc uneori riscul de a face un diagnostic incorect și un tratament incorect prescris. Datele critice despre sănătatea clienților instituțiilor medicale ar trebui să fie cât mai sigure posibil, să aibă proprietăți de imuabilitate, să fie verificabile și să nu fie supuse vreunei manipulări.

Informațiile din blockchain îndeplinesc toate cerințele de mai sus și pot servi drept sursă de date de înaltă calitate și fiabile pentru o analiză aprofundată folosind noile tehnologii Big Data. În plus, cu ajutorul blockchain-ului, instituțiile medicale ar putea face schimb de date fiabile cu companii de asigurări, autorități judiciare, angajatori, instituții științifice și alte organizații care au nevoie de informații medicale.

Big Data și securitatea informațiilor

Într-un sens larg, securitatea informațiilor este protecția informațiilor și a infrastructurii de sprijin împotriva impacturilor negative accidentale sau intenționate de natură naturală sau artificială.

În domeniul securității informațiilor, Big Data se confruntă cu următoarele provocări:

— Probleme de protecție a datelor și de asigurare a integrității acestora;
— riscul de interferență externă și scurgere de informații confidențiale;
— stocarea necorespunzătoare a informațiilor confidențiale;
- riscul pierderii de informații, de exemplu, din cauza acțiunilor rău intenționate ale cuiva;
— riscul utilizării greșite a datelor cu caracter personal de către terți etc.

Una dintre principalele probleme ale big data pe care blockchain-ul este conceput să le rezolve constă în domeniul securității informațiilor. Asigurând conformitatea cu toate principiile sale de bază, tehnologia registrului distribuit poate garanta integritatea și fiabilitatea datelor, iar din cauza absenței unui singur punct de eșec, blockchain-ul face sistemele informaționale stabile. Tehnologia de registru distribuită poate ajuta la rezolvarea problemei încrederii datelor, precum și poate oferi capacitatea de a schimb universal lor.

Informația este un atu valoros, ceea ce înseamnă că principalele aspecte ale securității informațiilor ar trebui să fie în prim-plan. Pentru a supraviețui în competiție, companiile trebuie să țină pasul cu vremurile, ceea ce înseamnă că nu pot ignora potențialele oportunități și avantaje pe care le conțin tehnologia blockchain și instrumentele Big Data.

La un moment dat, am auzit termenul „Big Data” de la germanul Gref (șeful Sberbank). De exemplu, acum lucrează activ la implementare, deoarece acest lucru îi va ajuta să reducă timpul de lucru cu fiecare client.

A doua oară când am dat peste acest concept a fost în magazinul online al clientului, la care am lucrat și am mărit sortimentul de la câteva mii la câteva zeci de mii de articole de bază.

A treia oară am văzut că Yandex avea nevoie de un analist de date mari. Apoi m-am hotărât să aprofundez acest subiect și, în același timp, să scriu un articol care să vă spună ce fel de termen este cel care entuziasmează mintea TOP managerilor și spațiul internetului.

VVV sau VVVVV

De obicei, încep oricare dintre articolele mele cu o explicație despre ce fel de termen este. Acest articol nu va face excepție.

Totuși, acest lucru nu se datorează în primul rând dorinței de a arăta cât de inteligent sunt, ci pentru că subiectul este cu adevărat complex și necesită o explicație atentă.

De exemplu, puteți citi ce este big data pe Wikipedia, nu înțelegeți nimic și apoi reveniți la acest articol pentru a înțelege definiția și aplicabilitatea pentru afaceri. Deci, să începem cu o descriere și apoi cu exemple de afaceri.

Big data este big data. Uimitor, nu? De fapt, din engleză este tradus ca „date mari”. Dar această definiție, s-ar putea spune, este pentru manechini.

Important. Tehnologia Big Data este o abordare/metodă de prelucrare a mai multor date pentru a obține informații noi care este dificil de procesat în moduri convenționale.

Datele pot fi atât procesate (structurate), cât și fragmentate (adică nestructurate).

Termenul în sine a apărut relativ recent. În 2008, un jurnal științific a prezis această abordare ca fiind ceva necesar pentru a face față unei cantități mari de informații care crește exponențial.

De exemplu, în fiecare an informațiile de pe Internet care trebuie stocate și, bineînțeles, procesate, cresc cu 40%. Din nou. +40% în fiecare an apar informații noi pe Internet.

Dacă documentele tipărite sunt de înțeles și modalitățile de procesare a acestora sunt, de asemenea, înțelese (transferare în formular electronic, cusatura într-un singur folder, numerotate), atunci ce să faceți cu informațiile care sunt prezentate în „purtători” complet diferite și în alte volume:

  • documente pe internet;
  • bloguri și rețele sociale;
  • surse audio/video;
  • aparate de masura;

Există caracteristici care fac posibilă clasificarea informațiilor și a datelor ca date mari.

Adică, nu toate datele pot fi potrivite pentru analiză. Tocmai în aceste caracteristici concept cheie mare întâlnire. Toate se potrivesc în trei V.

  1. Volumul (din volumul englezesc). Datele sunt măsurate în funcție de volumul fizic al „documentului” de analizat;
  2. Viteză (din engleză viteza). Datele nu stau în dezvoltarea sa, ci cresc constant, motiv pentru care trebuie procesate rapid pentru a obține rezultate;
  3. Varietate (din engleză varietate). Este posibil ca datele să nu fie uniforme. Adică pot fi fragmentate, structurate sau parțial structurate.

Totuși, din când în când, la VVV se adaugă un al patrulea V (veracitatea - fiabilitatea / credibilitatea datelor) și chiar un al cincilea V (în unele cazuri este viabilitate - viabilitate, în altele este valoare).

Undeva am văzut chiar și 7V, care caracterizează datele legate de big data. Dar, după părerea mea, aceasta este dintr-o serie (unde se adaugă periodic P-uri, deși inițialul 4 este suficient pentru înțelegere).

Cine are nevoie?

Apare o întrebare logică, cum pot fi utilizate informațiile (dacă este ceva, big data este de sute și mii de terabytes)? Nici măcar așa.

Iată informațiile. Atunci de ce au venit cu date mari atunci? Care este utilizarea datelor mari în marketing și afaceri?

  1. Bazele de date convenționale nu pot stoca și procesa (nici măcar nu vorbesc acum despre analiză, ci pur și simplu stocarea și procesarea) o cantitate imensă de informații.

    Big data rezolvă această problemă principală. Stochează și gestionează cu succes informațiile cu un volum mare;

  2. Structurează informațiile provenind din diverse surse (video, imagini, documente audio și text) într-o formă unică, ușor de înțeles și digerabilă;
  3. Formarea de analize și crearea de previziuni precise bazate pe informații structurate și procesate.

Este complicat. Mai simplu spus, orice marketer care înțelege că dacă studiezi o cantitate mare de informații (despre tine, compania ta, concurenții tăi, industria ta), poți obține rezultate foarte decente:

  • Înțelegerea completă a companiei și a afacerii dvs. din punct de vedere al cifrelor;
  • Studiază-ți concurenții. Iar aceasta, la rândul său, va face posibilă trecerea înainte prin dominarea lor;
  • A sti informație nouă despre clienții tăi.

Și tocmai pentru că tehnologia big data dă următoarele rezultate, toată lumea se grăbește cu ea.

Ei încearcă să înșurubească această afacere în compania lor pentru a obține o creștere a vânzărilor și o scădere a costurilor. Și pentru a fi concret, atunci:

  1. Creșterea vânzărilor încrucișate și a vânzărilor în plus printr-o mai bună cunoaștere a preferințelor clienților;
  2. Căutare produse populareși motivele pentru care sunt cumpărate (și invers);
  3. Îmbunătățirea produsului sau serviciului;
  4. Îmbunătățirea nivelului de servicii;
  5. Creșterea loialității și a orientării către clienți;
  6. Prevenirea fraudei (mai relevant pentru sectorul bancar);
  7. Reducerea costurilor în exces.

Cel mai frecvent exemplu dat în toate sursele este, desigur, Apple, care colectează date despre utilizatorii săi (telefon, ceas, computer).

Din cauza prezenței ecosistemului, corporația știe atât de multe despre utilizatorii săi și în viitor îl folosește pentru profit.

Puteți citi aceste și alte exemple de utilizare în orice alt articol, cu excepția celui acesta.

Să mergem în viitor

O să vă povestesc despre un alt proiect. Sau, mai degrabă, despre o persoană care construiește viitorul folosind soluții de date mari.

Acesta este Elon Musk și compania lui Tesla. Visul lui principal este să faci mașinile autonome, adică te urci la volan, pornești pilotul automat de la Moscova la Vladivostok și... adormi, pentru că nu trebuie deloc să conduci o mașină, pentru că el va face. totul însuși.

S-ar părea fantastic? Dar nu! Doar că Elon s-a comportat mult mai înțelept decât Google, care controlează mașinile folosind zeci de sateliți. Și a mers pe cealaltă direcție:

  1. Fiecare mașină vândută este echipată cu un computer care colectează toate informațiile.

    Totul înseamnă totul. Despre șofer, stilul său de condus, drumurile din jur, mișcarea altor mașini. Volumul acestor date ajunge la 20-30 GB pe oră;

  2. Mai mult, aceste informații sunt transmise prin satelit către computerul central, care prelucrează aceste date;
  3. Pe baza datelor mari pe care le prelucrează acest computer, se construiește un model de vehicul fără pilot.

Apropo, dacă Google merge destul de prost și mașinile lor intră în accidente tot timpul, atunci Musk, din cauza faptului că lucrează cu big data, se descurcă mult mai bine, deoarece modelele de testare arată rezultate foarte bune.

https://youtu.be/lc2ZVUZ6kno

Dar... Totul tine de economie. Ce suntem cu toții despre profit, da despre profit? Multe lucruri pe care big data le pot rezolva nu au nicio legătură cu câștigurile și banii.

Statisticile Google, bazate doar pe date mari, arată un lucru interesant.

Înainte ca medicii să anunțe începutul unei epidemii a unei boli într-o regiune, numărul de interogări de căutare despre tratamentul acestei boli.

Astfel, studiul corect al datelor și analiza acestora poate forma prognoze și poate prezice declanșarea epidemiei (și, în consecință, prevenirea acesteia) mult mai rapid decât opinia autorităților și acțiunile acestora.

Aplicație în Rusia

Cu toate acestea, Rusia, ca întotdeauna, încetinește puțin. Deci însăși definiția datelor mari în Rusia a apărut cu nu mai mult de 5 ani în urmă (vorbesc despre companii obișnuite acum).

Și asta în ciuda faptului că aceasta este una dintre piețele cu cea mai rapidă creștere din lume (drogurile și armele fumează nervos pe margine), deoarece în fiecare an piața de software pentru colectarea și analiza big data crește cu 32%.

Pentru a caracteriza piața de date mari din Rusia, îmi amintesc de o glumă veche. Întâlnirea mare este ca sexul înainte de 18 ani.

Toată lumea vorbește despre asta, este mult hype în jurul lui și puțin acțiune reală, și tuturor le este rușine să recunoască că ei înșiși nu fac asta. Într-adevăr, există multă hype în jurul acestui lucru, dar puțină acțiune reală.

Deși cunoscuta companie de cercetare Gartner a anunțat deja în 2015 că big data nu mai este o tendință în creștere (cum ar fi inteligența artificială, de altfel), ci instrumente complet independente de analiză și dezvoltare a tehnologiilor avansate.

Cele mai active nișe în care se folosesc big data în Rusia sunt băncile/asigurări (nu fără motiv am început articolul cu șeful Sberbank), telecomunicațiile, retailul, imobiliarele și... sectorul public.

De exemplu, vă voi spune mai detaliat despre câteva sectoare ale economiei care utilizează algoritmi de date mari.

Băncile

Să începem cu băncile și informațiile pe care le colectează despre noi și acțiunile noastre. De exemplu, am luat top-5 bănci rusești care investesc activ în big data:

  1. Sberbank;
  2. Gazprombank;
  3. VTB 24;
  4. Alfa Bank;
  5. Banca Tinkoff.

Este deosebit de plăcut să vezi Alfa Bank printre liderii ruși. Cel puțin, este plăcut să știi că banca, partener oficial cine sunteți, înțelege nevoia de a introduce noi instrumente de marketing în compania dvs.

Dar vreau să arăt exemple de utilizare și implementare cu succes a big data pe bancă, ceea ce îmi place pentru aspectul non-standard și acțiunile fondatorului acesteia.

Vorbesc despre Tinkoff Bank. Lor sarcina principala a existat o dezvoltare a unui sistem de analiză a datelor mari în timp real din cauza unei baze de clienți exagerate.

Rezultate: timp procesele interne a scăzut de cel puțin 10 ori, iar pentru unii - de peste 100 de ori.

Ei bine, puțină distragere a atenției. Știți de ce am început să vorbesc despre tragedia și acțiunile non-standard ale lui Oleg Tinkov?

Doar că, în opinia mea, ei au fost cei care l-au ajutat să se transforme dintr-un om de afaceri din clasa de mijloc, dintre care există mii în Rusia, într-unul dintre cei mai faimoși și recunoscuți antreprenori. Pentru a dovedi acest lucru, urmăriți acest videoclip neobișnuit și interesant:

https://youtu.be/XHMaD5HAvfk

Imobiliare

În domeniul imobiliar, lucrurile sunt mult mai complicate. Și acesta este exact exemplul pe care vreau să-l dau pentru a înțelege marea întâlnire din cadrul afacerii normale. Date inițiale:

  1. Volum mare de documentație text;
  2. Surse deschise (sateliți privați care transmit date despre schimbările pământului);
  3. Cantitatea mare de informații necontrolate de pe Internet;
  4. Schimbări constante ale surselor și datelor.

Și pe baza acestui fapt, este necesar să se pregătească și să se evalueze costul unui teren, de exemplu, sub satul Ural. Va dura o săptămână pentru un profesionist.

La Societatea Rusă Appraisers & ROSEKO, care au implementat de fapt analiza de date mari cu ajutorul software-ului, nu vor lua mai mult de 30 de minute de muncă pe îndelete. Compară, o săptămână și 30 de minute. Diferență colosală.

Ei bine, pentru o gustare

Desigur, cantități uriașe de informații nu pot fi stocate și procesate pe hard disk-uri simple.

Iar software-ul care structurează și analizează datele este în general proprietate intelectuală și de fiecare dată este o dezvoltare a unui autor. Cu toate acestea, există instrumente pe baza cărora este creat tot acest farmec:

  • Hadoop și MapReduce;
  • baze de date NoSQL;
  • Instrumente ale clasei Data Discovery.

Sincer să fiu, nu vă pot explica clar cum diferă unul de celălalt, deoarece cunoașterea și lucrul cu aceste lucruri sunt predate în institute de fizică și matematică.

Atunci de ce am început să vorbesc despre asta dacă nu pot să explic? Îți amintești în toate filmele tâlharii intră în orice bancă și văd un număr imens de tot felul de bucăți de fier conectate la fire?

Același lucru este valabil și pentru datele mari. De exemplu, iată un model care este în prezent unul dintre cei mai lideri de pe piață.

Instrument de întâlnire mare

Costul în configurația maximă ajunge la 27 de milioane de ruble pe rack. Aceasta este, desigur, versiunea deluxe. Vreau să spun că încercați în avans crearea de date mari în afacerea dvs.

Pe scurt despre principal

Vă puteți întreba de ce voi, întreprinderile mici și mijlocii, lucrați cu date mari?

La aceasta vă voi răspunde cu un citat de la o persoană: „În viitorul apropiat, clienții vor fi în căutare de companii care să le înțeleagă mai bine comportamentul, obiceiurile și să le corespundă cât mai mult posibil.”

Dar să recunoaștem. Pentru a implementa big data într-o afacere mică, este necesar să aveți nu doar bugete mari pentru dezvoltarea și implementarea de software, ci și pentru întreținerea unor specialiști, cel puțin precum un analist de big data și un administrator de sistem.

Și acum tac despre faptul că ar trebui să aveți astfel de date pentru prelucrare.

O.K. Pentru întreprinderile mici, subiectul aproape că nu este aplicabil. Dar asta nu înseamnă că trebuie să uiți tot ce ai citit mai sus.

Doar studiați nu propriile date, ci rezultatele analizei datelor de la companii binecunoscute atât din străinătate, cât și din Rusia.

De exemplu, rețeaua de vânzare cu amănuntul Target, folosind analize de date mari, a descoperit că femeile însărcinate înainte de al doilea trimestru de sarcină (din a 1-a până în a 12-a săptămână de sarcină) cumpără în mod activ produse fără arome.

Cu aceste date, le trimit cupoane de reducere pentru produse neparfumate cu o dată de expirare limitată.

Și dacă ești doar o cafenea foarte mică, de exemplu? Da, foarte simplu. Utilizați o aplicație de loialitate.

Și după ceva timp și datorită informațiilor acumulate, veți putea nu numai să oferi clienților preparate relevante pentru nevoile lor, ci și să vedeți cele mai nevândute și mai marginale feluri de mâncare cu doar câteva clicuri de mouse.

De aici concluzia. Nu merită implementarea datelor mari pentru întreprinderile mici, dar utilizarea rezultatelor și dezvoltărilor altor companii este o necesitate.

S-a prezis că volumul total global de date create și replicate în 2011 ar putea fi de aproximativ 1,8 zettabytes (1,8 trilioane de gigaocteți) - de aproximativ 9 ori mai mult decât ceea ce a fost creat în 2006.

Definiție mai complexă

Cu toate acestea` Date mare` implică mai mult decât doar analiza unor cantități mari de informații. Problema nu este că organizațiile creează cantități uriașe de date, ci că majoritatea sunt prezentate într-un format care nu se potrivește bine cu formatul tradițional de bază de date structurată - acestea sunt jurnalele web, videoclipurile, documente text, codul mașinii sau, de exemplu, date geospațiale. Toate acestea sunt stocate în multe depozite diferite, uneori chiar și în afara organizației. Drept urmare, corporațiile pot avea acces la o cantitate imensă de date și nu au instrumentele necesare pentru a stabili relații între aceste date și a trage concluzii semnificative din ele. Adăugați la aceasta faptul că acum datele sunt actualizate din ce în ce mai des și obțineți o situație în care metodele tradiționale de analiză a informațiilor nu pot ține pasul cu cantități uriașe de date actualizate constant, ceea ce în cele din urmă deschide calea pentru tehnologie. Date mare.

Cea mai bună definiție

În esență, conceptul Date mare presupune lucrul cu informații de volum uriaș și compoziție diversă, de foarte multe ori actualizate și localizate în surse diferite pentru a crește eficiența muncii, a crea produse noi și a crește competitivitatea. Firma de consultanta Forrester o spune succint: ` Date mare reunesc tehnici și tehnologii care extrag sens din date la limita extremă a caracterului practic`.

Cât de mare este diferența dintre business intelligence și big data?

Craig Bathy, Director Executiv de Marketing și Chief Technology Officer al Fujitsu Australia, a subliniat că analiza de afaceri este un proces descriptiv de analiză a rezultatelor obținute de o afacere în anumită perioadă timp, în timp ce viteza de procesare Date mare vă permite să faceți analiza predictivă, capabilă să ofere recomandări de afaceri pentru viitor. Tehnologiile de date mari vă permit, de asemenea, să analizați mai multe tipuri de date decât instrumentele de business intelligence, ceea ce face posibilă concentrarea nu numai pe stocarea structurată.

Matt Slocum de la O „Reilly Radar crede că, deși Date mareși business intelligence au același scop (găsirea răspunsurilor la o întrebare), diferă între ele în trei aspecte.

  • Big data este conceput pentru a procesa cantități mai mari de informații decât business intelligence, iar acest lucru, desigur, se potrivește definiției tradiționale a datelor mari.
  • Big Data este conceput pentru a procesa mai rapid și mai rapid informații care se schimbă, ceea ce înseamnă explorare profundă și interactivitate. În unele cazuri, rezultatele sunt generate mai repede decât se încarcă pagina web.
  • Big Data este conceput pentru a gestiona date nestructurate pe care abia începem să le explorăm cum să le folosim după ce le-am putut colecta și stoca și avem nevoie de algoritmi și dialog pentru a facilita găsirea tendințelor conținute în aceste matrice.

Conform cărții albe Oracle Information Architecture: An Architect's Guide to Big Data publicată de Oracle, atunci când lucrăm cu big data, abordăm informațiile diferit decât atunci când efectuăm analize de afaceri.

Lucrul cu big data nu este ca un proces tipic de business intelligence, în care simpla adunare a valorilor cunoscute dă rezultate: de exemplu, adăugarea facturilor plătite împreună devine vânzări pentru un an. Atunci când se lucrează cu date mari, rezultatul se obține în procesul de curățare a acestora prin modelare secvențială: în primul rând, se emite o ipoteză, se construiește un model statistic, vizual sau semantic, pe baza acestuia se verifică corectitudinea ipotezei prezentate. , iar apoi este prezentat următorul. Acest proces necesită ca cercetătorul fie să interpreteze semnificațiile vizuale, fie să facă interogări interactive bazate pe cunoștințe, fie să dezvolte algoritmi adaptativi de „învățare automată” capabili să producă rezultatul dorit. Mai mult, durata de viață a unui astfel de algoritm poate fi destul de scurtă.

Tehnici de analiză a datelor mari

Există multe metode diferite pentru analiza matricelor de date, care se bazează pe instrumente împrumutate din statistică și informatică (de exemplu, învățarea automată). Lista nu pretinde a fi completă, dar reflectă cele mai populare abordări din diverse industrii. În același timp, trebuie înțeles că cercetătorii continuă să lucreze la crearea de noi metode și la îmbunătățirea celor existente. În plus, unele dintre tehnicile enumerate nu sunt neapărat aplicabile exclusiv datelor mari și pot fi utilizate cu succes pentru matrice mai mici (de exemplu, testarea A/B, analiza regresiei). Desigur, cu cât matricea este mai voluminoasă și mai diversificată, cu atât se pot obține date mai precise și mai relevante la ieșire.

Testare A/B. O tehnică în care o probă de control este comparată la rândul său cu altele. Astfel, este posibil să se identifice combinația optimă de indicatori pentru a obține, de exemplu, cel mai bun răspuns al consumatorului la o ofertă de marketing. Date mare permite pentru o cantitate mare iterații și obținem astfel un rezultat semnificativ statistic.

învăţarea regulilor de asociere. Un set de tehnici de identificare a relațiilor, de ex. reguli de asociere între variabilele din matrice mari de date. Folosit in extragerea datelor.

clasificare. Un set de tehnici care vă permit să preziceți comportamentul consumatorului într-un anumit segment de piață (decizii de cumpărare, abandon, volumul de consum etc.). Folosit in extragerea datelor.

analiza grupului. O metodă statistică de clasificare a obiectelor în grupuri prin identificarea caracteristicilor comune care nu sunt cunoscute în prealabil. Folosit in extragerea datelor.

Crowdsourcing. O tehnică de colectare a datelor dintr-un număr mare de surse.

Fuziunea și integrarea datelor. Un set de tehnici care vă permit să analizați comentariile utilizatorilor rețelelor sociale și să le comparați cu rezultatele vânzărilor în timp real.

extragerea datelor. Un set de tehnici care vă permit să determinați categoriile cele mai susceptibile de consumatori pentru produsul sau serviciul promovat, să identificați caracteristicile celor mai de succes angajați și să preziceți modelul comportamental al consumatorilor.

Învățare prin ansamblu. Această metodă folosește o mulțime de modele predictive, ceea ce îmbunătățește calitatea predicțiilor făcute.

Algoritmi genetici. În această tehnică solutii posibile reprezentați ca „cromozomi” care se pot combina și muta. La fel ca în procesul de evoluție naturală, cel mai apt individ supraviețuiește.

învățare automată. O direcție în informatică (în mod istoric, i s-a atribuit denumirea de `inteligență artificială`), care își propune să creeze algoritmi de auto-învățare bazați pe analiza datelor empirice.

procesarea limbajului natural (NLP). Un set de tehnici de recunoaștere a limbajului natural împrumutat din informatică și lingvistică.

analiza rețelei. Un set de tehnici pentru analiza legăturilor dintre nodurile din rețele. În ceea ce privește rețelele sociale, vă permite să analizați relația dintre utilizatorii individuali, companii, comunități etc.

Optimizare. Un set de metode numerice pentru reproiectarea sistemelor și proceselor complexe pentru a îmbunătăți unul sau mai mulți indicatori. Ajută la luarea deciziilor strategice, de exemplu, compoziția liniei de produse introduse pe piață, efectuarea analizei investiționale etc.

recunoasterea formelor. Un set de tehnici cu elemente de autoînvățare pentru prezicerea modelului comportamental al consumatorilor.

modelare predictivă. Un set de tehnici care vă permit să creați un model matematic al unui predeterminat scenariu probabil dezvoltarea evenimentelor. De exemplu, analiza bazei de date a sistemului CRM pentru conditii posibile care îi va împinge pe abonați să schimbe furnizorii.

regresie. Un set de metode statistice pentru identificarea modelelor între modificările unei variabile dependente și una sau mai multe variabile independente. Adesea folosit pentru prognoză și previziuni. Folosit în data mining.

analiza sentimentelor. Tehnicile de evaluare a sentimentului consumatorilor se bazează pe tehnologiile de recunoaștere a limbajului natural uman. Acestea vă permit să izolați mesajele legate de subiectul de interes (de exemplu, un produs de consum) din fluxul de informații generale. Apoi, evaluați polaritatea judecății (pozitivă sau negativă), gradul de emoționalitate și așa mai departe.

procesare a semnalului. Un set de tehnici împrumutate din ingineria radio, care urmărește recunoașterea unui semnal pe un fundal de zgomot și analiza ulterioară a acestuia.

Analiza spațială. Un set de tehnici, parțial împrumutate din statistici, pentru analiza datelor spațiale - topologia terenului, coordonatele geografice, geometria obiectelor. sursă Date mareîn acest caz acționează adesea sistemele de informații geografice (GIS).

Statistici. Știința colectării, organizării și interpretării datelor, inclusiv proiectarea chestionarelor și efectuarea de experimente. Metodele statistice sunt adesea folosite pentru a face judecăți de valoare cu privire la relațiile dintre anumite evenimente.

Învățare supravegheată. Set bazat pe tehnologie învățare automată tehnici care vă permit să identificați relații funcționale în matricele de date analizate.

simulare. Modelarea comportamentului sistemelor complexe este adesea folosită pentru a prezice, a prezice și a elabora diferite scenarii atunci când planificați.

Analiza serii temporale. Un set de metode împrumutate din statistici și procesare digitală a semnalului pentru analiza secvențelor de date care se repetă în timp. O utilizare evidentă este urmărirea pieței de valori sau a incidenței pacienților.

Învățare nesupravegheată. Un set de tehnici bazate pe tehnologii de învățare automată care vă permit să identificați relații funcționale ascunse în seturile de date analizate. Are caracteristici comune cu analiza grupului.

Vizualizarea. Metode de prezentare grafică a rezultatelor analizei big data sub formă de diagrame sau imagini animate pentru a simplifica interpretarea și a facilita înțelegerea rezultatelor obținute.


O prezentare vizuală a rezultatelor analizei big data este de o importanță fundamentală pentru interpretarea acestora. Nu este un secret pentru nimeni că percepția umană este limitată, iar oamenii de știință continuă să efectueze cercetări în domeniul îmbunătățirii. metode moderne prezentarea datelor sub formă de imagini, diagrame sau animații.

Instrumente analitice

Pentru 2011, unele dintre abordările enumerate în subsecțiunea anterioară, sau o anumită combinație a acestora, fac posibilă punerea în practică a motoarelor analitice pentru lucrul cu big data. Din gratuit sau relativ ieftin sisteme deschise Analiza Big Data poate fi recomandată:

  • Revolution Analytics (bazat pe limbajul R pentru statistici matematice).

Un interes deosebit pe această listă este Apache Hadoop, un software open source care a fost testat ca analizor de date de către majoritatea instrumentelor de urmărire a stocurilor în ultimii cinci ani. De îndată ce Yahoo a deschis codul Hadoop către comunitatea open source, a apărut rapid o nouă tendință în industria IT de a crea produse bazate pe Hadoop. Aproape toate instrumentele moderne de analiză Date mare asigura integrarea cu Hadoop. Dezvoltatorii lor sunt atât startup-uri, cât și companii globale bine-cunoscute.

Piețe pentru soluții de management al datelor mari

Platformele Big Data (BDP, Big Data Platform) ca mijloc de combatere a hordingului digital

Capacitate de analiză Date mare, numită colocvial Big Data, este percepută ca o binefacere și fără ambiguitate. Dar este chiar așa? La ce poate duce acumularea nestăpânită de date? Cel mai probabil la faptul că psihologii domestici în relație cu o persoană numesc tezaurizare patologică, silogmanie sau, la figurat, „sindromul lui Plyushkin”. În engleză, pasiunea vicioasă de a colecta totul se numește hording (de la tezaurul englezesc - „rezervă”). Conform clasificării bolilor mintale, hordingul este clasificat ca o tulburare mintală. În era digitală, digitalul (Digital Hoarding) se adaugă la acordurile materiale tradiționale, atât persoanele fizice, cât și întreprinderile și organizațiile întregi () pot suferi de aceasta.

Piața mondială și rusă

Peisajul datelor mari - Principalii furnizori

Interes pentru instrumentele de colectare, prelucrare, management și analiză Date mare a arătat aproape toate companiile IT de top, ceea ce este destul de firesc. În primul rând, ei experimentează direct acest fenomen în propria afacere și, în al doilea rând, Date mare deschide oportunități excelente pentru dezvoltarea de noi nișe de piață și atragerea de noi clienți.

Pe piață au apărut o mulțime de startup-uri care fac afaceri prin prelucrarea unor cantități uriașe de date. Unele dintre ele folosesc infrastructură cloud gata făcută, furnizată de jucători mari precum Amazon.

Teoria și practica Big Data în industrii

Istoria dezvoltării

2017

Prognoza TmaxSoft: următorul „val” de Big Data va necesita modernizarea DBMS

Companiile știu că cantitățile uriașe de date pe care le acumulează conțin informații importante despre afacerea lor și despre clienți. Dacă compania poate aplica cu succes aceste informații, atunci va avea un avantaj semnificativ față de concurenții săi și va putea oferi produse și servicii mai bune decât ale lor. Cu toate acestea, multe organizații încă nu pot utiliza în mod eficient Date mare din cauza faptului că infrastructura lor IT moștenită nu este în măsură să ofere capacitatea de stocare necesară, procesele de schimb de date, utilitățile și aplicațiile necesare pentru a procesa și analiza matrice mari de date nestructurate pentru a extrage informații valoroase din acestea, a indicat TmaxSoft.

În plus, creșterea puterii de procesare necesară pentru a analiza volume din ce în ce mai mari de date poate necesita investiții semnificative în infrastructura IT moștenită a unei organizații, precum și resurse suplimentare de întreținere care ar putea fi utilizate pentru a dezvolta noi aplicații și servicii.

Pe 5 februarie 2015, Casa Albă a lansat un raport care discuta despre modul în care companiile folosesc „ Date mare" a stabili preturi diferite pentru diferiți cumpărători - o practică cunoscută sub numele de „discriminare prin preț” sau „preț diferențial” (prețuri personalizate). Raportul descrie beneficiile big data atât pentru vânzători, cât și pentru cumpărători și concluzionează că multe dintre problemele ridicate de apariția big data și a prețurilor diferențiate pot fi abordate în cadrul legilor și reglementărilor antidiscriminare existente, care protejează drepturile consumatorilor.

Raportul notează că, în acest moment, există doar dovezi anecdotice ale modului în care companiile folosesc datele mari în contextul marketingului individualizat și al prețurilor diferențiate. Aceste informații arată că vânzătorii folosesc metode de stabilire a prețurilor care pot fi împărțite în trei categorii:

  • studierea curbei cererii;
  • Direcție și prețuri diferențiate pe baza datelor demografice; și
  • marketing comportamental vizat (behavioral targeting - behavioral targeting) și stabilirea prețurilor individualizate.

Studierea curbei cererii: Pentru a înțelege cererea și a înțelege comportamentul consumatorilor, agenții de marketing efectuează adesea experimente în acest domeniu, în timpul cărora clienților li se atribuie aleatoriu unul dintre cele două posibile categorii de pret. „Din punct de vedere tehnic, aceste experimente sunt o formă de preț diferențial, deoarece au ca rezultat prețuri diferite pentru clienți, chiar dacă sunt „nediscriminatorii”, în sensul că toți clienții au aceeași șansă de a „lovi” prețul mai mare.”

Direcție: Aceasta este practica de prezentare a produselor consumatorilor pe baza apartenenței acestora la un anumit grup demografic. Da, site compania de calculatoare pot oferi același laptop diferitelor tipuri de clienți la prețuri diferite în funcție de informațiile pe care le furnizează despre ei înșiși (de exemplu, în funcție de faptul dacă utilizatorul este un reprezentant al agențiilor guvernamentale, al instituțiilor științifice sau comerciale sau al unei persoane fizice) sau din zona geografică a acestora. locația (de exemplu, determinată de adresa IP a computerului).

Marketing comportamental țintit și prețuri personalizate: În aceste cazuri, datele personale ale cumpărătorilor sunt folosite pentru publicitate direcționată și stabilirea prețurilor individualizate pentru anumite produse. De exemplu, agenții de publicitate online folosesc datele colectate de rețelele publicitare și prin cookie-uri de la terți despre activitatea utilizatorilor pe Internet pentru a-și viza materiale promoționale. Această abordare, pe de o parte, le permite consumatorilor să primească reclame pentru bunuri și servicii de interes pentru ei, cu toate acestea, poate cauza îngrijorare pentru acei consumatori care nu doresc anumite tipuri de date personale (cum ar fi informații despre vizitele pe site-uri web cu linkuri). cu chestiuni medicale și financiare) întâlnite fără acordul lor.

Deși marketingul comportamental direcționat este larg răspândit, există relativ puține dovezi de stabilire a prețurilor individualizate în mediul online. Raportul speculează că acest lucru se poate datora faptului că metodele sunt încă în curs de dezvoltare sau pentru că companiile sunt reticente în a utiliza prețuri individuale (sau preferă să tacă în privința asta) - poate de teama unei reacții din partea consumatorilor.

Autorii raportului consideră că „pentru consumatorul individual, utilizarea datelor mari este, fără îndoială, asociată atât cu potențiale rentabilități, cât și cu riscuri”. Deși recunoaște că există probleme de transparență și discriminare asociate cu utilizarea datelor mari, raportul susține că legile existente anti-discriminare și protecția consumatorilor sunt suficiente pentru a le rezolva. Cu toate acestea, raportul subliniază, de asemenea, necesitatea unui „control continuu” atunci când companiile utilizează informații confidențiale într-o manieră netransparentă sau în moduri care nu sunt acoperite de cadrul de reglementare existent.

Acest raport este o continuare a eforturilor Casei Albe de a examina utilizarea „big data” și prețurile discriminatorii pe internet, precum și consecințele care rezultă pentru consumatorii americani. S-a raportat anterior că Grupul de lucru al Casei Albe pentru Big Data și-a publicat raportul pe această problemă în mai 2014. Comisia Federală pentru Comerț (FTC) a abordat, de asemenea, aceste probleme în timpul atelierului său din septembrie 2014 privind discriminarea în legătură cu utilizarea datelor mari.

2014

Gartner demistifică Big Data

Un brief de politici din toamna anului 2014 de la Gartner enumeră și dezmintă o serie de mituri comune despre Big Data în rândul CIO.

  • Toată lumea implementează sisteme de procesare Big Data mai rapid decât noi

Interesul pentru tehnologiile Big Data este la cote maxime, 73% dintre organizațiile chestionate de analiștii Gartner în acest an investesc deja sau plănuiesc să facă acest lucru. Dar cele mai multe dintre aceste inițiative sunt încă în fazele lor incipiente și doar 13% dintre cei chestionați au implementat deja astfel de soluții. Cea mai grea parte este să descoperi cum să monetizezi Big Data, să decizi de unde să începi. Multe organizații rămân blocate în faza pilot, deoarece nu pot lega noile tehnologii de anumite procese de afaceri.

  • Avem atât de multe date încât nu trebuie să ne facem griji cu privire la erorile mici din ele.

Unii CIO consideră că micile defecte ale datelor nu afectează rezultatele generale ale analizei unor volume uriașe. Când există o mulțime de date, fiecare eroare separat afectează într-adevăr rezultatul mai puțin, spun analiștii, dar erorile în sine devin mai mari. În plus, majoritatea datelor analizate sunt externe, de structură sau origine necunoscută, astfel că probabilitatea erorilor crește. Astfel, în lumea Big Data, calitatea este de fapt mult mai importantă.

  • Tehnologiile Big Data vor elimina necesitatea integrării datelor

Big Data promite capacitatea de a procesa datele în formatul original cu generarea automată a schemei pe măsură ce sunt citite. Se crede că acest lucru va permite analiza informațiilor din aceleași surse folosind mai multe modele de date. Mulți cred că acest lucru va permite utilizatorilor finali să interpreteze orice set de date în felul lor. În realitate, majoritatea utilizatorilor au adesea nevoie de modul tradițional cu schema terminata atunci când datele sunt formatate corespunzător și există acorduri privind nivelul de integritate a informațiilor și modul în care acestea ar trebui să se raporteze la cazul de utilizare.

  • Depozitele de date nu au sens să fie folosite pentru analize complexe

Mulți administratori de sisteme de management al informațiilor consideră că nu are sens să aloce timp creării unui depozit de date, având în vedere că sistemele analitice complexe folosesc noi tipuri de date. De fapt, multe sisteme de analiză sofisticate folosesc informații dintr-un depozit de date. În alte cazuri, noi tipuri de date trebuie pregătite suplimentar pentru analiză în sistemele de procesare Big Data; trebuie luate decizii cu privire la caracterul adecvat al datelor, principiile de agregare și nivelul necesar de calitate - o astfel de pregătire poate avea loc în afara depozitului.

  • Depozitele de date vor fi înlocuite cu lacuri de date

În realitate, vânzătorii induc în eroare clienții poziționând lacurile de date ca înlocuitor pentru stocare sau ca un element critic. elemente importante infrastructura analitică. Tehnologiilor de bază ale lacurilor de date le lipsește maturitatea și amploarea funcționalității găsite în depozitele de date. Prin urmare, liderii responsabili cu gestionarea datelor ar trebui să aștepte până când lacurile ating același nivel de dezvoltare, potrivit Gartner.

Accenture: 92% dintre cei care au implementat sisteme de big data sunt mulțumiți de rezultat

Printre principalele avantaje ale datelor mari, respondenții au numit:

  • „căutare noi surse de venit” (56%),
  • „îmbunătățirea experienței clienților” (51%),
  • „produse și servicii noi” (50%) și
  • „un aflux de clienți noi și menținerea loialității celor vechi” (47%).

La introducerea noilor tehnologii, multe companii s-au confruntat cu probleme tradiționale. Pentru 51%, piatra de poticnire a fost securitatea, pentru 47% - bugetul, pentru 41% - lipsa personalului necesar, iar pentru 35% - dificultăți de integrare cu sistem existent. Aproape toate companiile chestionate (aproximativ 91%) plănuiesc să rezolve în curând problema cu o lipsă de personal și să angajeze specialiști în big data.

Companiile sunt optimiste cu privire la viitorul tehnologiilor de date mari. 89% cred că vor schimba afacerile la fel de mult ca internetul. 79% dintre respondenți au remarcat că companiile care nu se ocupă de big data își vor pierde avantajul competitiv.

Cu toate acestea, respondenții nu au fost de acord cu privire la ceea ce anume ar trebui să fie considerat big data. 65% dintre respondenți cred că acestea sunt „fișiere de date mari”, 60% sunt siguri că aceasta este „analitică și analiză avansată”, iar 50% că este vorba de „instrumente de vizualizare a datelor”.

Madrid cheltuiește 14,7 milioane de euro pe managementul datelor mari

În iulie 2014, a devenit cunoscut faptul că Madrid va folosi tehnologiile de date mari pentru a gestiona infrastructura urbană. Costul proiectului este de 14,7 milioane de euro, iar soluțiile care vor fi implementate vor fi bazate pe tehnologii de analiză și gestionare a datelor mari. Cu ajutorul lor, administrația orașului va gestiona munca cu fiecare furnizor de servicii și va plăti corespunzător, în funcție de nivelul serviciilor.

Vorbim de antreprenori ai administrației care monitorizează starea străzilor, iluminat, irigații, spații verzi, curăță teritoriul și scot, precum și procesează gunoiul. Pe parcursul proiectului, au fost elaborați 300 de indicatori cheie de performanță ai serviciilor orașului pentru inspectorii special desemnați, în baza cărora se vor efectua zilnic 1,5 mii de verificări și măsurători diverse. În plus, orașul va începe să folosească o platformă tehnologică inovatoare numită Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

Experți: vârful modei pentru Big Data

Fără excepție, toți furnizorii de pe piața de management al datelor dezvoltă în prezent tehnologii pentru managementul Big Data. Această nouă tendință tehnologică este, de asemenea, discutată activ de comunitatea profesională, atât dezvoltatorii, cât și analiștii din industrie și potențialii consumatori ai unor astfel de soluții.

După cum a aflat Datashift, din ianuarie 2013, valul de discuții în jurul " Date mare„a depășit toate dimensiunile imaginabile. După ce a analizat numărul de mențiuni ale Big Data în rețelele sociale, Datashift a calculat că în 2012 acest termen a fost folosit de aproximativ 2 miliarde de ori în postări create de aproximativ 1 milion de autori diferiți din întreaga lume. Acest lucru este echivalent cu 260 de postări pe oră, cu un vârf de 3070 de mențiuni pe oră.

Gartner: În fiecare secundă CIO este gata să cheltuiască bani pe Big Data

După câțiva ani de experimente cu tehnologiile Big data și primele implementări în 2013, adaptarea unor astfel de soluții va crește semnificativ, prezice Gartner. Cercetătorii au chestionat liderii IT din întreaga lume și au descoperit că 42% dintre cei chestionați au investit deja în tehnologiile Big Data sau intenționează să facă astfel de investiții în următorul an (date din martie 2013).

Companiile sunt nevoite să cheltuiască bani pe tehnologii de procesare Date mare Pe măsură ce peisajul informațional se schimbă rapid, am nevoie de noi abordări ale procesării informațiilor. Multe companii și-au dat deja seama că datele mari sunt esențiale, iar lucrul cu ele vă permite să obțineți beneficii care nu sunt disponibile folosind surse tradiționale de informații și metode de procesare. În plus, exagerarea constantă a subiectului „big data” în mass-media alimentează interesul pentru tehnologiile relevante.

Frank Buytendijk, vicepreședintele Gartner, a îndemnat chiar companiile să reducă tonul, deoarece unii sunt îngrijorați că rămân în urmă concurenților în stăpânirea datelor mari.

„Nu este nevoie să vă faceți griji, posibilitățile de realizare a ideilor bazate pe tehnologiile de date mari sunt practic nelimitate”, a spus el.

Gartner prezice că până în 2015, 20% dintre companiile Global 1000 se vor concentra strategic pe „infrastructura informațională”.

În așteptarea noilor oportunități pe care le vor aduce tehnologiile de procesare a datelor mari, multe organizații organizează deja procesul de colectare și stocare diferite feluri informație.

Pentru organizațiile educaționale și guvernamentale, precum și pentru companiile din industrie, cel mai mare potențial de transformare a afacerii constă în combinarea datelor acumulate cu așa-numitele date întunecate (literalmente - „date întunecate”), acestea din urmă includ mesaje. E-mail, multimedia și alte conținuturi similare. Potrivit Gartner, cei care învață să se ocupe de o mare varietate de surse de informații vor câștiga cursa datelor.

Sondaj Cisco: Big Data va ajuta la creșterea bugetelor IT

Raportul Cisco Connected World Technology (primăvara 2013) realizat în 18 țări de firma de analiză independentă InsightExpress a chestionat 1.800 de studenți și un număr egal de tineri profesioniști cu vârsta cuprinsă între 18 și 30 de ani. Sondajul a fost realizat pentru a afla nivelul de pregătire al departamentelor IT pentru implementarea proiectelor Date mareși obțineți o înțelegere a provocărilor asociate, a defectelor tehnologice și a valorii strategice a unor astfel de proiecte.

Majoritatea companiilor colectează, înregistrează și analizează date. Cu toate acestea, conform raportului, multe companii se confruntă cu o serie de provocări complexe de afaceri și tehnologia informației în legătură cu Big Data. De exemplu, 60% dintre cei chestionați recunosc că soluțiile Big Data pot îmbunătăți procesele de luare a deciziilor și pot crește competitivitatea, dar doar 28% au spus că obțin deja beneficii strategice reale din informațiile acumulate.

Mai mult de jumătate dintre directorii informatici chestionați cred că proiectele Big Data vor contribui la creșterea bugetelor IT în organizațiile lor, deoarece vor exista cerințe crescute privind tehnologie, personal și competențe profesionale. În același timp, mai mult de jumătate dintre respondenți se așteaptă ca astfel de proiecte să crească bugetele IT în companiile lor deja în 2012. 57% sunt încrezători că Big Data își va crește bugetele în următorii trei ani.

81% dintre respondenți au spus că toate (sau cel puțin unele) proiectele Big Data vor necesita utilizarea cloud computing. Astfel, răspândirea tehnologiilor cloud poate afecta viteza de distribuție a soluțiilor Big Data și valoarea acestor soluții pentru afaceri.

Companiile colectează și utilizează date de diferite tipuri, atât structurate, cât și nestructurate. Iată sursele din care participanții la sondaj primesc date (Cisco Connected World Technology Report):

Aproape jumătate (48 la sută) dintre directorii CIO prevăd că sarcina rețelelor lor se va dubla în următorii doi ani. (Acest lucru este valabil mai ales în China, unde 68 la sută dintre cei chestionați susțin acest punct de vedere, iar în Germania, 60 la sută.) 23% dintre respondenți se așteaptă ca traficul de rețea să se tripleze în următorii doi ani. În același timp, doar 40 la sută dintre respondenți și-au declarat că sunt pregătiți pentru o creștere explozivă a traficului de rețea.

27% dintre cei chestionați au recunoscut că au nevoie de politici IT mai bune și măsuri de securitate a informațiilor.

21% au nevoie de mai multă lățime de bandă.

Big Data deschide noi oportunități pentru departamentele IT de a adăuga valoare și de a forma relații strânse cu unitățile de afaceri pentru a crește veniturile și a consolida poziția financiară a companiei. Proiectele Big Data fac din departamentele IT un partener strategic al departamentelor de afaceri.

Potrivit a 73% dintre respondenți, departamentul IT va deveni principalul motor pentru implementarea strategiei Big Data. În același timp, respondenții consideră că în implementarea acestei strategii vor fi implicate și alte departamente. În primul rând, aceasta se referă la departamentele de finanțe (numite de 24 la sută dintre respondenți), cercetare și dezvoltare (20 la sută), operațiuni (20 la sută), inginerie (19 la sută), precum și marketing (15 la sută) și vânzări ( 14 la sută).

Gartner: Sunt necesare milioane de noi locuri de muncă pentru gestionarea datelor mari

Cheltuielile globale pentru IT vor ajunge la 3,7 miliarde USD până în 2013, în creștere cu 3,8% față de cheltuielile IT în 2012 (prognoza de sfârșit de an este de 3,6 miliarde USD). Segment Date mare(datele mari) vor evolua într-un ritm mult mai rapid, potrivit unui raport Gartner.

Până în 2015, vor fi create 4,4 milioane de locuri de muncă IT pentru a servi big data, dintre care 1,9 milioane vor fi în . În plus, fiecare astfel de job va genera trei locuri de muncă suplimentare non-IT, astfel încât numai în Statele Unite, 6 milioane de oameni vor lucra pentru a susține economia informațională în următorii patru ani.

Potrivit experților Gartner, principala problemă este că nu există suficient talent în industrie pentru aceasta: atât sistemele de învățământ private, cât și cele publice, de exemplu, în Statele Unite, nu sunt capabile să furnizeze industriei un număr suficient de personal calificat. . Deci dintre noile locuri de muncă menționate în IT, doar unul din trei va fi asigurat cu personal.

Analiștii consideră că rolul de a cultiva personal IT calificat ar trebui să fie preluat direct de companiile care au mare nevoie de ele, deoarece astfel de angajați vor deveni o trecere pentru ei în noua economie informațională a viitorului.

2012

Primul scepticism cu privire la Big Data

Analiștii de la Ovum și Gartner sugerează că pentru un subiect la modă în 2012 Date mare poate fi timpul să renunți la iluzii.

Termenul „Big Data”, în acest moment, de regulă, se referă la cantitatea din ce în ce mai mare de informații care intră în modul de operare din rețelele sociale, rețelele de senzori și alte surse, precum și o gamă tot mai mare de instrumente utilizate pentru a procesa date și a descoperi tendințe importante de afaceri din acestea.

„Din cauza (sau în ciuda) hype-ului din jurul ideii de big data, producătorii în 2012 au privit această tendință cu mare speranță”, a spus Tony Bayer, analist la Ovum.

Bayer a spus că DataSift a efectuat o analiză retrospectivă a referințelor de date mari în

Conform cercetărilor și tendințelor

Big Data, „Big Data” a devenit de câțiva ani vorbirea orașului în presa IT și de marketing. Și este clar: tehnologiile digitale au pătruns în viață omul modern, „totul este scris”. Volumul de date despre diverse aspecte ale vieții este în creștere și, în același timp, crește posibilitățile de stocare a informațiilor.

Tehnologii globale pentru stocarea informațiilor

Sursa: Hilbert și Lopez, „Capacitatea tehnologică a lumii de a stoca, comunica și calcula informații”, Science, 2011 Global.

Majoritatea experților sunt de acord că accelerarea creșterii datelor este o realitate obiectivă. Rețelele sociale, dispozitivele mobile, datele de la aparatele de măsurare, informațiile de afaceri sunt doar câteva tipuri de surse care pot genera cantități uriașe de informații. Conform cercetărilor IDCUnivers digital, publicat în 2012, în următorii 8 ani cantitatea de date din lume va ajunge la 40 Zb (zettabytes), ceea ce echivalează cu 5200 GB pe locuitor al planetei.

Creșterea informațiilor digitale colectate în SUA


Sursa: IDC

O parte semnificativă a informației este creată nu de oameni, ci de roboți care interacționează atât între ei, cât și cu alte rețele de date, cum ar fi, de exemplu, senzori și dispozitive inteligente. La acest ritm de creștere, cantitatea de date din lume, potrivit cercetătorilor, se va dubla în fiecare an. Numărul de servere virtuale și fizice din lume va crește de zece ori datorită extinderii și creării de noi centre de date. Ca urmare, există o nevoie tot mai mare de utilizare eficientăși monetizarea acestor date. Deoarece utilizarea Big Data în afaceri necesită investiții considerabile, este necesar să înțelegem clar situația. Și este, în esență, simplu: poți crește eficiența afacerii prin reducerea costurilor și/sau creșterea vânzărilor.

Pentru ce sunt Big Data?

Paradigma Big Data definește trei tipuri principale de sarcini.

  • Stocarea și gestionarea sutelor de terabytes sau petabytes de date pe care bazele de date relaționale convenționale nu le pot folosi eficient.
  • Organizarea informațiilor nestructurate constând în texte, imagini, videoclipuri și alte tipuri de date.
  • Analiza Big Data, care ridică întrebarea cum să lucrăm cu informații nestructurate, generarea de rapoarte analitice și implementarea modelelor predictive.

Piața proiectelor Big Data se intersectează cu piața de business intelligence (BA), al cărei volum în lume, conform experților, s-a ridicat în 2012 la circa 100 de miliarde de dolari. Include componente ale tehnologiei de rețea, servere, software și servicii tehnice.

De asemenea, utilizarea tehnologiilor Big Data este relevantă pentru soluțiile de clasă de asigurare a veniturilor (RA) menite să automatizeze activitățile companiilor. Sistemele moderne de garantare a veniturilor includ instrumente de detectare a inconsecvențelor și analiză aprofundată a datelor care permit detectarea în timp util a posibilelor pierderi sau distorsiuni ale informațiilor care pot duce la rezultate financiare mai scăzute. Pe acest fond, companiile rusești, confirmând cererea de tehnologii Big Data pe piața internă, observă că factorii care stimulează dezvoltarea Big Data în Rusia sunt creșterea datelor, accelerarea procesului decizional managerial și îmbunătățirea lor. calitate.

Ce împiedică lucrul cu Big Data

Astăzi, doar 0,5% din datele digitale acumulate sunt analizate, în ciuda faptului că în mod obiectiv există sarcini la nivel de industrie care ar putea fi rezolvate cu ajutorul solutii analitice Clasa de date mari. Piețele IT dezvoltate au deja rezultate care pot fi folosite pentru a evalua așteptările asociate cu acumularea și prelucrarea datelor mari.

Unul dintre principalii factori care încetinește implementarea proiectelor Big Data, pe lângă costul ridicat, este problema alegerii datelor de prelucrat: adică definirea a ce date trebuie extrase, stocate și analizate și care nu trebuie luate în considerare.

Mulți reprezentanți ai afacerilor notează că dificultățile în implementarea proiectelor Big Data sunt asociate cu o lipsă de specialiști - marketeri și analiști. Rata de rentabilitate a investiției în Big Data depinde direct de calitatea muncii angajaților implicați în analize profunde și predictive. Potențialul uriaș al datelor care există deja într-o organizație de multe ori nu poate fi utilizat în mod eficient de către agenții de marketing înșiși din cauza proceselor de afaceri învechite sau a reglementărilor interne. Prin urmare, proiectele Big Data sunt adesea percepute de companii ca fiind dificile nu numai în implementare, ci și în evaluarea rezultatelor: valoarea datelor colectate. Specificul lucrului cu date impune specialiștilor de marketing și analiștilor să-și schimbe atenția de la tehnologie și raportare la rezolvarea unor probleme specifice de afaceri.

Datorită volumului mare și de mare viteză fluxul de date, procesul de colectare a acestora implică proceduri ETL în timp real. Pentru trimitere:ETL - de laEnglezăExtrage, Transforma, sarcină- literal "extracție, transformare, încărcare") - unul dintre procesele principale în management depozite de date, care include: extragerea datelor din surse externe, transformarea acestora și curatenie pentru a satisface nevoile ETL ar trebui privit nu numai ca un proces de transfer de date de la o aplicație la alta, ci și ca un instrument de pregătire a datelor pentru analiză.

Și atunci problemele de asigurare a securității datelor care provin din surse externe ar trebui să aibă soluții care să corespundă volumului de informații cules. Întrucât metodele de analiză Big Data se dezvoltă până acum doar după creșterea volumului de date, capacitatea platformelor analitice de a utiliza noi metode de pregătire și agregare a datelor joacă un rol important. Aceasta înseamnă că, de exemplu, datele privind potenţiali cumpărători sau un depozit de date masiv cu un istoric de clicuri pe site-urile magazinelor online poate fi interesant pentru rezolvarea diverselor probleme.

Dificultățile nu se opresc

În ciuda tuturor dificultăților cu implementarea Big Data, afacerea intenționează să crească investițiile în acest domeniu. Potrivit datelor Gartner, în 2013, 64% dintre cele mai mari companii din lume au investit deja sau au planuri să investească în implementarea tehnologiilor Big Data pentru afacerile lor, în timp ce în 2012 existau 58% dintre astfel de companii. Potrivit unui studiu Gartner, liderii industriilor care investesc în Big Data sunt companiile media, telecomunicațiile, sectorul bancar și companiile de servicii. Rezultate de succes ale implementării Big Data au fost deja obținute de mulți jucători importanți din industria de retail în ceea ce privește utilizarea datelor obținute cu ajutorul instrumentelor RFID, a sistemelor de logistică și de relocare (din engleză. reaprovizionare- acumulare, completare - R&T), precum și din programe de fidelitate. Experiența de succes în retail stimulează alte sectoare de piață să găsească noi modalități eficiente de a monetiza datele mari pentru a le transforma analiza într-o resursă care funcționează pentru dezvoltarea afacerii. Datorită acestui fapt, potrivit experților, în perioada de până în 2020, investițiile în management și stocare vor scădea pentru fiecare gigabyte de date de la 2 USD la 0,2 USD, dar pentru studiul și analiza proprietăților tehnologice ale Big Data vor crește cu doar 40 USD. %.

Costurile prezentate în diverse proiecte de investiții în domeniul Big Data sunt de altă natură. Elementele de cost depind de tipurile de produse care sunt selectate pe baza anumitor decizii. Cea mai mare parte a costurilor în proiectele de investiții, potrivit experților, revine produselor legate de colectarea, structurarea datelor, curățarea și managementul informațiilor.

Cum se face

Există multe combinații de software și hardware, care vă permit să creați soluții eficiente de Big Data pentru diverse discipline de afaceri: de la social media și aplicații mobile până la analiza intelectuală și vizualizarea datelor comerciale. Un avantaj important al Big Data este compatibilitatea noilor instrumente cu bazele de date utilizate pe scară largă în afaceri, ceea ce este deosebit de important atunci când lucrați cu proiecte interdisciplinare, cum ar fi organizarea de vânzări pe mai multe canale și asistența clienților.

Secvența de lucru cu Big Data constă în colectarea datelor, structurarea informațiilor primite folosind rapoarte și tablouri de bord (tablouri de bord), crearea de perspective și contexte și formularea de recomandări de acțiune. Întrucât lucrul cu Big Data implică costuri mari pentru colectarea datelor, al căror rezultat al prelucrării nu este cunoscut în prealabil, sarcina principală este de a înțelege clar pentru ce sunt datele și nu cât de mult sunt disponibile. În acest caz, colectarea datelor se transformă într-un proces de obținere a informațiilor extrem de necesar pentru rezolvarea unor probleme specifice.

De exemplu, furnizorii de telecomunicații agregează o cantitate imensă de date, inclusiv geolocalizarea, care este actualizată în mod constant. Aceste informații pot fi de interes comercial pentru agențiile de publicitate, care le pot folosi pentru a difuza publicitate direcționată și localizată, precum și pentru comercianții cu amănuntul și băncile. Astfel de date pot juca un rol important în a decide dacă să deschidă un punct de vânzare cu amănuntul într-o anumită locație, pe baza datelor despre prezența unui flux puternic de persoane vizate. Există un exemplu de măsurare a eficienței reclamei pe panouri publicitare în aer liber în Londra. Acum, acoperirea unei astfel de reclame poate fi măsurată doar prin plasarea oamenilor în apropierea structurilor publicitare cu un dispozitiv special care numără trecătorii. În comparație cu acest tip de măsurare a eficienței publicității, operator mobil mult mai multe oportunități - el cunoaște exact locația abonaților săi, le cunoaște caracteristicile demografice, sexul, vârsta, starea civilă, etc.

Pe baza unor astfel de date, pe viitor, se deschide perspectiva de a schimba conținutul mesajului publicitar, folosind preferințele unei anumite persoane care trece pe lângă panoul publicitar. Dacă datele arată că persoana care trece pe aici călătorește mult, atunci i se poate afișa un anunț pentru stațiune. Organizatorii meci de fotbal poate estima numărul de suporteri doar atunci când vin la meci. Dar dacă au avut ocazia să întrebe operatorul comunicare celulară informații despre locul în care se aflau vizitatorii cu o oră, o zi sau o lună înainte de meci, acest lucru ar oferi organizatorilor posibilitatea de a planifica locuri pentru a face publicitate pentru următoarele meciuri.

Un alt exemplu este modul în care băncile pot folosi Big Data pentru a preveni frauda. În cazul în care clientul raportează pierderea cardului, iar la efectuarea unei achiziții folosindu-l, banca vede în timp real locația telefonului clientului în zona de cumpărare în care are loc tranzacția, banca poate verifica informațiile din aplicația clientului. , fie că a încercat să-l înșele. Sau invers, atunci când un client face o achiziție într-un magazin, banca vede că cardul pe care are loc tranzacția și telefonul clientului sunt în același loc, banca poate concluziona că proprietarul acesteia folosește cardul. Datorită acestor avantaje ale Big Data, granițele cu care sunt înzestrate depozitele tradiționale de date se extind.

Pentru o decizie de succes de implementare a soluțiilor Big Data, o companie trebuie să calculeze un caz de investiție, iar acest lucru provoacă mari dificultăți din cauza multor componente necunoscute. Paradoxul analizei în astfel de cazuri este acela de a prezice viitorul pe baza trecutului, informații despre care adesea lipsesc. În acest caz, un factor important este planificarea clară a acțiunilor tale inițiale:

  • În primul rând, este necesar să se determine o problemă specifică de business, pentru care vor fi utilizate tehnologiile Big Data, această sarcină va deveni nucleul determinării corectitudinii conceptului ales. Trebuie să vă concentrați pe colectarea de date legate de această sarcină specială, iar în timpul dovezării conceptului veți putea utiliza diverse instrumente, procese și practici de management care vă vor permite să luați decizii mai bune în viitor.
  • În al doilea rând, este puțin probabil ca o companie fără abilitățile și experiența de analiză a datelor să poată implementa cu succes un proiect Big Data. Cunoștințe necesare provin întotdeauna din experiența anterioară în analiză, care este un factor major care influențează calitatea muncii cu date. Un rol important îl joacă cultura utilizării datelor, deoarece de multe ori analiza informațiilor dezvăluie adevărul dur despre afacere, iar pentru a accepta acest adevăr și a lucra cu el, sunt necesare metode dezvoltate de lucru cu date.
  • În al treilea rând, valoarea tehnologiilor Big Data constă în furnizarea de perspective.Analiștii buni rămân insuficienti pe piață. Aceștia sunt numiți specialiști care au o înțelegere profundă a semnificației comerciale a datelor și știu să le aplice corect. Analiza datelor este un mijloc de a atinge obiectivele de afaceri, iar pentru a înțelege valoarea Big Data, aveți nevoie de un model de comportament adecvat și de o înțelegere a acțiunilor dvs. În acest caz, big data va oferi o mulțime de informații utile despre consumatori, pe baza cărora puteți lua decizii utile de afaceri.

În ciuda faptului că piața rusă de Big Data abia începe să prindă contur, unele proiecte în acest domeniu sunt deja implementate cu destul de mult succes. Unele dintre ele au succes în domeniul colectării datelor, precum proiectele pentru Serviciul Federal de Taxe și Sistemele de Credit Tinkoff, altele în ceea ce privește analiza datelor și aplicarea practică a rezultatelor sale: acesta este proiectul Synqera.

Tinkoff Credit Systems Bank a implementat un proiect de implementare a platformei EMC2 Greenplum, care este un instrument de calcul masiv paralel. Pe parcursul anii recenti Cerințele băncii privind viteza de procesare a informațiilor acumulate și analiza datelor în timp real au crescut datorită ratelor mari de creștere a numărului de utilizatori de carduri de credit. Banca a anunțat planuri de extindere a utilizării tehnologiilor Big Data, în special pentru prelucrarea datelor nestructurate și lucrul cu informații corporative obținute din diverse surse.

în Serviciul Fiscal Federal al Rusiei acest moment se creează un strat analitic al depozitului federal de date. Pe baza ei, un unit spațiu informaționalși tehnologia de acces la date fiscale pentru statistici și prelucrare analitică. Pe parcursul implementării proiectului, se lucrează la centralizarea informațiilor analitice cu peste 1200 de surse la nivel local ale Serviciului Fiscal Federal.

O alta exemplu interesant analiza big data în timp real este startup-ul rus Synqera, care a dezvoltat platforma Simplate. Soluția se bazează pe procesarea unor matrice mari de date, programul analizează informații despre clienți, istoricul achizițiilor acestora, vârsta, sexul și chiar starea de spirit. La casele de marcat din rețeaua magazinelor de cosmetice au fost instalate ecrane tactile cu senzori care recunosc emoțiile clienților. Programul determină starea de spirit a unei persoane, analizează informații despre ea, determină ora din zi și scanează baza de date cu reduceri a magazinului, după care trimite cumpărătorului mesaje direcționate despre promoții și oferte speciale. Această soluție îmbunătățește loialitatea clienților și crește vânzările retailerului.

Dacă vorbim de cazuri străine de succes, atunci în acest sens este interesantă experiența utilizării tehnologiilor Big Data la Dunkin` Donuts, care utilizează date în timp real pentru a vinde produse. Afișajele digitale din magazine afișează oferte care se modifică în fiecare minut, în funcție de ora din zi și de disponibilitatea produsului. Conform încasărilor de numerar, compania primește date despre ofertele care au primit cel mai mare răspuns de la cumpărători. Această abordare de prelucrare a datelor a permis creșterea profiturilor și a cifrei de afaceri a mărfurilor din depozit.

După cum arată experiența implementării proiectelor Big Data, această zonă este concepută pentru a rezolva cu succes problemele de afaceri moderne. În același timp, un factor important în atingerea obiectivelor comerciale atunci când lucrați cu date mari este alegerea strategia corectă, care include analize care identifică interogările consumatorilor, precum și utilizarea tehnologii inovatoareîn domeniul Big Data.

Potrivit unui sondaj global realizat anual de Econsultancy și Adobe din 2012 în rândul marketerilor companiilor, „big data”, care caracterizează acțiunile oamenilor pe internet, pot face multe. Ei sunt capabili să optimizeze procesele de afaceri offline, ajută la înțelegerea modului în care proprietarii dispozitive mobile folosiți-le pentru a căuta informații sau pur și simplu pentru a „face marketingul mai bun”, adică mai eficient. Mai mult, ultima funcție devine din ce în ce mai populară de la an la an, după cum reiese din diagrama noastră.

Principalele domenii de activitate ale agenților de marketing pe internet în ceea ce privește relațiile cu clienții


Sursă: Econsultancy și Adobe, publicateemarketer.com

Rețineți că naționalitatea respondenților nu contează prea mult. Potrivit unui sondaj realizat de KPMG în 2013, proporția „optimiștilor”, i.e. dintre cei care folosesc Big Data atunci când elaborează o strategie de afaceri este de 56%, iar fluctuațiile de la o regiune la alta sunt mici: de la 63% în țările nord-americane la 50% în EMEA.

Utilizarea Big Data în diferite regiuni ale lumii


Sursă: KPMG, publicatemarketer.com

Între timp, atitudinea agenților de marketing față de astfel de „tendințe de modă” amintește oarecum de o anecdotă binecunoscută:

Spune-mi, Vano, îți plac roșiile?
- Îmi place să mănânc, dar nu.

În ciuda faptului că marketerii spun că „adoră” Big Data și chiar par să le folosească, de fapt, „totul este complicat”, în timp ce scriu despre atașamentele lor sincere în rețelele sociale.

Potrivit unui sondaj realizat de Circle Research în ianuarie 2014 în rândul marketerilor europeni, 4 din 5 respondenți nu folosesc Big Data (în ciuda faptului că, desigur, le „adoră”). Motivele sunt diferite. Sunt puțini sceptici inveterati - 17% și exact același număr ca și antipozii lor, adică. cei care răspund cu încredere „Da”. Restul ezită și se îndoiește, „mlaștina”. Ei se sustrage de la un răspuns direct sub scuze plauzibile precum „nu încă, dar în curând” sau „așteptăm să înceapă ceilalți”.

Utilizarea Big Data de către marketeri, Europa, ianuarie 2014


Sursă:dnx, publicat -emarketer.com

Ce îi încurcă? Pură prostii. Unii (exact jumătate dintre ei) pur și simplu nu cred aceste date. Alții (sunt și destul de mulți dintre ei - 55%) le este dificil să coreleze între ei seturile de „date” și „utilizatori”. Cineva doar (să spunem corect din punct de vedere politic) are o mizerie internă corporativă: datele merg fără proprietar între departamentele de marketing și structurile IT. Pentru alții, software-ul nu poate face față afluxului de muncă. Si asa mai departe. Întrucât cotele totale sunt mult peste 100%, este clar că situația „barierelor multiple” nu este neobișnuită.

Bariere care împiedică utilizarea Big Data în marketing


Sursă:dnx, publicat -emarketer.com

Astfel, trebuie să afirmăm că până acum „Big Data” reprezintă un mare potențial care mai trebuie folosit. Apropo, acesta poate fi și motivul pentru care Big Data își pierde aureola de „tendință de modă”, așa cum reiese din datele sondajului realizat de compania Econsultancy pe care am menționat-o deja.

Cele mai semnificative tendințe în marketing digital 2013-2014


Sursă: Consultanță și Adobe

Ele sunt înlocuite de un alt rege - marketingul de conținut. Cât timp?

Nu se poate spune că Big Data este un fenomen fundamental nou. Sursele de date mari există de ani de zile: baze de date cu achizițiile clienților, istoricul creditului, stilul de viață. Și de ani de zile, oamenii de știință au folosit aceste date pentru a ajuta companiile să evalueze riscurile și să prezică nevoile viitoare ale clienților. Cu toate acestea, astăzi situația s-a schimbat în două aspecte:

Au apărut instrumente și metode mai sofisticate pentru a analiza și combina diferite seturi de date;

Aceste instrumente analitice sunt completate de o avalanșă de noi surse de date conduse de digitalizarea practic a oricărei metode de colectare și măsurare a datelor.

Gama de informații disponibile este atât inspiratoare, cât și intimidantă pentru cercetătorii care au crescut într-un mediu de cercetare structurat. Sentimentul consumatorilor este captat de site-uri web și de tot felul de rețele sociale. Faptul de a vizualiza reclame este inregistrat nu doar prin set-top box-uri, ci si cu ajutorul etichetelor digitale si a dispozitivelor mobile care comunica cu televizorul.

Datele comportamentale (cum ar fi numărul de apeluri, obiceiurile de cumpărături și achizițiile) sunt acum disponibile în timp real. Astfel, o mare parte din ceea ce putea fi învățat anterior prin cercetare poate fi acum învățat prin surse de date mari. Și toate aceste active informaționale sunt generate în mod constant, indiferent de orice proces de cercetare. Aceste schimbări ne fac să ne întrebăm dacă big data poate înlocui cercetarea clasică de piață.

Nu este vorba despre date, ci despre întrebări și răspunsuri

Înainte de a ordona un glas pentru cercetarea clasică, trebuie să ne reamintim că nu este prezența unui activ de date sau altul, ci altceva este decisiv. Ce anume? Capacitatea noastră de a răspunde la întrebări, asta este. Un lucru amuzant despre noua lume a datelor mari este că rezultatele din noile active de date conduc la și mai multe întrebări, iar aceste întrebări tind să primească cel mai bine răspunsul cercetării tradiționale. Astfel, pe măsură ce big data crește, observăm o creștere paralelă a disponibilității și cererii de „date mici” care pot oferi răspunsuri la întrebările din lumea datelor mari.

Să luăm în considerare o situație: un advertiser mare monitorizează în mod constant traficul din magazine și volumele de vânzări în timp real. Metodologiile de cercetare existente (în care întrebăm participanții la panourile de cercetare despre motivațiile și comportamentul lor de cumpărare la punctul de vânzare) ne ajută să țintim mai bine anumite segmente de clienți. Aceste metodologii pot fi extinse pentru a include o gamă mai largă de active de date mari, până la punctul în care datele mari devin un instrument de observare pasivă și cercetează o metodă de investigare continuă, concentrată în mod restrâns, a schimbărilor sau evenimentelor care trebuie studiate. Acesta este modul în care big data poate elibera cercetarea de rutina inutilă. Cercetarea primară nu ar trebui să se mai concentreze asupra a ceea ce se întâmplă (datele mari o vor face). În schimb, cercetarea primară se poate concentra pe explicarea de ce vedem anumite tendințe sau abateri de la tendințe. Cercetătorul se va putea gândi mai puțin la obținerea de date și mai mult despre cum să le analizeze și să le folosească.

În același timp, vedem că big data rezolvă una dintre cele mai mari probleme ale noastre, problema studiilor prea lungi. Examinarea studiilor în sine a arătat că instrumentele de cercetare excesiv de umflate au un impact negativ asupra calității datelor. Deși mulți experți au recunoscut această problemă de mult timp, ei au răspuns invariabil cu fraza: „Dar am nevoie de aceste informații pentru conducerea superioară”, iar interviurile lungi au continuat.

În lumea datelor mari, unde indicatorii cantitativi pot fi obținuți prin observare pasivă, această problemă devine discutabilă. Din nou, să ne gândim înapoi la toate aceste cercetări de consum. Dacă big data ne oferă perspective despre consum prin observație pasivă, atunci cercetarea primară sub formă de anchete nu mai trebuie să colecteze acest tip de informații și, în sfârșit, putem susține viziunea noastră despre anchete scurte nu numai cu urări de bine, ci și cu ceva real.

Big Data are nevoie de ajutorul tău

În cele din urmă, „mare” este doar una dintre caracteristicile datelor mari. Caracteristica „mare” se referă la dimensiunea și scara datelor. Desigur, aceasta este caracteristica principală, deoarece volumul acestor date depășește domeniul de aplicare a tot ceea ce am lucrat înainte. Dar și alte caracteristici ale acestor noi fluxuri de date sunt, de asemenea, importante: sunt adesea prost formatate, nestructurate (sau, în cel mai bun caz, parțial structurate) și pline de incertitudine. Domeniul în curs de dezvoltare al managementului datelor, denumit în mod adecvat „analitica entității”, își propune să rezolve problema depășirii zgomotului în big data. Sarcina sa este de a analiza aceste seturi de date și de a afla câte observații sunt pentru aceeași persoană, care observații sunt actuale și care dintre ele sunt utilizabile.

Acest tip de curățare a datelor este necesar pentru a elimina zgomotul sau datele eronate atunci când lucrați cu active de date mari sau mici, dar nu este suficient. De asemenea, trebuie să creăm context în jurul activelor de date mari pe baza experienței noastre anterioare, a analizelor și a cunoștințelor despre categorii. De fapt, mulți analiști indică capacitatea de a gestiona incertitudinea inerentă big data ca o sursă de avantaj competitiv, deoarece permite o mai bună luare a deciziilor.

Și aici este locul în care cercetarea primară nu este doar eliberată de rutină datorită datelor mari, dar contribuie și la crearea de conținut și analiza în cadrul datelor mari.

Un prim exemplu în acest sens este aplicarea noului nostru cadru de capital de marcă pe rețelele sociale. (vorbim despre cel dezvoltat înMillward Maroo nouă abordare pentru măsurarea valorii mărciiThe Semnificativ Diferit Cadru- „Paradigma diferențelor semnificative” -R & T ). Acest model este testat în funcție de comportament pe anumite piețe, implementat pe o bază standard și poate fi aplicat cu ușurință în alte direcții de marketing și sisteme de informare pentru sprijin decizional. Cu alte cuvinte, modelul nostru de capital de marcă, bazat pe (deși nu exclusiv) cercetări prin sondaj, are toate proprietățile necesare pentru a depăși natura nestructurată, incoerentă și incertă a datelor mari.

Luați în considerare datele despre sentimentele consumatorilor furnizate de rețelele sociale. În forma sa brută, vârfurile și văile în sentimentul consumatorilor sunt foarte adesea corelate minim cu măsurile offline ale echității și comportamentului mărcii: pur și simplu există prea mult zgomot în date. Dar putem reduce acest zgomot prin aplicarea modelelor noastre de semnificație a consumatorilor, diferențierea mărcii, dinamica și identitatea datelor brute despre sentimentele consumatorilor, care este o modalitate de procesare și agregare a datelor din rețelele sociale de-a lungul acestor dimensiuni.

Odată ce datele sunt organizate conform modelului nostru cadru, tendințele identificate se potrivesc de obicei cu echitatea mărcii și cu măsurătorile de comportament obținute offline. De fapt, datele din rețelele sociale nu pot vorbi de la sine. Pentru a le folosi în acest scop este nevoie de experiența noastră și de modele construite în jurul mărcilor. Când rețelele sociale ne oferă informații unice exprimat în limbajul folosit de consumatori pentru a descrie mărcile, ar trebui să folosim acel limbaj atunci când creăm cercetarea noastră pentru a face cercetarea primară mult mai eficientă.

Beneficiile studiilor scutite

Acest lucru ne readuce la faptul că big data nu înlocuiește atât cercetarea, cât o eliberează. Cercetătorii vor fi scutiți de a fi nevoiți să creeze un nou studiu pentru fiecare caz nou. Activele în continuă creștere ale datelor mari pot fi utilizate pentru diferite subiecte de cercetare, permițând cercetării primare ulterioare să aprofundeze subiectul și să umple golurile. Cercetătorii vor fi eliberați de a fi nevoiți să se bazeze pe sondaje excesiv de umflate. În schimb, vor putea folosi sondaje scurte și se vor concentra pe cei mai importanți parametri, ceea ce îmbunătățește calitatea datelor.

Cu această versiune, cercetătorii vor putea să-și folosească principiile și cunoștințele stabilite pentru a adăuga precizie și semnificație activelor de date mari, ceea ce duce la noi domenii pentru cercetarea prin sondaj. Acest ciclu ar trebui să conducă la o mai bună înțelegere a unei game de probleme strategice și, în cele din urmă, la o trecere către ceea ce ar trebui să fie întotdeauna al nostru. scopul principal- informarea și îmbunătățirea calității deciziilor de brand și comunicare.

Date mare- nu sunt doar datele în sine, ci și tehnologiile de prelucrare și utilizare a acestora, metode de găsire a informațiilor necesare în matrice mari. Problema datelor mari este încă deschisă și vitală pentru orice sisteme care acumulează o mare varietate de informații de zeci de ani.

Acest termen este asociat cu expresia „Volum, viteză, varietate”– principiile pe care se construiește lucrul cu big data. Este direct cantitatea de informații, viteza sa de procesareși varietate de informații stocate într-o matrice. Recent, la cele trei principii de bază a fost adăugat încă unul - valoare, care înseamnă valoarea informatiei. Adică trebuie să fie util și necesar din punct de vedere teoretic sau practic, ceea ce ar justifica costurile depozitării și procesării sale.

Rețelele sociale sunt un exemplu de sursă tipică de date mari - fiecare profil sau pagină publică este o mică picătură într-un ocean nestructurat de informații. Mai mult, indiferent de cantitatea de informații stocate într-un anumit profil, interacțiunea cu fiecare dintre utilizatori ar trebui să fie cât mai rapidă posibil.

Big Data se acumulează constant în aproape fiecare domeniu al vieții umane. Aceasta include orice industrie legată fie de interacțiunile umane, fie de calcul. Acestea sunt rețelele de socializare, medicină și sectorul bancar, precum și sisteme de dispozitive care primesc numeroase rezultate ale calculelor zilnice. De exemplu, observații astronomice, informații meteorologice și informații de la dispozitivele de sondare ale Pământului.

Informațiile din diferite sisteme de urmărire în timp real sunt trimise și către serverele unei anumite companii. Televiziune și radiodifuziune, baze de apeluri ale operatorilor de telefonie mobilă - interacțiunea fiecărui individ cu aceștia este minimă, dar, în ansamblu, toate aceste informații devin big data.

Tehnologiile de date mari au devenit parte integrantă a cercetării și dezvoltării și comerțului. Mai mult, acestea încep să capteze sfera administrației publice – și peste tot introducerea a tot mai multe sisteme eficiente stocarea și manipularea informațiilor.

Termenul „big data” a apărut pentru prima dată în presă în 2008, când editorul Nature Clifford Lynch a publicat un articol despre cum să avansăm viitorul științei cu ajutorul tehnologiilor de date mari. Până în 2009 acest termen a fost considerată doar din punct de vedere al analizei științifice, dar după lansarea a mai multor articole, presa a început să folosească pe scară largă conceptul de Big Data – și continuă să îl folosească și în prezent.

În 2010, au început să apară primele încercări de a rezolva problema tot mai mare a datelor mari. Au fost lansate produse software, a căror acțiune era menită să minimizeze riscurile atunci când se utilizează matrice uriașe de informații.

Până în 2011, big data a fost adoptată de companii mari, precum Microsoft, Oracle, EMC și IBM - au fost primii care au folosit Big Data în strategiile lor de dezvoltare și cu destul de mult succes.

Universitățile au început să studieze datele mari ca o materie separată deja în 2013 - acum nu numai știința datelor, ci și inginerie, împreună cu subiectele de calcul, se ocupă de problemele din acest domeniu.

Principalele metode de analiză și prelucrare a datelor includ următoarele:

  1. Metode de clasă sau analiză profundă (Data Mining).

Aceste metode sunt destul de numeroase, dar sunt unite de un singur lucru: instrumentele matematice folosite împreună cu realizările în domeniul tehnologiei informației.

  1. Crowdsourcing.

Această tehnică vă permite să obțineți date simultan din mai multe surse, iar numărul acestora din urmă este practic nelimitat.

  1. Testare A/B.

Din întreaga cantitate de date, se selectează un set de elemente de control, care este comparat la rândul său cu alte seturi similare, unde unul dintre elemente a fost modificat. Efectuarea unor astfel de teste ajută la determinarea fluctuațiilor parametrilor cea mai mare influență la populaţia de control. Datorită volumelor de Big Data, este posibil să se efectueze un număr mare de iterații, fiecare dintre ele apropiindu-se de cel mai fiabil rezultat.

  1. Analize predictive.

Specialistii in acest domeniu incearca sa prezica si sa planifice din timp modul in care obiectul controlat se va comporta pentru a lua cea mai avantajoasa decizie in aceasta situatie.

  1. Învățare automată (inteligență artificială).

Se bazează pe o analiză empirică a informațiilor și pe construcția ulterioară a algoritmilor de auto-învățare pentru sisteme.

  1. Analiza rețelei.

Cea mai comună metodă pentru studiul rețelelor sociale - după primirea datelor statistice, sunt analizate nodurile create în grilă, adică interacțiunile dintre utilizatorii individuali și comunitățile acestora.

În 2017, când big data nu mai este ceva nou și necunoscut, importanța sa nu numai că nu a scăzut, ci chiar a crescut. Acum experții pariază că analiza unor cantități mari de date va deveni disponibilă nu numai pentru organizațiile gigant, ci și pentru întreprinderile mici și mijlocii. Această abordare este planificată să fie implementată folosind următoarele componente:

  • Stocare in cloud.

Stocarea și procesarea datelor devin mai rapide și mai economice - în comparație cu costurile de întreținere a propriului centru de date și posibilă extindere Personalul de închiriere în cloud pare a fi o alternativă mult mai ieftină.

  • Utilizarea datelor întunecate.

Așa-numitele „date întunecate” sunt toate informațiile nedigitizate despre o companie care nu joacă un rol cheie în utilizarea directă a acesteia, dar pot servi drept motiv pentru trecerea la un nou format de stocare a informațiilor.

  • Inteligență artificială și învățare profundă.

Tehnologia de învățare a inteligenței automate, care imită structura și funcționarea creierului uman, este cea mai potrivită pentru procesarea unei cantități mari de informații în continuă schimbare. În acest caz, mașina va face tot ce ar trebui să facă o persoană, dar probabilitatea de eroare este mult redusă.

  • blockchain.

Această tehnologie vă permite să accelerați și să simplificați numeroase tranzacții pe Internet, inclusiv cele internaționale. Un alt avantaj al Blockchain este că reduce costurile de tranzacție.

  • Autoservire și reducere de preț.

În 2017, este planificată introducerea „platformelor de autoservire” – acestea sunt platforme gratuite în care reprezentanții întreprinderilor mici și mijlocii vor putea evalua în mod independent datele pe care le stochează și să le sistematizeze.

Toate strategiile de marketing se bazează cumva pe manipularea informațiilor și analiza datelor existente. De aceea, utilizarea datelor mari poate prezice și face posibilă corectarea dezvoltare ulterioară companiilor.

De exemplu, o licitație RTB creată pe baza datelor mari vă permite să utilizați publicitatea mai eficient - un anumit produs va fi afișat doar grupului de utilizatori care sunt interesați să-l achiziționeze.

Care este beneficiul utilizării tehnologiilor de date mari în marketing și afaceri?

  1. Cu ajutorul lor, puteți crea proiecte noi mult mai rapid, care probabil vor deveni populare în rândul cumpărătorilor.
  2. Acestea ajută la corelarea cerințelor clienților cu un serviciu existent sau proiectat și astfel le ajustați.
  3. Metodele Big Data fac posibilă evaluarea gradului de satisfacție actuală a tuturor utilizatorilor și fiecăruia în mod individual.
  4. Creșterea loialității clienților este asigurată prin metode de prelucrare a datelor mari.
  5. Atragerea publicului țintă pe Internet devine din ce în ce mai ușoară datorită capacității de a controla cantități uriașe de date.

De exemplu, unul dintre cele mai populare servicii pentru prezicerea popularității probabile a unui anumit produs este Google.trends. Este utilizat pe scară largă de marketeri și analiști, permițându-le să obțină statistici de utilizare acest produsîn trecut și prognoză pentru sezonul următor. Acest lucru permite directorilor companiei să distribuie mai eficient bugetul de publicitate, să determine în ce zonă este cel mai bine să investească bani.

Exemple de utilizare a datelor mari

Introducerea activă a tehnologiilor Big Data pe piață și în viața modernă a început imediat după ce acestea au început să fie folosite de companii de renume mondial care au clienți în aproape fiecare colț al globului.

Aceștia sunt giganți sociali precum Facebook și Google, IBM, precum și structuri financiare precum Master Card, VISA și Bank of America.

De exemplu, IBM aplică tehnici de date mari la tranzacțiile cu numerar. Cu ajutorul lor, au fost detectate cu 15% mai multe tranzacții frauduloase, ceea ce a crescut cu 60% valoarea fondurilor protejate. Probleme cu false pozitive sisteme - numărul lor a fost redus cu mai mult de jumătate.

VISA a folosit în mod similar Big Data, urmărind încercările frauduloase de a efectua o anumită tranzacție. Datorită acestui fapt, ei economisesc anual peste 2 miliarde de dolari SUA de la scurgeri.

Ministerul German al Muncii a reușit să reducă costurile cu 10 miliarde de euro prin implementarea unui sistem de date mari în activitatea de acordare a indemnizațiilor de șomaj. Totodată, s-a dezvăluit că o cincime dintre cetățeni primesc aceste prestații fără justificare.

Big Data nu a ocolit nici industria jocurilor de noroc. Astfel, dezvoltatorii World of Tanks au efectuat un studiu al informațiilor despre toți jucătorii și au comparat indicatorii disponibili ai activității lor. Acest lucru a ajutat la prezicerea posibilei schimbări viitoare a jucătorilor - pe baza ipotezelor făcute, reprezentanții organizației au putut interacționa mai eficient cu utilizatorii.

Organizațiile notabile care utilizează date mari includ și HSBC, Nasdaq, Coca-Cola, Starbucks și AT&T.

Cea mai mare problemă a datelor mari este costul procesării acestora. Aceasta poate include atât echipamente scumpe, cât și costul salariile specialiști calificați capabili să deservească cantități uriașe de informații. Evident, echipamentul va trebui actualizat regulat pentru a nu-și pierde performanța minimă pe măsură ce cantitatea de date crește.

A doua problemă este din nou legată de cantitatea mare de informații care trebuie procesată. Dacă, de exemplu, un studiu dă nu 2-3, ci un număr mare de rezultate, este foarte greu să rămâneți obiectiv și să selectați din fluxul general de date doar pe acelea care vor avea un impact real asupra stării unui fenomen.

Problemă de confidențialitate Big Data. Cu majoritatea serviciilor de servicii pentru clienți trecând la utilizarea datelor online, este foarte ușor să deveniți următoarea țintă pentru infractorii cibernetici. Chiar și simpla stocare a informațiilor personale fără a face tranzacții online poate fi plină de consecințe nedorite pentru clienții stocării în cloud.

Problema pierderii de informații. Măsurile de precauție necesită să nu se limiteze la o simplă copie de rezervă unică a datelor, ci să se facă cel puțin 2-3 copii de rezervă ale stocării. Cu toate acestea, pe măsură ce volumul crește, complexitatea redundanței crește - și specialiștii IT încearcă să găsească soluție optimă această problemă.

Piața tehnologiilor de date mari din Rusia și din lume

Începând cu 2014, 40% din piața de date mari este formată din servicii. Puțin inferior (38%) acest indicator venituri din utilizarea Big Data în echipamente informatice. Restul de 22% este în software.

Cele mai utile produse din segmentul global pentru rezolvarea problemelor Big Data, conform statisticilor, sunt platformele analitice In-memory și NoSQL. 15 și, respectiv, 12 la sută din piață sunt ocupate de software analitic Log-file și platforme Columnar. Dar Hadoop / MapReduce, în practică, face față problemelor de date mari nu este foarte eficient.

Rezultatele implementării tehnologiilor big data:

  • îmbunătățirea calității serviciului clienți;
  • optimizarea integrării în lanțul de aprovizionare;
  • optimizarea planificarii organizatiei;
  • accelerarea interactiunii cu clientii;
  • îmbunătățirea eficienței procesării cererilor clienților;
  • costuri reduse de servicii;
  • optimizarea procesarii cererilor clientilor.

Cele mai bune cărți Big Data



Potrivit pentru studiul inițial al tehnologiilor de procesare a datelor mari - vă aduce ușor și clar la curent. Evidențiază modul în care abundența de informații a afectat viata de zi cu ziși toate domeniile sale: știință, afaceri, medicină etc. Conține numeroase ilustrații, deci este percepută fără prea mult efort.

„Introducere în data mining” de Pang-Ning Tan, Michael Steinbach și Vipin Kumar

De asemenea, o carte utilă pentru începători despre Big Data, care explică cum să lucrezi cu Big Data într-un mod „de la simplu la complex”. Acesta acoperă multe puncte importante în etapa inițială: pregătirea pentru prelucrare, vizualizare, OLAP, precum și unele metode de analiză și clasificare a datelor.

Un ghid practic pentru utilizarea și lucrul cu big data folosind limbajul de programare Python. Potrivit atât studenților la inginerie, cât și profesioniștilor care doresc să-și aprofundeze cunoștințele.

„Hadoop for Dummies”, Dirk Derus, Paul S. Zikopoulos, Roman B. Melnik

Hadoop este un proiect conceput special pentru a lucra cu programe distribuite care organizează execuția acțiunilor pe mii de noduri în același timp. Cunoașterea acestuia va ajuta la înțelegerea mai detaliată a aplicării practice a datelor mari.

  • Serghei Savenkov

    un fel de recenzie „rare”... parcă s-ar grăbi undeva