Scurte caracteristici ale motoarelor de căutare Yandex și Google. Descrierea Yandex. Browser. De ce sunt necesare actualizări în Yandex?

Baza pentru funcționarea motoarelor de căutare, atât Google, cât și Yandex, este sistemul cluster. Toate informațiile sunt împărțite în zone specifice care aparțin unuia sau altuia. Indexarea site-urilor pentru a obține date despre informațiile postate pe acestea se realizează prin scanere robotizate. Exista următoarele tipuri roboți de scanare: scanerul robot principal și scanerul robot responsabil cu colectarea informațiilor despre resurse de la actualizări frecvente conţinut. Al doilea tip de robot de scanare este conceput pentru actualizare rapida o listă de resurse indexate și valorile indexurilor acestora în motorul de căutare. Pentru cel mai mult prevedere completă La colectarea informațiilor în sistemul Yandex, se aplică actualizările și actualizările bazei de date de căutare codul programului:

Baza căutarea informațiilor este actualizat de mai multe ori pe parcursul lunii, în timp ce interogările de căutare sunt returnate informatii actualizate de pe site-uri. Astfel de informații sunt adăugate utilizând scanerul principal al robotului.
La actualizarea codului programului sau a motorului, sunt identificate deficiențele și algoritmii responsabili pentru clasarea resurselor în motorul de căutare sunt modificați. De regulă, înainte de lansarea unor astfel de actualizări, Yandex publică anunțuri relevante.

Caracteristica principală a sistemului Yandex care îl face popular printre utilizatori vorbitori de limba rusă, este capacitatea de a identifica diverse forme de cuvinte ținând cont de caracteristicile morfologice ale limbii ruse. În acest caz, valorile interogării sunt convertite în formularea cea mai precisă folosind geotargeting și formule de căutare. În plus, Yandex diferă în algoritmul său de determinare a relevanței paginilor indexate (relevanța este raportul dintre conținutul unei pagini web și conținutul interogare de căutare). De asemenea la aspecte pozitive pot fi atribuite de mare viteză răspuns la solicitări și funcționare stabilă, fără suprasarcină a serverelor.

De mare importanță pentru motorul de căutare sunt legături dinamice, a cărui prezență poate duce la refuzul de a indexa resursa de către un robot de căutare.

În timpul procesului de indexare, Yandex recunoaște informațiile text din documentele cu extensii: .pdf, .rtf, .doc, .xls, .ppt. Ultimele două se referă la programele incluse în kit Microsoft Office: Excel și PowerPoint.

La indexarea unui site, motorul de căutare citește date din fișierul robots.txt, în timp ce atributul Permite și unele metaetichete sunt acceptate, în timp ce metaetichetele Revisit-After și Keywords sunt ignorate.

Din moment ce fragmentele sunt scurte descrieri documente text– sunt compuse din fraze pe pagina pe care o cauți, atunci utilizarea unei descrieri în etichetă nu este obligatorie, dar poate fi folosită în cazuri individuale.

Potrivit dezvoltatorilor, codificarea documentelor indexate este determinată automat, ceea ce înseamnă că metaeticheta de codificare nu contează prea mult.

Sistem de căutare mare importanță dă indicatorul ultima schimbare informații (Ultima modificare). Dacă serverul nu transmite aceste informații, atunci procesul de indexare a acestei resurse se va întâmpla mult mai rar.

Problema paginilor care utilizează structuri de cadre rămâne nerezolvată, dar poate fi ocolită folosind scripturi care trimit utilizatorii motoarelor de căutare la Locul potrivit site-ul.

Dacă site-ul are „oglinzi” (de exemplu, http://www.site.ru, http://site.ru, https://www.site.ru, https://www.site.ru), este necesar să se ia măsurile corespunzătoare pentru a le exclude din procesul de indexare. Dacă indexarea „oglinzilor” nu poate fi evitată, le puteți „lipi” împreună prin adăugare informatie necesaraîn robots.txt.

Dacă site-urile sunt incluse în Yandex.Catalogue, sistemul le va identifica ca fiind demne de o atenție specială, ceea ce poate afecta promovarea site-urilor. Acest lucru ajută, de asemenea, la simplificarea procedurii de determinare a subiectului site-ului, ceea ce înseamnă, la rândul său, că site-ul primește un link extern semnificativ.

Echipa motorului de căutare Yandex păstrează secrete adresele IP ale roboților săi. Dar în fișierele jurnal ale site-urilor individuale puteți găsi semne de text lăsate de roboții de căutare Yandex.

Unele dintre cele mai interesante roboti scanere ale motorului de căutare Yandex includ:

Yandex/1.01.001 (compatibil; Win16; I) – principalul robot direct implicat în indexarea site-urilor web;
Yandex/1.01.001 (compatibil; Win16; P) – indexator de imagini robot;
Yandex/1.01.001 (compatibil; Win16; H) – un robot care identifică „oglinzi” site-urilor indexate;
Yandex/1.02.000 (compatibil; Win16; F) – robot de indexare a pictogramelor de resurse (favicons);
Yandex/1.03.003 (compatibil; Win16; D) – un robot care accesează paginile adăugate folosind formularul „Add URL”;
Yandex/1.03.000 (compatibil; Win16; M) – activat la accesarea paginii folosind linkul „Cuvinte găsite”;
YaDirectBot/1.0 (compatibil; Win16; I) – acest robot este responsabil pentru indexarea paginilor de resurse care participă la rețeaua de publicitate Yandex.

Dintre toți roboții de căutare, cel mai important este numit principal. robot de căutare. Importanța resursei pentru motorul de căutare va depinde de modul în care acesta indexează paginile site-ului.

Toți roboții funcționează după un program individual, iar dacă un site este indexat de unul dintre ei, asta nu înseamnă că altul va fi indexat în curând.

Pentru a-i ajuta pe cei principali, au fost creați și roboți care vizitează periodic site-urile și determină cât de accesibili sunt. Acestea includ roboți de la Yandex.Catalog și rețeaua de publicitate Yandex.

Motorul de căutare Yandex este caracterizat de următorii indicatori principali ai optimizării externe:

TCI este un index tematic public de citare, nu are un impact direct asupra clasamentului și este folosit pentru a determina poziții în categoria tematică Yandex.Catalog; utilizat atunci când promovarea site-ului este necesară, TCI arată câte link-uri, în medie, accesează site-ul.
wCI, sau Weighted Citation Index, este un algoritm pentru calcularea numărului de linkuri externe; semnificația sa nu este dezvăluită și este folosită de motorul de căutare ca factor determinant în clasarea site-urilor în motorul de căutare.
Prezența site-ului în Yandex.Catalog.
Numărul total de pagini de site care au participat la indexare.
Frecvența cu care este indexat conținutul site-ului.
Prezența și absența link-urilor de pe site, prezența site-ului în filtrele de căutare.

Indexul de citare oferă baza pentru un subiect și un index de citare ponderat, ambele influențând clasarea unui site.

Index de citare(CI) este un index de citări (numărul de link-uri către o sursă) între publicații, permițându-vă să aflați care dintre documentele ulterioare se referă la lucrări anterioare, în timp ce CI poate fi luat în considerare atât pentru articole individuale, cât și pentru autori (oameni de știință). ).

În motorul de căutare Yandex, precum și în alte motoare de căutare, indexul de citare se referă la număr backlink-uri, excluzând link-urile din următoarele resurse: directoare nemoderate, panouri de mesaje, conferințe online, pagini de statistici server, link-uri XSS și altele care pot fi adăugate fără control de către proprietarul resursei. Este de remarcat faptul că în catalogul Aport, CI este înțeles ca un indice de citare ponderat.

Acest indice este calculat din graficul de referință: dacă considerăm resursele rețelei ca vârfuri ale graficului, iar citarea altor resurse (legături de referință între site-uri) ca conexiuni ale vârfurilor graficului (muchii), atunci graficul de legătură poate fi reprezentat în forma unei diagrame, așa cum se arată în Figura 3.1.

Figura – Grafic de legătură

În figură, literele A, B, ..., F indică anumite site-uri din indexul motorului de căutare, săgețile indică direcția conexiunilor - unidirecțională sau bidirecțională.

CI este utilizat ca unul dintre factorii pentru clasarea documentelor în rezultatele cautarii, dar nu este principalul lucru.

Nu confundați un index obișnuit de citare cu unul ponderat și tematic, despre care vom discuta mai târziu. Indicele de citare este întotdeauna un număr întreg și nu depinde de subiectele documentelor de referință.

Indicele de citare este de obicei considerat ca un parametru al semnificației unui articol, dar nu reflectă structura legăturilor în fiecare disciplină (subiect), și, de asemenea, lucrările slab semnificative și lucrările cu semnificație mare pot avea același indice de citare.

Prin urmare, a fost introdus un indice de citare ponderat, care este determinat nu numai de cantitate, ci și de calitatea surselor citate. Introducerea căutării de linkuri și a popularității linkurilor statice ajută motoarele de căutare să facă față spam-ului de text primitiv, care distruge complet algoritmii statistici tradiționali regăsirea informațiilor, obtinut in timp util pentru colectari controlate. VIC este un analog al PageRank de la Google.

Indice de citare ponderat ca și altele factori de referință clasament, calculat din graficul link-ului. Puteți afla aproximativ VIC-ul paginilor dvs. verificând PageRank-ul lor cu orice serviciu de verificare online; totuși, ar trebui să țineți cont de faptul că indexul Yandex conține doar documente în limba rusă și doar unele populare din cele străine, reducând astfel mai jos în graficul link-ului în comparație cu Google.

Indexul tematic de citare a fost introdus pentru a reflecta autoritatea site-ului în subiectul său.

Atunci când se stabilește subiectul unui site, se construiește mai întâi o descriere a resursei în cauză (din numele categoriilor site-ului, titlurile și structura URL a paginilor sale). În continuare, se calculează o evaluare a proximității dintre descrierile subiectelor pregătite în prealabil (catalog) și descrierile resurselor, cu selecția celor mai asemănătoare subiecte pentru acestea.

Apropierea tematică a două documente reflectă probabilitatea ca ambele să aparțină aceluiași subiect. Acest indicator poate influența valoarea transmis prin link greutate.

Calculul TCI se bazează pe formula:

unde PF(v,t) – TCI al resursei v;

P – numărul de resurse care fac legătura cu site-ul v și au același subiect;

n v – numărul de pagini de pe site-ul v în cauză;

N este numărul total de pagini din indexul Yandex (în acest caz, n v /N este probabilitatea ca utilizatorul să citească site-ul v);

w(i) – frecvența citărilor după resursa i a sitului v;

N(i) – numărul total de link-uri de pe al-lea site.

În acest caz, PF(v,t) este o valoare normalizată.

Inițial, indicele de citare tematic a reflectat situația din Runet, dar de-a lungul timpului indicele Yandex sa extins la astfel de segmente geografice precum Belarus, Ucraina și altele. Yandex are versiuni noi ale catalogului pentru regiuni suplimentare.

În consecință, pentru a clasifica site-urile în fiecare dintre Cataloagele Yandex regionale, a fost necesar să se introducă un TCI regional, care să ia în considerare, pe lângă tematică, proximitatea geografică a legăturilor.

Astfel, TCI are următoarele proprietăți:

1. TCI depinde de numărul de pagini unice de pe site și cu cât sunt mai multe, cu atât indicatorul rezultat este mai mare.

2. Cu cât sunt mai puține link-uri de ieșire pe site-ul donator, cu atât mai mult TCI este transferat de pe acesta.

3. TCI nu depinde în niciun fel de linking.

4. Ancorele de legătură nu sunt implicate în determinarea proximității tematice a două resurse.

5. Dacă site-ul are mai multe oglinzi (copii), la lipirea lor, se însumează TCI-ul rezultat.

Ce motoare de căutare sunt cele mai populare pe Internet și în segmentul său autohton? Cum diferă un motor de căutare de altul? Care este cel mai bun motor de căutare?

Sistemul de căutare este un complex software și hardware cu o interfață web care oferă posibilitatea de a căuta informații pe Internet.

Evaluarea motoarelor de căutare rusești (conform Liveinternet 2014)

1. Yandex -
2. Google -
3. Mail -
4. Rambler -
5. Bing -

53,9%
35,1%
8,3%
0,9%
0,6%

Evaluarea motoarelor de căutare globale (date din NetMarketShare 2014)

Scurte caracteristici ale motorului de căutare Yandex

Yandex este cel mai mare motor de căutare intern. Fondată la 23 septembrie 1997. ÎN În ultima vreme Yandex se extinde activ la nivel internațional și are deja versiuni localizate ale serviciului în Ucraina, Kazahstan, Belarus și Turcia. Pe lângă căutare, Yandex oferă multe caracteristici suplimentare, inclusiv, hosting gratuit Narod.ru, serviciu pentru blogging Ya.ru, Serviciu poștal, rețeaua de publicitate Yandex Direct și, în plus, recent Yandex și-a promovat activ propriul browser. Pe lângă căutarea principală, Yandex oferă posibilitatea de a căuta după bloguri, imagini și videoclipuri.

În 2011, a fost dezvoltată și implementată o nouă metodă învățare automată Matrixnet, care a îmbunătățit semnificativ calitatea căutării.

În plus, în 2011, Yandex a plasat acțiuni la bursa americană tehnologie avansata Nasdaq, care este un eveniment marcant pentru companiile interne de internet.

În decembrie 2012 A fost implementat nou algoritm„Kaliningrad”, care a făcut căutarea personalizată. Aceasta înseamnă că acum principalul factor de clasare este utilizatorul însuși, care creează o interogare pentru motorul de căutare. Cu alte cuvinte, rezultatele căutării pentru aceeași întrebare pentru doi utilizatori diferiți va varia acum în funcție de nevoile și preferințele utilizatorilor înșiși. Acest nou pas pe calea evoluției motoarelor de căutare.

Printre inovațiile Yandex se numără:

introducerea geodependenței solicitărilor în funcție de afilierea regională a utilizatorului și a site-ului;
luarea în considerare a factorilor comportamentali;
dezvoltarea unui mecanism pentru indicii, corectarea erorilor și recunoașterea abrevierilor;
lupta activă împotriva vânzării de link-uri și a textelor supraoptimizate;
introducerea căutării personalizate;
ținând cont de valoarea semantică adăugată a site-ului.

Scurte caracteristici ale motorului de căutare Google

Un lider recunoscut în general printre motoarele de căutare. Motorul de căutare a apărut în 1996 și a fost inițial destinat să caute în dulapurile bibliotecii Stanford. Google Corporation a fost fondată în 1998. ÎN în prezent are peste 100 de versiuni regionale în diferite țări. În plus, Google nu este doar căutare, ci și mai mult de 50 diverse servicii, inclusiv cel mai popular browser Google Chrome.

Pagini indexate - mai mult de 3.000.000.000 de pagini.
Ramele sunt complet acceptate.
Tipuri de fișiere indexate - PDF, CGI, ASP, JSP, CFM, PHP.
Suport pentru metaetichete - cea mai importantă etichetă este titlul.
Baza de date este actualizată o dată la 60 de zile.
Timpul mediu de indexare este de la 48 de ore la 2 săptămâni.
Indexare rapidă - nr.
Oferă date pentru - Topclick.com, Yahoo, Netscape, EarthLink.net
Linkuri platite - Google AdWords - program propriu publicitate contextuală după cuvinte cheie selectate.
Rezultatele căutării în director - este utilizat directorul Open Directory Project.
Frecvență Cuvinte cheie- Cuvintele cheie trebuie menționate în prima treime a documentului. Este necesar să folosiți sinonime și cuvinte pe tema selectată pe tot site-ul. Frecvența recomandată a cuvintelor cheie este de la 0 la 12% - cazurile de clasare ridicată sunt posibile doar datorită PageRank-ului ridicat.
Popularitatea link-ului este foarte importantă. Dacă nu există legături externe, documentul nu va fi indexat.

Scurte caracteristici ale motorului de căutare Bing

Clasat în prezent drept al 3-lea cel mai popular site de căutare după volumul de trafic, Bing are o serie de caracteristici exclusive, cum ar fi ajustarea dinamică a cantității de informații afișate pentru fiecare rezultat al căutării (de exemplu, numai titlu, scurt sau lung).

teme care se schimbă zilnic pagina principala cu blocuri de informații;
afișarea clarificări a opțiunilor de căutare pentru categorii individuale;
video cu previzualizare automată;
date suplimentare pentru fiecare rezultat al căutării;
serviciu încorporat pentru căutarea rutelor (altele speciale servicii de căutare va apărea în curând);
Funcții care îmbunătățesc utilizarea atunci când căutați informații, imagini și videoclipuri.

În ciuda tuturor capabilităților motoarelor de căutare populare, acestea nu pot rezolva toate problemele. În special, nu sunt întotdeauna convenabile de utilizat pentru căutare informatii stiintifice. În aceste scopuri, există motoare de căutare științifice speciale.

Relativ recent, lumea a văzut o nouă creație de la Yandex Corporation - Yandex.Browser. Bazat pe obișnuit Motor cu crom, iar interfața a fost complet reproiectată și distinctă.

Aproape toate caracteristicile program nou sunt la un nivel decent și, în plus, dezvoltatorii Yandex au introdus acolo câteva dintre propriile tehnologii noi. Are o serie întreagă de servicii care au fost lansate anterior sub auspiciile Yandex.

Are o serie de avantaje: funcția de verificare ortografică a fost îmbunătățită, puteți vizualiza documente direct în browser (sunt acceptate formatele populare precum DOCX, PDF, PPTX și altele), puteți traduce cuvinte direct pe pagină și multe altele . Printre altele, există un mod „Turbo”; lumea l-a văzut mult mai devreme în funcțiile unui alt browser popular de la Opera. Când acest mod activat, software-ul primește toate datele în formă comprimată, și nu va încărca cele mai „volume” elemente. Astfel, puteți reduce semnificativ volumul tuturor informațiilor furnizate și, în consecință, puteți accelera semnificativ încărcarea paginii. Încercați programul în acțiune, trebuie doar să descărcați browserul Yandex pe computer și să îl instalați rulând fișierul exe descărcat.

Browserul Yandex nu are o galerie cu drepturi depline. Merită să acordați atenție secțiunii „Suplimente”, există cincisprezece suplimente diferite. În plus, puteți integra suplimente din Chrome; acestea nu intră în niciun fel în conflict cu conținutul Yandex.

Puțină istorie.
Browserul web a apărut pentru prima dată pe Internet în octombrie 2012. În septembrie 2013, aplicația era deja folosită de peste 5 milioane de oameni. În fiecare zi, numărul utilizatorilor Yandex.Browser crește și crește, merită remarcat, foarte rapid. Deja astăzi, în Rusia și țările CSI, Yandex.Browser a devenit lider și a ocupat primul loc în ceea ce privește numărul de utilizatori.

Mulți utilizatori laudă aplicația pentru muncă stabilă, Viteza bunaȘi set unic funcții. Trebuie remarcat faptul că căutarea în pagină funcționează nu numai prin potriviri de puncte, ci și prin alte forme (expresii sau cuvinte). Funcție similară nu este disponibil în niciun alt browser web. În loc de taste rapide, puteți utiliza gesturi ale mouse-ului (închideți fila, restaurați fila, deplasați înainte etc.). În bara de adrese puteți introduce nu numai link-uri către site-urile dorite, ci și interogări de căutare.

Browserul Yandex analizează cererile dvs. și oferă sfaturi de căutare. Tehnologie nouă De asemenea, economisește mult timp și corectează automat erorile din adresa site-ului. În acest caz, nu este deloc necesar să conduci adresa exacta, aplicația este familiarizată cu toate site-urile populare și le va deschide imediat după ce introduceți numele.

Un plus frumos la interfața browserului web este Lansare rapidă. Acesta va conține plăci cu link-uri către site-urile pe care le veți vizita cel mai des. În plus, vor fi afișate și alte informații utile: numărul de mesaje nevizualizate prin e-mail, vremea, ambuteiajele, știrile și multe altele. Este foarte confortabil.

Siguranță.
În zilele noastre, puteți găsi o mulțime de site-uri diferite cu troieni și alte programe malware pe Internet, dar Yandex.Browser oferă utilizatorilor săi un nivel solid de securitate, deoarece cooperează cu binecunoscutul Kaspersky Lab și va verifica întotdeauna resursele care vizitați pentru prezența lui malware. Printre altele, browserul Yandex va salva întotdeauna file, setări și multe altele. Le poți accesa de pe orice computer, trebuie doar să-ți activezi profilul.

Browserul este o fereastră către Internet. Mulți oameni îl țin deschis toată ziua: fluxul de știri trece pe lângă el, urmărim viețile prietenilor noștri din el, apelăm la el când vrem să găsim ceva. Dar internetul nu a arătat întotdeauna așa cum suntem obișnuiți. Sau mai degrabă, pentru o lungă perioadă de timp nu semăna deloc cu nimic.

În browser vedem nu Internetul, dar World wide web, sau web. Internetul în sine este o infrastructură, un complex de rețele în care sunt conectate computere din întreaga lume. Iar web-ul este o modalitate de a prezenta vizual informațiile stocate pe ele sub formă de pagini interconectate. Aceste pagini pot conține text, imagini, videoclipuri, diverse butoane, link-uri și multe altele. Pentru ca toate aceste elemente să funcționeze și să se afișeze corect, pagina trebuie să fie deschisă în program special. Acest program este un browser.

Puțină istorie

Prototipul web-ului modern și, în consecință, primul browser a apărut în 1991 la CERN, organizația europeană pentru cercetare nucleară. Unul dintre angajații ei, Tim Berners-Lee, a venit cu ideea de a tricota documente științifice hyperlinkuri și astfel rezolvăm problema căutării de informații în arhiva uriașă a institutului. Primul browser se numea WorldWideWeb și arăta cam așa.

Browser WorldWideWeb în 1993. Sursa - pagina w3.org a lui Tim Berners-Lee

Prima cameră web a apărut acolo, la CERN. Oamenii de știință care aveau un aparat de cafea pe mai multe etaje au plasat lângă el o cameră, care trimitea fotografii către computerele lor de mai multe ori pe minut - totul pentru a putea afla dacă există cafea în aparat fără a-și întrerupe munca.

La începutul anilor 90, au apărut nu numai web-ul și primele browsere, dar în același timp au început să funcționeze și primii furnizori comerciali de internet. Înainte de aceasta, internetul era finanțat de guvern și accesul era disponibil doar în centrele universitare mari și organizațiile militare. Acum oricine putea accesa rețeaua de pe computerul de acasă.

Internetul a devenit public și, odată cu apariția web-ului și a browserelor relativ ușor de învățat, precum Mosaic și Netscape Navigator, a devenit și vizual. Dintr-un instrument al comunității științifice, a început treptat să se transforme într-un mijloc de comunicare în masă, iar apoi, odată cu creșterea audienței sale, într-o platformă globală de cumpărături și divertisment.

Ultima versiune Browser mozaic, lansat în 1997. Sursa - Wikipedia.

Astăzi, sute de milioane de oameni caută zilnic pe internet informații și știri, ascultă muzică și urmăresc filme, se joacă, comunică și cumpără. Pentru a face toate acestea posibile, browserele au trebuit să învețe multe. Cel mai simplu exemplu- afișarea mai multor pagini într-o singură fereastră. Filele au început să apară în browsere populare abia în prima jumătate a anilor 2000 - acum este greu de imaginat că navighezi pe internet fără ei.

Din ce este făcut Yandex.Browser?

Prima versiune a browserului Yandex a fost lansată în 2012. Când l-am creat, am folosit dezvoltările existente. De exemplu, „motorul” pentru browserul nostru este același cu cel al Safari și al Google Chrome - se numește WebKit. Pentru a explica de ce l-am ales, trebuie să vă spunem în cel puțin câteva cuvinte ce face de fapt motorul.

Pe scurt, el asamblează site-uri web conform instrucțiunilor - cam în același mod în care asamblam mobila care a venit din magazin în mai multe cutii. Paginile site-ului devin modul în care suntem obișnuiți să le vedem, doar pe ecranul unui computer. Până când le priviți printr-un browser, ele există ca documente cu link-uri către „părți” (cum ar fi imaginile care sunt folosite pentru fundaluri și butoane) și cod care determină modul în care ar trebui să fie conectate.

Aceasta este doar o mică parte din codul paginii site-ului - totul este mai lung decât întregul articol.

Fiecare motor are propriile sale caracteristici - de aceea același site poate arăta ușor diferit browsere diferite. Dacă creatorul site-ului nu ia în considerare aceste caracteristici, atunci un browser poate să înțeleagă greșit instrucțiunile sale și să construiască ceva urât sau complet nefuncțional. Nu am creat propriul nostru „motor”, astfel încât dezvoltatorii de site-uri web să nu fie nevoiți să-și adapteze și site-urile web pentru acesta. În schimb, a fost ales popularul WebKit, pe care se bazează deja majoritatea dezvoltatorilor web.

WebKit are mai multe implementări - browserul nostru rulează pe cel dezvoltat în proiectul Chromium. Mai mulți oameni o fac deodată companii mari- și în beneficiul tuturor. Dacă o companie vine cu un fel de îmbunătățire tehnică, toată lumea beneficiază de ea (dacă sunteți interesat, de exemplu, de modul în care dezvoltatorii Yandex.Browser au ajutat în mod semnificativ la accelerarea tuturor programelor bazate pe Chromium). În plus, acest lucru ne permite să promovăm împreună standardele web moderne, adică să facem internetul mai convenabil și mai sigur.

Ce face Yandex.Browser special

Cel mai evident răspuns este designul. De la bun început, am încercat să ne asigurăm că interfața nu este greoaie. Browserul nostru ideal nu este doar o fereastră, ci o „fereastră panoramică” către Internet: ecran complet și cu un minim de detalii. De ceva timp am încercat de fapt să facem un browser transparent - acest proiect se numea Cousteau. Testele au arătat că nu toți utilizatorii sunt pregătiți pentru astfel de schimbări, dar unele inovații, cum ar fi fundalurile animate și șir de căutare, multora le-a placut. În versiunea Yandex.Browser la care lucrăm acum, cele mai bune idei, testate la Cousteau, sunt combinate cu soluții clasice de interfață. Acum browserul nostru arată așa.

Acesta este browserul Yandex pentru Windows. Versiunile pentru Mac OS și Linux arată diferit momentan.

Designul nu este numai aspect, dar și practic. Browserul Yandex are multe soluții care sunt invizibile la prima vedere, ceea ce îl face convenabil. De exemplu, pentru a vedea un Tableau cu link-uri către site-uri vizitate frecvent, nu este necesar să îl deschideți filă nouă, faceți clic pe bara de adrese. Datorită acestui lucru, calea spre pagina dorită se scurtează cu un pas.

Browserul nostru are același scop - de a economisi timp și clicuri. Folosind datele Yandex privind interogările de căutare populare, ea poate sugera adresa site-ului dorit, chiar dacă nu ați fost niciodată la acesta, și poate oferi să meargă pe vk.com unei persoane care a uitat să schimbe aspectul și a reușit să scrie „plus ”. Pentru unii întrebări simple- cum ar fi [cursul de schimb al dolarului], [vremea în Samara] sau [formula pentru volumul unei mingi] - Linia inteligentă poate răspunde singură, astfel încât utilizatorul nici măcar nu trebuie să meargă la pagina noua pentru a obține informații.

Un alt exemplu de design atent se referă și la bara de adresa. Este situat în partea de jos a ecranului, și nu în partea de sus, ca în majoritatea browserelor, pur și simplu pentru că este mai ușor să ajungi la el cu degetul mare. Ecranele smartphone-urilor devin mai mari, dar degetele noastre nu se mai lungesc, așa că trebuie să ținem cont de acest lucru.

O altă caracteristică a browserului nostru este că te caută automat informații interesante. Când deschideți o filă nouă, veți vedea un bloc în partea de jos intitulată „Zen: Recomandările dumneavoastră personale”. Colectează articole și videoclipuri despre subiecte care vă interesează de obicei. Unicitatea este că inteligența mașinii este responsabilă pentru compilarea fluxului de publicații: le colectează nu din colecții tematice RSS, ci de pe tot Internetul - folosind tehnologiile de căutare Yandex. Dacă Zen observă că aveți noi interese, va începe să le țină cont atunci când își va compila feedul.

Pentru a utiliza un browser confortabil, acesta trebuie să fie nu numai frumos și convenabil, ci și rapid și sigur. Yandex.Browser este responsabil pentru acesta din urmă - un set de tehnologii care protejează parolele, blochează site-urile frauduloase și vă permit să vă conectați la rețele publice Wi-Fi și plătiți pentru servicii pe Internet. Modul ajută la viteză. Se aprinde automat când conectiune inceatași accelerează încărcarea paginii. Acest lucru se întâmplă prin reducerea volumului de date: conținutul „greu” al paginii - de obicei videoclipuri și imagini - este comprimat pe serverele Yandex și numai după aceea este transmis utilizatorului. Drept urmare, se economisește nu numai timp, ci și trafic.

Dacă sunteți interesat să urmăriți cum se dezvoltă Yandex.Browser, îl puteți instala
și participați la testarea noilor funcții ale browserului.

Ele au devenit de mult o parte integrantă Internetul rusesc. Motoarele de căutare sunt acum mecanisme uriașe și complexe care reprezintă nu doar un instrument de căutare a informațiilor, ci și zone tentante pentru afaceri.

Majoritatea utilizatorilor motoarelor de căutare nu s-au gândit niciodată (sau s-au gândit la asta, dar nu au găsit un răspuns) la principiul de funcționare a motoarelor de căutare, schema de procesare a cererilor utilizatorilor, în ce constau aceste sisteme și cum funcționează...

Această clasă de master este concepută pentru a răspunde la întrebarea cum funcționează motoarele de căutare. Totuși, nu veți găsi aici factori care influențează clasarea documentelor. Mai mult, nu ar trebui să contați pe o explicație detaliată a algoritmului Yandex. El, potrivit lui Ilya Segalovici, directorul tehnologiei și dezvoltării motorului de căutare Yandex, poate fi recunoscut „sub tortură” doar de Ilya Segalovici însuși...

2. Conceptul și funcțiile unui motor de căutare

Un sistem de căutare este un complex software și hardware conceput să caute pe internet și să răspundă la o solicitare a utilizatorului, specificată sub forma unei fraze text (interogare de căutare), prin producerea unei liste de legături către surse de informații, în ordinea relevanței ( conform cererii). Cele mai mari motoare de căutare internaționale: "Google", Yahoo , MSN . Pe internetul rusesc, acestea sunt Yandex, Rambler, Aport.

Să aruncăm o privire mai atentă asupra conceptului de interogare de căutare folosind motorul de căutare Yandex ca exemplu. Interogarea de căutare ar trebui să fie formulată de utilizator în conformitate cu ceea ce dorește să găsească, cât mai scurt și simplu posibil. Să presupunem că vrem să găsim informații în Yandex despre cum să alegem o mașină. Pentru a face acest lucru, deschideți pagina principală Yandex și introduceți textul interogării de căutare „cum să alegeți o mașină”. În continuare, sarcina noastră se rezumă la deschiderea legăturilor furnizate la cererea noastră către sursele de informații de pe Internet. Cu toate acestea, este foarte posibil să nu găsim informațiile de care avem nevoie. Dacă se întâmplă acest lucru, atunci fie trebuie să reformulați cererea, fie baza de date a motorului de căutare într-adevăr nu are nicio informație relevantă cu privire la solicitarea noastră (acest lucru se poate întâmpla atunci când solicitați interogări foarte „înguste”, cum ar fi, de exemplu, „cum să alegeți o mașină în Arhangelsk”)

Scopul principal al oricărui motor de căutare este de a oferi oamenilor exact informațiile pe care le caută. Și învață utilizatorii să facă cereri „corecte” către sistem, de exemplu. interogările care respectă principiile de funcționare ale motoarelor de căutare sunt imposibile. Prin urmare, dezvoltatorii creează algoritmi și principii de funcționare pentru motoarele de căutare care ar permite utilizatorilor să găsească informațiile pe care le caută.

Aceasta înseamnă că motorul de căutare trebuie să „gândească” la fel cum gândește utilizatorul atunci când caută informații. Când un utilizator face o solicitare către un motor de căutare, el dorește să găsească ceea ce are nevoie cât mai repede și ușor posibil. Primind rezultatul, evaluează performanța sistemului, ghidat de mai mulți parametri de bază. A găsit ceea ce căuta? Dacă nu l-a găsit, de câte ori a trebuit să reformuleze interogarea pentru a găsi ceea ce căuta? Câte informații relevante ar putea găsi? Cât de repede a procesat motorul de căutare cererea? Cât de convenabil au fost prezentate rezultatele căutării? Rezultatul pe care îl căutați a fost primul sau al sutelea? Cât costă gunoi inutile au fost găsite informații la fel de utile? Informațiile necesare vor fi găsite la accesarea unui motor de căutare, să zicem, într-o săptămână, sau într-o lună?

Pentru a satisface toate aceste întrebări cu răspunsuri, dezvoltatorii de motoare de căutare îmbunătățesc constant algoritmii și principiile de căutare, adăugând noi funcții și capabilități și încearcă în toate modurile posibile să accelereze funcționarea sistemului.

3. Principalele caracteristici ale unui motor de căutare

Să descriem principalele caracteristici ale motoarelor de căutare:

Completitudine
Completitudinea este una dintre principalele caracteristici ale unui sistem de căutare, care este raportul dintre numărul de documente găsite la cerere și numărul total de documente de pe Internet care satisfac aceasta cerere. De exemplu, dacă există 100 de pagini pe Internet care conțin expresia „cum să alegi o mașină” și doar 60 dintre ele au fost găsite pentru interogarea corespunzătoare, atunci caracterul complet al căutării va fi de 0,6. Evident, ce căutare mai completă, cu atât este mai puțin probabil ca utilizatorul să nu găsească documentul de care are nevoie, cu condiția ca acesta să existe deloc pe Internet.
Precizie
Precizia este o altă caracteristică principală a unui motor de căutare, care este determinată de gradul în care documentele găsite se potrivesc cu interogarea utilizatorului. De exemplu, dacă interogarea „cum să alegi o mașină” conține 100 de documente, 50 dintre ele conțin expresia „cum să alegi o mașină”, iar restul conțin pur și simplu aceste cuvinte („cum să alegi radioul potrivit și să-l instalezi în o mașină”), atunci precizia căutării este considerată egală cu 50/100 (=0,5). Cu cât căutarea este mai precisă, cu atât utilizator mai rapid va găsi documentele de care are nevoie, cu atât mai puține diferite feluri Printre acestea se vor găsi „gunoaie”, cu atât mai rar documentele găsite nu vor corespunde cererii.
Relevanţă
Relevanța este o componentă la fel de importantă a căutării, care se caracterizează prin timpul care trece de la publicarea documentelor pe internet până la introducerea lor. baza indexului motor de căutare. De exemplu, a doua zi după ce apar știri interesante, un numar mare de utilizatorii au apelat la motoarele de căutare cu interogări relevante. Obiectiv, a trecut mai puțin de o zi de la publicarea informațiilor de știri pe această temă, dar principalele documente au fost deja indexate și disponibile pentru căutare, datorită existenței așa-numitului „ bază rapidă", care este actualizat de mai multe ori pe zi.
Viteza de căutare
Viteza de căutare este strâns legată de rezistența la sarcină. De exemplu, conform Rambler Internet Holding LLC, astăzi, în timpul programului de lucru, motorul de căutare Rambler primește aproximativ 60 de solicitări pe secundă. Un astfel de volum de muncă necesită reducerea timpului de procesare a unei cereri individuale. Aici coincid interesele utilizatorului și ale motorului de căutare: vizitatorul dorește să obțină rezultate cât mai repede, iar motorul de căutare trebuie să proceseze solicitarea cât mai repede posibil, pentru a nu încetini calculul interogărilor ulterioare.
Vizibilitate

4. Poveste scurta dezvoltarea motoarelor de căutare

În perioada inițială a dezvoltării Internetului, numărul utilizatorilor săi a fost mic, iar cantitatea de informații disponibile a fost relativ mică. În cea mai mare parte, doar personalul de cercetare avea acces la internet. În acest moment, sarcina de a căuta informații pe internet nu era la fel de urgentă ca acum.

Una dintre primele moduri de a organiza accesul la resurse informaționale Rețeaua a început să creeze directoare deschise de site-uri, link-uri către resurse în care au fost grupate în funcție de subiect. Primul astfel de proiect a fost site-ul Yahoo.com, care a fost deschis în primăvara anului 1994. După ce numărul de site-uri din director a crescut semnificativ, a fost adăugată o funcție de căutare informatie necesara conform catalogului. În sensul deplin, nu era încă un motor de căutare, întrucât zona de căutare era limitată doar la resursele prezente în catalog, și nu la toate resursele de pe Internet.

Directoarele de link-uri au fost utilizate pe scară largă în trecut, dar și-au pierdut aproape complet popularitatea în prezent. Deoarece chiar și cataloagele moderne, uriașe ca volum, conțin informații doar despre o parte neglijabilă a Internetului. Cel mai mare director al rețelei DMOZ (numit și Proiectul Open Directory) conține informații despre 5 milioane de resurse, în timp ce baza de date de căutare sistemele Google constă din peste 8 miliarde de documente.

În 1995, au apărut motoarele de căutare Lycos și AltaVista. Ultimul ani lungi a fost lider în domeniul căutării de informații pe internet.

În 1997, Sergey Brin și Larry Page au creat motorul de căutare Google ca parte a unui proiect de cercetare la Universitatea Stanford. Google este în prezent cel mai popular motor de căutare din lume!

În septembrie 1997, motorul de căutare a fost anunțat oficial Sistemul Yandex, care este cel mai popular de pe internetul în limba rusă.

În prezent, există trei motoare de căutare principale (internaționale) - Google, Yahoo și, care au propriile baze de date și algoritmi de căutare. Majoritatea celorlalte motoare de căutare (dintre care există un număr mare) folosesc într-o formă sau alta rezultatele celor trei enumerate. De exemplu, căutarea AOL (search.aol.com) folosește baza de date Googleși AltaVista, Lycos și AllTheWeb - baza de date Yahoo.

5. Componența și principiile de funcționare ale sistemului de căutare

În Rusia, principalul motor de căutare este Yandex, urmat de Rambler.ru, Google.ru, Aport.ru, Mail.ru. Mai mult, pe acest moment, Mail.ru folosește motorul de căutare și baza de date Yandex.

Aproape toate motoarele de căutare majore au propria lor structură, diferită de celelalte. Cu toate acestea, este posibil să se identifice principalele componente comune tuturor motoarelor de căutare. Diferențele de structură pot fi doar sub forma implementării mecanismelor de interacțiune a acestor componente.

Modul de indexare

Modulul de indexare este format din trei programe auxiliare (roboți):

Spider este un program conceput pentru a descărca pagini web. Păianjenul descarcă pagina și preia toate linkurile interne de pe pagina respectivă. Codul html al fiecărei pagini este descărcat. Roboții folosesc pentru a descărca pagini Protocoale HTTP. Păianjenul funcționează după cum urmează. Robotul trimite cererea „get/path/document” și alte comenzi de solicitare HTTP către server. Ca răspuns, robotul primește un flux de text care conține informații de serviciu și documentul în sine.

Adresa URL a paginii
data la care pagina a fost descărcată
Antetul http de răspuns al serverului
corpul paginii (cod html)

Crawler („călător”) este un program care urmărește automat toate linkurile găsite pe pagină. Selectează toate linkurile prezente pe pagină. Sarcina sa este de a determina unde ar trebui să meargă păianjenul, pe baza link-urilor sau pe baza unei liste predeterminate de adrese. Crawler, urmând linkurile găsite, caută documente noi care sunt încă necunoscute motorului de căutare.

Indexer (robot indexer) este un program care analizează paginile web descărcate de păianjeni. Indexatorul parsează pagina în părțile sale componente și le analizează folosind proprii algoritmi lexicali și morfologici. Sunt analizate diferite elemente ale paginii, cum ar fi text, titluri, link-uri, caracteristici structurale și de stil, etichete HTML pentru servicii speciale etc.

Astfel, modulul de indexare vă permite să accesați cu crawlere un anumit set de resurse folosind link-uri, să descărcați pagini întâlnite, să extrageți link-uri către pagini noi din documentele primite și să efectuați o analiză completă a acestor documente.

Bază de date

O bază de date, sau index al motorului de căutare, este un sistem de stocare a datelor, o matrice de informații în care într-un mod special parametrii convertiți ai tuturor documentelor descărcate și procesate de modulul de indexare.

Server de căutare

Serverul de căutare este elementul cel mai importantîntregul sistem, deoarece calitatea și viteza căutării depind direct de algoritmii care stau la baza funcționării acestuia.

Serverul de căutare funcționează după cum urmează:

Solicitarea primită de la utilizator este supusă analizei morfologice. Se genereaza mediul informativ al fiecarui document continut in baza de date (care ulterior va fi afisat in formular, adica corespunzator cererii). informații text pe pagina cu rezultatele căutării).
Datele primite sunt transmise ca parametri de intrare modul special clasament. Datele sunt prelucrate pentru toate documentele, drept urmare fiecare document are propriul rating care caracterizează relevanța interogării introduse de utilizator și diferitele componente ale acestui document stocate în indexul motorului de căutare.
În funcție de alegerea utilizatorului, această evaluare poate fi ajustată conditii suplimentare(de exemplu, așa-numita „căutare avansată”).
În continuare, se generează un fragment, adică pentru fiecare document găsit, titlul, un scurt rezumat care se potrivește cel mai bine interogării și un link către documentul în sine sunt extrase din tabelul de documente, iar cuvintele găsite sunt evidențiate.
Rezultatele căutării rezultate sunt transmise utilizatorului sub forma unei SERP (Search Engine Result Page) – o pagină cu rezultatele căutării.

După cum puteți vedea, toate aceste componente sunt strâns legate între ele și funcționează în interacțiune, formând un mecanism clar, destul de complex pentru funcționarea sistemului de căutare, care necesită cantități uriașe de resurse.

6. Concluzie

Acum să rezumam toate cele de mai sus.

Scopul principal al oricărui motor de căutare este de a oferi oamenilor exact informațiile pe care le caută.
Principalele caracteristici ale motoarelor de căutare:
1. Completitudine
2. Precizie
3. Relevanţă
4. Viteza de căutare
5. Vizibilitate
Primul motor de căutare cu drepturi depline a fost proiectul WebCrawler, publicat în 1994.
Sistemul de căutare include următoarele componente:
1. Modul de indexare
2. Bază de date
3. Server de căutare

Sperăm că clasa noastră de master vă va permite să vă familiarizați mai bine cu conceptul de motor de căutare și să înțelegeți mai bine principalele funcții, caracteristici și principii de funcționare ale motoarelor de căutare.