Ce include un motor de căutare? Principiile de bază ale motoarelor de căutare pe Internet. Căutând informații în rusă

Căutați pe Internet.

Comoditatea internetului este că putem găsi aproape orice informație pe el, chiar și atunci când nu știm exact unde se află. Dacă adresa paginii cu materialul care ne interesează este necunoscută și nu există o pagină cu link-uri adecvate, trebuie să căutăm materiale pe tot internetul. În acest scop, sunt folosite motoare de căutare pe Internet - site-uri web speciale care vă permit să găsiți documentul dorit.

Tipuri de motoare de căutare.

Există două metode principale de căutare pe Internet. În primul caz, căutați pagini web legate de un anumit subiect. Căutarea se realizează prin selectarea unei categorii tematice și restrângerea treptat a acesteia. Astfel de motoare de căutare sunt numite directoare de căutare. Sunt convenabile atunci când trebuie să vă familiarizați cu un subiect nou sau să ajungeți la resurse „clasice” binecunoscute pe un anumit subiect. A doua metodă de căutare este utilizată atunci când subiectul este restrâns, specific sau rar, sunt necesare resurse puțin cunoscute. În acest caz, ar trebui să aveți o idee despre ce cuvinte cheie ar trebui să apară într-un document pe tema care vă interesează. Aceste cuvinte trebuie alese astfel încât să apară cel mai probabil în documentele necesare care nu au legătură cu tema aleasă. Sistemele care permit astfel de căutări se numesc indecși de căutare. Cataloagele de căutare diferă de indicii de căutare nu numai prin metoda de căutare, ci și prin metoda de formare. Orice motor de căutare pe Internet constă din două părți. O pagină web specializată, accesibilă oricui și care să permită căutarea, se bazează pe o bază de date mare, permanent extinsă și actualizată, care conține informații despre resursele internetului.

Metoda de completare a acestei baze de date depinde de tipul de directoare de căutare, cel mai important lucru este acuratețea selecției; Fiecare resursă găsită ar trebui să fie utilă. Subiectul paginii este determinat sau verificat manual. Din această cauză, volumul directoarelor de căutare este relativ mic. Când volumul se apropie de un milion de pagini, cantitatea de muncă manuală este atât de mare încât creșterea în continuare a catalogului se oprește.

Indicii de căutare, dimpotrivă, se concentrează pe lărgimea acoperirii. Automatizarea este destul de capabilă să identifice cuvinte pe o pagină web, datele indexului de căutare pot acoperi multe milioane de pagini web. Cu toate acestea, căutarea într-un index este mai dificilă decât căutarea într-un catalog, deoarece aceleași cuvinte cheie pot apărea pe pagini web pe subiecte diferite.

Principii de căutare a informațiilor pe Internet.

Devenind un utilizator de internet cu drepturi depline, obțineți acces la un număr mare de resurse de informații. De exemplu, numărul documentelor HTML disponibile pe internet nu se mai măsoară în zeci, ci în sute de milioane. Dar pe Internet puteți găsi nu numai text, ci și programe, imagini, fișiere de sunet și video etc. Pe de o parte, în această mare de informații, probabil că vor exista informații care vă interesează, chiar dacă dvs. domeniul de interes este foarte specific. Pe de altă parte, găsirea exactă a celor care vă interesează printre sute de milioane de pagini web nu este o sarcină ușoară. Motoarele de căutare sunt concepute pentru a facilita utilizatorilor de Internet găsirea informațiilor necesare.

Sistemele de recuperare a informațiilor sunt găzduite pe Internet pe servere publice. Baza motoarelor de căutare sunt așa-numitele motoare de căutare, sau indexuri automate. Programele speciale de roboți (cunoscute și sub denumirea de păianjeni) scanează periodic Internetul pe baza anumitor algoritmi, indexând documentele găsite. Bazele de date index create sunt utilizate de motoarele de căutare pentru a oferi utilizatorului acces la informațiile postate pe nodurile rețelei. Utilizatorul, în cadrul interfeței corespunzătoare, formulează o cerere, care este procesată de sistem, după care rezultatele procesării cererii sunt afișate în fereastra browserului. Mecanismele de procesare a interogărilor sunt îmbunătățite în mod constant, iar motoarele de căutare moderne nu triează doar un număr mare de documente - Căutarea se efectuează pe baza unor algoritmi originali și foarte complexi, iar rezultatele sale sunt analizate și sortate astfel. că informațiile prezentate utilizatorului se potrivesc cel mai mult cu așteptările acestuia.

În prezent, în dezvoltarea motoarelor de căutare, există tendința de a combina motoarele de căutare automate cu indexuri și cataloagele compilate manual de resurse de pe Internet. Resursele acestor sisteme se completează reciproc cu succes, iar combinarea capacităților lor este destul de logică.

Cu toate acestea, studiile privind capacitățile motoarelor de căutare, chiar și cele mai puternice dintre ele, precum AltaVista sau HotBot, arată că acoperirea reală a resurselor World Wide Web de către un singur astfel de sistem nu depășește 30%. Prin urmare, nu ar trebui să vă limitați la a utiliza oricare dintre ele. Dacă nu puteți găsi informațiile care vă interesează să utilizați un sistem, încercați să utilizați altul.

Fiecare motor de căutare are propriile caracteristici și, iar calitatea rezultatelor obținute depinde de subiectul căutării și de acuratețea formulării interogării. Prin urmare, atunci când începeți să căutați informații, în primul rând, trebuie să înțelegeți clar ce anume și unde doriți să găsiți. De exemplu, sistemele străine uimesc prin numărul de documente indexate. Pentru căutarea în domeniul cunoștințelor profesionale, în special a informațiilor într-o limbă străină, sisteme precum AltaVista, HotBot sau Northern sunt cele mai potrivite.

Cu toate acestea, motoarele de căutare rusești sunt mai potrivite pentru căutarea de informații în limba rusă, în special în partea rusă a internetului. În primul rând, ele se concentrează în mod special pe resursele în limba rusă ale rețelei și, de regulă, se disting printr-o acoperire mai mare și aprofundarea studiului acestor resurse. În al doilea rând, sistemele rusești funcționează ținând cont de morfologia limbii ruse, adică toate formele cuvintelor căutate sunt incluse în căutare. Sistemele rusești iau mai bine în considerare o astfel de caracteristică stabilită istoric a resurselor de internet rusești, cum ar fi coexistența mai multor codificări chirilice.

Interfața tuturor motoarelor de căutare este construită aproximativ la fel. Utilizatorului i se solicită să introducă o interogare despre un câmp special și apoi să inițieze o căutare făcând clic pe un buton. Sistemul efectuează o căutare și afișează rezultatele în fereastra browserului. În plus, multe motoare de căutare oferă utilizatorului posibilitatea de a specifica criterii de căutare suplimentare. De exemplu, puteți căuta doar într-o anumită categorie tematică sau numai în anumite servere (15, pp. 523-525).

Arhitectura motorului de căutare include de obicei:

YouTube enciclopedic

1 / 5

✪ Lecția 3: Cum funcționează un motor de căutare. Introducere în SEO

✪ Motor de căutare din interior

✪ Shodan - Google negru

✪ Motorul de căutare CHEBURASHKA va înlocui Google și Yandex în Rusia

✪ Lecția 1 - Cum funcționează un motor de căutare

Subtitrări

Poveste

Cronologie
An	Sistem	Eveniment
1993	W3Catalog?!	Lansa
	Aliweb	Lansa
	JumpStation	Lansa
1994	WebCrawler	Lansa
	Infoseek	Lansa
	Lycos	Lansa
1995	AltaVista	Lansa
	Daum	Baza
	Deschideți text Index web	Lansa
	Magellan	Lansa
	Excita	Lansa
	SAPO	Lansa
	Yahoo!	Lansa
1996	Dogpile	Lansa
	Inktomi	Baza
	Hoinar	Baza
	HotBot	Baza
	Întreabă-l pe Jeeves	Baza
1997	Lumina Nordului	Lansa
1997	Yandex	Lansa
1998	Google	Lansa
1999	AlltheWeb	Lansa
	Genie Knows	Baza
	Naver	Lansa
	Teoma	Baza
	Vivisimo	Baza
2000	Baidu	Baza
2000	Exalead	Baza
2003	Info.com	Lansa
2004	Yahoo! Căutare	Lansare finală
	A9.com	Lansa
	Sogou	Lansa
2005	Căutare MSN	Lansare finală
	Ask.com	Lansa
	Nygma	Lansa
	GoodSearch	Lansa
Cauta-ma	Baza
2006	wikiseek	Baza
	Quaero	Baza
	Cautare in timp real	Lansa
	ChaCha	Lansare (beta)
	Guruji.com	Lansare (beta)
2007	wikiseek	Lansa
	Sproose	Lansa
	Wikia Căutare	Lansa
	Blackle.com	Lansa
2008	DuckDuckGo	Lansa
	Tooby	Lansa
	Picolator	Lansa
	Viewzi	Lansa
	Cuil	Lansa
	Boogami	Lansa
	LeapFish	Lansare (beta)
	Forestle	Lansa
	VADLO	Lansa
	Powerset	Lansa
2009	Bing	Lansa
	KAZ.KZ	Lansa
	Yebol	Lansare (beta)
	Mugurdy	Închidere
	cercetaș	Lansa
2010	Cuil	Închidere
	Blekko	Lansare (beta)
	Viewzi	Închidere
2012	WAZZUB	Lansa
2014	Satelit	Lansare (beta)

La începutul dezvoltării internetului, Tim Berners-Lee a menținut o listă de servere web găzduite pe site-ul CERN. Au existat tot mai multe site-uri, iar menținerea manuală a unei astfel de liste a devenit din ce în ce mai dificilă. Site-ul web NCSA avea o secțiune specială „Ce este nou!” (Engleză: Ce este nou!), unde au fost publicate link-uri către site-uri noi.

Primul program de calculator pentru căutarea pe Internet a fost programul Archie(Arhie engleză - arhivă fără litera „c”). A fost creat în 1990 de Alan Emtage, Bill Heelan și J. Peter Deutsch, studenți la informatică la Universitatea McGill din Montreal. Programul a descărcat liste cu toate fișierele de pe toate serverele FTP anonime disponibile și a construit o bază de date care putea fi căutată după numele fișierelor. Cu toate acestea, programul lui Archie nu a indexat conținutul acestor fișiere, deoarece cantitatea de date era atât de mică încât totul putea fi găsit cu ușurință manual.

Dezvoltarea și răspândirea protocolului de rețea Gopher, inventat în 1991 de Mark McCahill la Universitatea din Minnesota, a condus la crearea a două noi programe de căutare, Veronicași Jughead. La fel ca Archie, au căutat nume de fișiere și anteturi stocate în sistemele de index Gopher. Veronica (engleză) Foarte ușor, orientat spre rozătoare, index la nivelul rețelei la arhivele computerizate) au permis căutări de cuvinte cheie pentru majoritatea titlurilor de meniu Gopher în toate înregistrările Gopher. Programul Jughead Excavarea și afișarea ierarhiei universale a lui Jonzy) a preluat informații despre meniu de la anumite servere Gopher. Deși numele motorului de căutare Archie nu avea legătură cu seria de benzi desenate "Archie", cu toate acestea, Veronica și Jughead sunt personaje din aceste benzi desenate.

Până în vara anului 1993, nu exista încă un singur sistem de căutare pe Internet, deși numeroase directoare specializate au fost întreținute manual. Oscar Nierstrasz de la Universitatea din Geneva a scris o serie de scripturi Perl care copiau periodic aceste pagini și le rescriu într-un format standard. Aceasta a devenit baza pentru W3Catalog?!, primul motor de căutare primitiv de pe web, lansat pe 2 septembrie 1993.

Probabil că primul web crawler scris în Perl a fost botul „World Wide Web Wanderer” de Matthew Gray în iunie 1993. Acest robot a creat indexul de căutare „Wandex”. Scopul lui Wanderer a fost să măsoare dimensiunea World Wide Web și să găsească toate paginile web care conțin cuvintele din interogare. În 1993, a apărut al doilea motor de căutare „Aliweb”. Aliweb nu a folosit un crawler, ci se aștepta la notificări de la administratorii site-urilor web despre prezența unui fișier index într-un anumit format pe site-urile lor.

JumpStation, creat în decembrie 1993 de Jonathan Fletcher, a căutat și indexat pagini web folosind un crawler web și a folosit un formular web ca interfață pentru formularea interogărilor de căutare. A fost primul instrument de căutare pe Internet care a combinat cele mai importante trei funcții ale unui motor de căutare (verificare, indexare și căutare în sine). Datorită resurselor informatice limitate ale vremii, indexarea și, prin urmare, căutarea a fost limitată doar la titlurile și titlurile paginilor web găsite de crawler.

Motoarele de căutare au participat la „Dotcom Bubble” de la sfârșitul anilor 1990. Mai multe companii au ajuns pe piață într-un mod spectaculos, generând profituri record în timpul ofertelor publice inițiale. Unii au abandonat piața motoarelor de căutare publice și au început să lucreze doar cu sectorul corporativ, de ex. Lumina Nordului.

Google a adoptat ideea de a vinde cuvinte cheie în 1998, apoi a fost o companie mică care a furnizat un motor de căutare la goto.com. Mișcarea a marcat o schimbare pentru motoarele de căutare de la concurența între ele la a deveni una dintre cele mai profitabile întreprinderi de afaceri de pe Internet. Motoarele de căutare au început să vândă companiile individuale primele locuri în rezultatele căutării.

Motorul de căutare Google a fost proeminent de la începutul anilor 2000. Compania a atins o poziție înaltă datorită rezultatelor bune de căutare folosind algoritmul PageRank. Algoritmul a fost prezentat publicului în articolul „The Anatomy of Search Engine”, scris de Sergey Brin și Larry Page, fondatorii Google. Acest algoritm iterativ clasifică paginile web pe baza unei estimări a numărului de hyperlinkuri către o pagină web, sub ipoteza că paginile „bune” și „importante” au mai multe link-uri decât altele. Interfața Google este concepută într-un stil spartan, unde nu este nimic de prisos, spre deosebire de mulți dintre concurenții săi care au integrat motorul de căutare în portalul web. Motorul de căutare Google a devenit atât de popular încât au apărut sisteme care imita, de exemplu, Căutător de mistere(motor de căutare secret).

Căutând informații în rusă

În 1996, a fost implementată o căutare ținând cont de morfologia rusă pe motorul de căutare Altavista și au fost lansate motoarele de căutare originale rusești Rambler și Aport. La 23 septembrie 1997, motorul de căutare Yandex a fost deschis. Pe 22 mai 2014, Rostelecom a deschis motorul național de căutare Sputnik, care la momentul anului 2015 se află în testare beta. Pe 22 aprilie 2015 a fost lansat un nou serviciu Sputnik. Copii în special pentru copii cu siguranță sporită.

Metodele de analiză a clusterelor și căutarea metadatelor au devenit foarte populare. Dintre mașinile internaționale de acest tip, cea mai cunoscută este "Clusty" companiilor Vivisimo. În 2005, în Rusia, cu sprijinul Universității de Stat din Moscova, a fost lansat motorul de căutare Nigma, care acceptă gruparea automată. În 2006, s-a deschis metamașina rusă Quintura, oferind grupări vizuale sub forma unui nor de etichete. Nygma a experimentat și gruparea vizuală.

Cum funcționează un motor de căutare?

Principalele componente ale unui sistem de căutare: robot de căutare, indexator, motor de căutare.

De obicei, sistemele funcționează în etape. În primul rând, crawler-ul preia conținutul, apoi indexerul generează un index care poate fi căutat și, în sfârșit, motorul de căutare oferă funcționalitatea de a căuta datele indexate. Pentru a actualiza motorul de căutare, acest ciclu de indexare se repetă.

Motoarele de căutare funcționează prin stocarea informațiilor despre multe pagini web, pe care le preiau din paginile HTML. Un robot de căutare sau „crawler” (ing. Crawler) este un program care parcurge automat toate linkurile găsite pe pagină și le evidențiază. Crawler-ul, pe baza link-urilor sau pe baza unei liste predefinite de adrese, caută noi documente necunoscute încă de motorul de căutare. Proprietarul site-ului poate exclude anumite pagini folosind robots.txt, care poate fi folosit pentru a preveni indexarea fișierelor, paginilor sau directoarelor de pe site.

Motorul de căutare analizează conținutul fiecărei pagini pentru o indexare ulterioară. Cuvintele pot fi extrase din titluri, textul paginii sau câmpuri speciale - metaetichete. Un indexator este un modul care analizează o pagină, împărțind-o anterior în părți, folosind proprii algoritmi lexicali și morfologici. Toate elementele unei pagini web sunt izolate și analizate separat. Datele paginii web sunt stocate într-o bază de date index pentru a fi utilizate în interogările ulterioare. Indexul vă permite să găsiți rapid informații pe baza solicitării unui utilizator. O serie de motoare de căutare, cum ar fi Google, stochează întreaga pagină originală sau o parte a acesteia, așa-numita cache, precum și diverse informații despre pagina web. Alte sisteme, cum ar fi AltaVista, stochează fiecare cuvânt din fiecare pagină găsită. Utilizarea unui cache ajută la accelerarea regăsirii informațiilor din paginile deja vizitate. Paginile memorate în cache conțin întotdeauna textul specificat de utilizator în interogarea de căutare. Acest lucru poate fi util în cazul în care pagina web a fost actualizată, adică nu mai conține textul solicitării utilizatorului, iar pagina din cache este încă veche. Această situație este legată de pierderea legăturilor. linkrot) și abordarea Google ușor de utilizat (utilizabilitate). Aceasta implică returnarea fragmentelor de text scurte din memoria cache care conține textul solicitării. Se aplică principiul celei mai mici surprize, de obicei, utilizatorul se așteaptă să vadă cuvintele căutate în textele paginilor primite ( Așteptările utilizatorilor). Pe lângă faptul că utilizarea paginilor din cache accelerează căutările, paginile din cache pot conține informații care nu mai sunt disponibile în altă parte.

Motorul de căutare funcționează cu fișierele de ieșire primite de la indexator. Motorul de căutare acceptă interogările utilizatorilor, le procesează folosind un index și returnează rezultatele căutării.

Când un utilizator introduce o interogare într-un motor de căutare (de obicei folosind cuvinte cheie), sistemul își verifică indexul și returnează o listă cu cele mai relevante pagini web (sortate după un anumit criteriu), de obicei cu un scurt rezumat care conține titlul documentului și uneori părți ale textului. Indexul de căutare este construit folosind o tehnică specială bazată pe informații extrase din paginile web. Din 2007, motorul de căutare Google vă permite să căutați în funcție de timp, creând documentele pe care le căutați (apelând meniul „Instrumente de căutare” și specificând intervalul de timp). Majoritatea motoarelor de căutare acceptă utilizarea operatorilor booleeni ȘI, SAU, NU în interogări, ceea ce vă permite să rafinați sau să extindeți lista de cuvinte cheie căutate. În acest caz, sistemul va căuta cuvinte sau expresii exact așa cum au fost introduse. Unele motoare de căutare au opțiunea căutare aproximativă, în acest caz, utilizatorii extind zona de căutare specificând distanța până la cuvintele cheie. Există, de asemenea căutare conceptuală, care utilizează analiza statistică a utilizării cuvintelor și expresiilor căutate în textele paginilor web. Aceste sisteme permit ca interogările să fie scrise în limbaj natural. Un exemplu de astfel de motor de căutare este site-ul ask com.

Utilitatea unui motor de căutare depinde de relevanța paginilor pe care le găsește. În timp ce milioane de pagini web pot include un anumit cuvânt sau o expresie, unele pot fi mai relevante, populare sau mai autorizate decât altele. Majoritatea motoarelor de căutare folosesc metode de clasare pentru a aduce cele mai „mai bune” rezultate în fruntea listei. Motoarele de căutare decid ce pagini sunt mai relevante și în ce ordine ar trebui afișate rezultatele în moduri diferite. Metodele de căutare, precum Internetul însuși, se schimbă în timp. Așa au apărut două tipuri principale de motoare de căutare: sisteme de cuvinte cheie predefinite și ordonate ierarhic și sisteme în care se generează un index inversat pe baza analizei textului.

Majoritatea motoarelor de căutare sunt întreprinderi comerciale care obțin profit prin publicitate, în unele motoare de căutare, puteți cumpăra primele locuri în rezultatele căutării pentru anumite cuvinte cheie contra cost. Acele motoare de căutare care nu percep bani pentru ordinea de eliberare a rezultatelor fac bani din publicitate contextuală, în timp ce mesajele publicitare corespund solicitării utilizatorului. O astfel de publicitate este afișată pe o pagină cu o listă de rezultate de căutare, iar motoarele de căutare câștigă bani de fiecare dată când un utilizator dă clic pe mesaje publicitare.

Tipuri de motoare de căutare

Există patru tipuri de motoare de căutare: robotizate, propulsate de oameni, hibride și meta.

sisteme care utilizează roboți de căutare

Acestea constau din trei părți: un crawler („bot”, „robot” sau „păianjen”), un index și un software pentru motorul de căutare. Este necesar un crawler pentru a accesa cu crawlere web și pentru a crea liste de pagini web. Un index este o arhivă mare de copii ale paginilor web. Scopul software-ului este de a evalua rezultatele căutării. Datorită faptului că robotul de căutare în acest mecanism explorează în mod constant rețeaua, informațiile sunt mai relevante. Majoritatea motoarelor de căutare moderne sunt sisteme de acest tip.

sisteme gestionate de oameni (directoare de resurse)

Aceste motoare de căutare preiau liste de pagini web. Directorul conține adresa, titlul și o scurtă descriere a site-ului. Directorul de resurse caută doar rezultate din descrierile paginilor trimise acestuia de webmasteri. Avantajul cataloagelor este că toate resursele sunt verificate manual, prin urmare, calitatea conținutului va fi mai bună în comparație cu rezultatele obținute automat de primul tip de sistem. Dar există și un dezavantaj - actualizarea datelor de catalog se face manual și poate rămâne semnificativ în urma situației reale. Clasamentul paginilor nu se poate schimba instantaneu. Exemple de astfel de sisteme includ directorul Yahoo, dmoz și Galaxy.

sisteme hibride

Motoarele de căutare precum Yahoo, Google, MSN combină funcțiile sistemelor folosind roboți de căutare și sisteme operate de oameni.

meta-sisteme

Motoarele de metacăutare combină și clasifică rezultatele mai multor motoare de căutare simultan. Aceste motoare de căutare erau utile atunci când fiecare motor de căutare avea un index unic, iar motoarele de căutare erau mai puțin „inteligente”. Deoarece căutarea s-a îmbunătățit atât de mult acum, nevoia de ele a scăzut. Exemple: MetaCrawlerși MSN Search.

Piața motoarelor de căutare

Google este cel mai popular motor de căutare din lume, cu o cotă de piață de 68,69%. Bing ocupă locul al doilea cu o cotă de 12,26%.

Cele mai populare motoare de căutare din lume:

Sistem de căutare	Cota de piata in iulie 2014	Cota de piata in octombrie 2014	Cota de piata in septembrie 2015
Google	68,69 %	58,01 %	69,24%
Baidu	17,17 %	29,06 %	6,48%
Bing	6,22 %	8,01 %	12,26%
Yahoo!	6,74 %	4,01 %	9,19%
AOL	0,13 %	0,21 %	1,11%
Excita	0,22 %	0,00 %	0,00 %
Cere	0,13 %	0,10 %	0,24%

Asia

În țările din Asia de Est și Rusia, Google nu este cel mai popular motor de căutare. În China, de exemplu, este mai popular motorul de căutare Soso?!.

În Coreea de Sud, propriul portal de căutare Naver este folosit de aproximativ 70% din Yahoo! Japonia și Yahoo! Taiwan este cel mai popular motor de căutare din Japonia și, respectiv, Taiwan.

Rusia și motoarele de căutare în limba rusă

Conform datelor LiveInternet din iunie 2015 privind acoperirea interogărilor de căutare în limba rusă:

Toate limbile:
- Yahoo! (0,1%) și motoarele de căutare deținute de această companie: Inktomi,AltaVista, Alltheweb
vorbitor de engleză și internațional:
- Întreabă-l pe Jeeves(motor Teoma)
Limbă rusă - majoritatea motoarelor de căutare „în limba rusă” indexează și caută texte în multe limbi - ucraineană, belarusă, engleză, tătără și altele. Ele diferă de sistemele „toate limbi” care indexează toate documentele la rând prin aceea că indexează în principal resursele situate în zonele de domeniu în care domină limba rusă sau, în alte moduri, își limitează roboții la site-uri în limba rusă.

Unele dintre motoarele de căutare folosesc algoritmi de căutare externi.

Date cantitative din motorul de căutare Google

Numărul de utilizatori de internet și motoare de căutare și cerințele utilizatorilor pentru aceste sisteme sunt în continuă creștere. Pentru a crește viteza de căutare a informațiilor necesare, motoarele de căutare mari conțin un număr mare de servere. Serverele sunt de obicei grupate în centre de servere (centre de date). Motoarele de căutare populare au centre de server împrăștiate în întreaga lume.

În octombrie 2012, Google a lansat proiectul „Where the Internet Lives”, unde utilizatorilor li se oferă posibilitatea de a explora centrele de date ale companiei.

Motorul de căutare Google știe următoarele despre funcționarea centrelor de date:

Capacitatea totală a tuturor centrelor de date Google, începând cu 2011, a fost estimată la 220 MW.
Când Google a plănuit să deschidă în 2008 un nou complex în Oregon, format din trei clădiri cu o suprafață totală de 6,5 milioane de metri pătrați, Harper's Magazine a estimat că un complex atât de mare ar consuma mai mult de 100 de megawați de energie electrică, comparabil cu energia. consumul unui oraș cu o populație de 300.000 de oameni.
Numărul estimat de servere Google în 2012 este de 1.000.000.
Cheltuielile Google cu centrele de date s-au ridicat la 1,9 miliarde de dolari în 2006 și la 2,4 miliarde de dolari în 2007.

Dimensiunea World Wide Web indexată de Google în decembrie 2014 este de aproximativ 4,36 miliarde de pagini.

Motoare de căutare care țin cont de interdicțiile religioase

Răspândirea globală a internetului și popularitatea tot mai mare a dispozitivelor electronice în lumea arabă și musulmană, în special în țările din Orientul Mijlociu și subcontinentul indian, au contribuit la dezvoltarea motoarelor de căutare locale care țin cont de tradițiile islamice. Astfel de motoare de căutare conțin filtre speciale care ajută utilizatorii să evite vizitarea site-urilor interzise, cum ar fi site-uri cu pornografie, și le permit să utilizeze numai acele site-uri al căror conținut nu contravine credinței islamice. Chiar înainte de luna musulmană Ramadan, în iulie 2013, lumea a fost introdusă Halalgoogling- un sistem care oferă utilizatorilor numai link-uri „corecte” halal, filtrand rezultatele căutării primite de la alte motoare de căutare precum Google și Bing. Cu doi ani mai devreme, în septembrie 2011, motorul de căutare I'mHalal a fost lansat pentru a servi utilizatorilor din Orientul Mijlociu. Cu toate acestea, acest serviciu de căutare a trebuit să fie închis în curând, potrivit proprietarului, din lipsă de finanțare.

Lipsa investițiilor și ritmul lent al difuzării tehnologiei în lumea musulmană au împiedicat progresul și au împiedicat succesul unui motor de căutare islamic serios. Eșecul investițiilor uriașe în proiecte web de stil de viață musulman, dintre care unul a fost Muxlim. El a strâns milioane de dolari de la investitori precum Rite Internet Ventures, iar acum – conform ultimei postări a lui I'mHalal înainte de a se închide – prezintă ideea dubioasă că „următorul Facebook sau Google ar putea veni doar din Orientul Mijlociu”. susține tineretul nostru strălucit”. Cu toate acestea, experții în internetul islamic au fost în afacere de mulți ani, determinând ce este sau nu conform cu Sharia și clasificând site-urile web drept „halal” sau „haram”. Toate motoarele de căutare islamice din trecut și prezent sunt pur și simplu un set de date indexat special sau sunt motoare de căutare majore, cum ar fi Google, Yahoo și Bing, cu un sistem de filtrare folosit pentru a împiedica utilizatorii să acceseze site-uri haram, cum ar fi site-uri despre nuditate, LGBT, jocurile de noroc și orice alte subiecte care sunt considerate anti-islamice.

Alte motoare de căutare bazate pe credință includ Jewogle, versiunea evreiască a Google și SeekFind.org, un site creștin care include filtre pentru a proteja utilizatorii de conținut care le-ar putea submina sau slăbi credința.

Rezultate personale și bule de filtrare

Multe motoare de căutare, cum ar fi Google și Bing, folosesc algoritmi pentru a ghici selectiv ce informații ar dori să vadă un utilizator pe baza activității sale de navigare anterioare. Ca urmare, site-urile web afișează doar informații care sunt în concordanță cu interesele trecute ale utilizatorului. Acest efect se numește „bule de filtru”.

Toate acestea duc la faptul că utilizatorii primesc mult mai puține informații care contrazic punctul lor de vedere și devin izolați intelectual în propria „bulă informațională”. Astfel, „efectul bulei” poate avea consecințe negative pentru formarea opiniei civice.

Prejudecata motorului de căutare

Deși motoarele de căutare sunt programate pentru a clasifica site-urile web pe baza unei combinații de popularitate și relevanță, în realitate, cercetările experimentale indică faptul că diverși factori politici, economici și sociali influențează rezultatele căutării.

Această părtinire poate fi un rezultat direct al proceselor economice și comerciale: companiile care fac publicitate pe un motor de căutare pot deveni mai populare în rezultatele căutării organice pe motor. Eliminarea rezultatelor căutării care nu respectă legile locale este un exemplu de influență a proceselor politice. De exemplu, Google nu va afișa unele site-uri web neonaziste în Franța și Germania, unde negarea Holocaustului este ilegală.

Prejudecățile poate fi, de asemenea, o consecință a proceselor sociale, deoarece algoritmii motoarelor de căutare sunt adesea proiectați pentru a exclude punctele de vedere neformatate în favoarea unor rezultate mai „populare”. Algoritmii de indexare ai marilor motoare de cautare dau prioritate site-urilor americane.

Căutările cu bombă sunt un exemplu de încercare de a manipula rezultatele căutării din motive politice, sociale sau comerciale.

Vezi si

Qwika
Bibliotecă electronică #Liste de biblioteci și motoare de căutare
Bara de instrumente pentru dezvoltatori web

Note

Literatură

Ashmanov I. S., Ivanov A. A. Promovarea site-ului web în motoarele de căutare. - M.: Williams, 2007. - 304 p. - ISBN 978-5-8459-1155-1.
Baykov V.D. Internet. Căutați informații. Promovarea site-ului web. - St.Petersburg. : BHV-Petersburg, 2000. - 288 p. - ISBN 5-8206-0095-9.
Kolisnichenko D. N. Motoarele de căutare și promovarea site-urilor pe Internet. - M.: Dialectică, 2007. - 272 p. - ISBN 978-5-8459-1269-5.

Lande D.V. Căutați cunoștințe pe Internet. - M.: Dialectică, 2005. - 272 p. - ISBN 5-8459-0764-0.

Lande D. V., Snarsky A. A., Bezsudnov I. V. Internet: Navigare în rețele complexe: modele și algoritmi. - M.: Librocom (Editorial URSS), 2009. - 264 p. - ISBN 978-5-397-00497-8.

Chu H., Rosenthal M.

Ele au devenit de multă vreme o parte integrantă a internetului rusesc. Motoarele de căutare sunt acum mecanisme uriașe și complexe care reprezintă nu doar un instrument de căutare a informațiilor, ci și zone tentante pentru afaceri.

Majoritatea utilizatorilor motoarelor de căutare nu s-au gândit niciodată (sau s-au gândit la asta, dar nu au găsit un răspuns) la principiul de funcționare a motoarelor de căutare, schema de procesare a cererilor utilizatorilor, în ce constau aceste sisteme și cum funcționează...

Această clasă de master este concepută pentru a răspunde la întrebarea cum funcționează motoarele de căutare. Totuși, aici nu veți găsi factori care influențează clasarea documentelor. Mai mult, nu ar trebui să contați pe o explicație detaliată a algoritmului Yandex. El, potrivit lui Ilya Segalovici, directorul tehnologiei și dezvoltării motorului de căutare Yandex, poate fi recunoscut „sub tortură” doar de Ilya Segalovici însuși...

2. Conceptul și funcțiile unui motor de căutare

Un sistem de căutare este un complex software și hardware conceput să caute pe internet și să răspundă la o solicitare a utilizatorului, specificată sub forma unei fraze text (interogare de căutare), prin producerea unei liste de legături către surse de informații, în ordinea relevanței ( conform cererii). Cele mai mari motoare de căutare internaționale: "Google", Yahoo , MSN . Pe internetul rusesc, acestea sunt Yandex, Rambler, Aport.

Să aruncăm o privire mai atentă asupra conceptului de interogare de căutare folosind motorul de căutare Yandex ca exemplu. Interogarea de căutare trebuie formulată de utilizator în conformitate cu ceea ce dorește să găsească, cât mai scurt și simplu posibil. Să presupunem că vrem să găsim informații în Yandex despre cum să alegem o mașină. Pentru a face acest lucru, deschideți pagina principală Yandex și introduceți textul interogării de căutare „cum să alegeți o mașină”. În continuare, sarcina noastră se rezumă la deschiderea legăturilor furnizate la cererea noastră către sursele de informații de pe Internet. Cu toate acestea, este foarte posibil să nu găsim informațiile de care avem nevoie. Dacă se întâmplă acest lucru, atunci fie trebuie să reformulați cererea, fie baza de date a motorului de căutare într-adevăr nu are nicio informație relevantă cu privire la solicitarea noastră (acest lucru se poate întâmpla atunci când solicitați interogări foarte „înguste”, cum ar fi, de exemplu, „cum să alegeți o mașină în Arhangelsk”)

Scopul principal al oricărui motor de căutare este de a oferi oamenilor exact informațiile pe care le caută. Și învățați utilizatorii să facă cereri „corecte” către sistem, de exemplu. interogările care respectă principiile de funcționare ale motoarelor de căutare sunt imposibile. Prin urmare, dezvoltatorii creează algoritmi și principii de funcționare pentru motoarele de căutare care ar permite utilizatorilor să găsească informațiile pe care le caută.

Aceasta înseamnă că motorul de căutare trebuie să „gândească” la fel cum gândește utilizatorul atunci când caută informații. Atunci când un utilizator face o solicitare către un motor de căutare, el dorește să găsească ceea ce are nevoie cât mai rapid și ușor posibil. Primind rezultatul, el evaluează performanța sistemului, ghidat de mai mulți parametri de bază. A găsit ceea ce căuta? Dacă nu l-a găsit, de câte ori a trebuit să reformuleze interogarea pentru a găsi ceea ce căuta? Câte informații relevante ar putea găsi? Cât de repede a procesat motorul de căutare interogarea? Cât de convenabil au fost prezentate rezultatele căutării? Rezultatul pe care îl căutați a fost primul sau al sutelea? Cât gunoi inutile a fost găsit împreună cu informații utile? Informațiile necesare vor fi găsite la accesarea unui motor de căutare, să zicem, într-o săptămână, sau într-o lună?

Pentru a satisface toate aceste întrebări cu răspunsuri, dezvoltatorii de motoare de căutare îmbunătățesc constant algoritmii și principiile de căutare, adaugă noi funcții și capabilități și încearcă în toate modurile posibile să accelereze funcționarea sistemului.

3. Principalele caracteristici ale unui motor de căutare

Să descriem principalele caracteristici ale motoarelor de căutare:

Completitudine
Completitudinea este una dintre principalele caracteristici ale unui sistem de căutare, care este raportul dintre numărul de documente găsite prin cerere și numărul total de documente de pe Internet care satisfac cererea dată. De exemplu, dacă există 100 de pagini pe Internet care conțin expresia „cum să alegi o mașină” și doar 60 dintre ele au fost găsite pentru interogarea corespunzătoare, atunci caracterul complet al căutării va fi de 0,6. Evident, cu cât căutarea este mai completă, cu atât este mai puțin probabil ca utilizatorul să nu găsească documentul de care are nevoie, cu condiția ca acesta să existe deloc pe Internet.
Precizie
Precizia este o altă caracteristică principală a unui motor de căutare, care este determinată de gradul în care documentele găsite se potrivesc cu interogarea utilizatorului. De exemplu, dacă interogarea „cum să alegi o mașină” conține 100 de documente, 50 dintre ele conțin expresia „cum să alegi o mașină”, iar restul conțin pur și simplu aceste cuvinte („cum să alegi radioul potrivit și să-l instalezi în o mașină”), atunci precizia căutării este considerată egală cu 50/100 (=0,5). Cu cât căutarea este mai precisă, cu atât utilizatorul va găsi mai repede documentele de care are nevoie, cu atât mai puține tipuri de „gunoi” vor fi găsite printre acestea, cu atât mai rar documentele găsite nu vor corespunde cererii.
Relevanţă
Relevanța este o componentă la fel de importantă a căutării, care se caracterizează prin timpul care trece din momentul în care documentele sunt publicate pe Internet și până când sunt introduse în baza de date a indexului motorului de căutare. De exemplu, a doua zi după ce au apărut știri interesante, un număr mare de utilizatori au apelat la motoarele de căutare cu interogări relevante. Obiectiv, a trecut mai puțin de o zi de la publicarea informațiilor de știri pe această temă, dar principalele documente au fost deja indexate și disponibile pentru căutare, datorită existenței așa-numitei „baze de date rapide” a marilor motoare de căutare, care este actualizat de mai multe ori pe zi.
Viteza de căutare
Viteza de căutare este strâns legată de rezistența la sarcină. De exemplu, conform Rambler Internet Holding LLC, astăzi, în timpul programului de lucru, motorul de căutare Rambler primește aproximativ 60 de solicitări pe secundă. Un astfel de volum de muncă necesită reducerea timpului de procesare a unei cereri individuale. Aici coincid interesele utilizatorului și ale motorului de căutare: vizitatorul dorește să obțină rezultate cât mai repede, iar motorul de căutare trebuie să proceseze solicitarea cât mai repede posibil, pentru a nu încetini calculul interogărilor ulterioare.
Vizibilitate

4. Scurt istoric al dezvoltării motoarelor de căutare

În perioada inițială de dezvoltare a Internetului, numărul utilizatorilor săi a fost mic, iar cantitatea de informații disponibile a fost relativ mică. În cea mai mare parte, doar personalul de cercetare avea acces la internet. În acest moment, sarcina de a căuta informații pe internet nu era la fel de urgentă ca acum.

Una dintre primele modalități de organizare a accesului la resursele informaționale din rețea a fost crearea de directoare deschise de site-uri, link-uri către resurse în care au fost grupate în funcție de subiecte. Primul astfel de proiect a fost site-ul Yahoo.com, care a fost deschis în primăvara anului 1994. După ce numărul de site-uri din catalog a crescut semnificativ, a fost adăugată posibilitatea de a căuta informațiile necesare în catalog. În sensul deplin, nu era încă un motor de căutare, întrucât zona de căutare era limitată doar la resursele prezente în catalog, și nu la toate resursele de pe Internet.

Directoarele de link-uri au fost utilizate pe scară largă în trecut, dar și-au pierdut aproape complet popularitatea în prezent. Deoarece chiar și cataloagele moderne, uriașe ca volum, conțin informații doar despre o parte neglijabilă a Internetului. Cel mai mare director al rețelei DMOZ (numit și Proiectul Open Directory) conține informații despre 5 milioane de resurse, în timp ce baza de date a motorului de căutare Google este formată din peste 8 miliarde de documente.

În 1995, au apărut motoarele de căutare Lycos și AltaVista. Acesta din urmă este lider în domeniul căutării de informații pe Internet de mulți ani.

În 1997, Sergey Brin și Larry Page au creat motorul de căutare Google ca parte a unui proiect de cercetare la Universitatea Stanford. Google este în prezent cel mai popular motor de căutare din lume!

În septembrie 1997, motorul de căutare Yandex, care este cel mai popular de pe internetul în limba rusă, a fost anunțat oficial.

În prezent, există trei motoare de căutare principale (internaționale) - Google, Yahoo și, care au propriile baze de date și algoritmi de căutare. Majoritatea celorlalte motoare de căutare (dintre care există un număr mare) folosesc într-o formă sau alta rezultatele celor trei enumerate. De exemplu, căutarea AOL (search.aol.com) utilizează baza de date Google, în timp ce AltaVista, Lycos și AllTheWeb folosesc baza de date Yahoo.

5. Componența și principiile de funcționare a sistemului de căutare

În Rusia, principalul motor de căutare este Yandex, urmat de Rambler.ru, Google.ru, Aport.ru, Mail.ru. Mai mult, în acest moment, Mail.ru utilizează motorul de căutare și baza de date Yandex.

Aproape toate motoarele de căutare majore au propria lor structură, diferită de celelalte. Cu toate acestea, este posibil să se identifice principalele componente comune tuturor motoarelor de căutare. Diferențele de structură pot fi doar sub forma implementării mecanismelor de interacțiune a acestor componente.

Modul de indexare

Modulul de indexare este format din trei programe auxiliare (roboți):

Spider este un program conceput pentru a descărca pagini web. Păianjenul descarcă pagina și preia toate linkurile interne de pe pagina respectivă. Codul html al fiecărei pagini este descărcat. Roboții folosesc protocoale HTTP pentru a descărca pagini. Păianjenul funcționează după cum urmează. Robotul trimite cererea „get/path/document” și alte comenzi de solicitare HTTP către server. Ca răspuns, robotul primește un flux de text care conține informații de serviciu și documentul în sine.

Adresa URL a paginii
data la care pagina a fost descărcată
Antet http pentru răspunsul serverului
corpul paginii (cod html)

Crawler („călător”) este un program care urmărește automat toate linkurile găsite pe pagină. Selectează toate linkurile prezente pe pagină. Sarcina sa este de a determina unde ar trebui să meargă păianjenul, pe baza linkurilor sau a unei liste predeterminate de adrese. Crawler, urmând linkurile găsite, caută documente noi care sunt încă necunoscute motorului de căutare.

Indexer (robot indexer) este un program care analizează paginile web descărcate de păianjeni. Indexatorul parsează pagina în părțile sale componente și le analizează folosind proprii algoritmi lexicali și morfologici. Sunt analizate diferite elemente ale paginii, cum ar fi text, titluri, link-uri, caracteristici structurale și de stil, etichete HTML pentru servicii speciale etc.

Astfel, modulul de indexare vă permite să accesați cu crawlere un anumit set de resurse folosind link-uri, să descărcați pagini întâlnite, să extrageți link-uri către pagini noi din documentele primite și să efectuați o analiză completă a acestor documente.

Bază de date

O bază de date, sau index al motorului de căutare, este un sistem de stocare a datelor, o matrice de informații în care sunt stocați parametrii special convertiți ai tuturor documentelor descărcate și procesate de modulul de indexare.

Server de căutare

Serverul de căutare este cel mai important element al întregului sistem, deoarece calitatea și viteza căutării depind direct de algoritmii care stau la baza funcționării acestuia.

Serverul de căutare funcționează după cum urmează:

Solicitarea primită de la utilizator este supusă analizei morfologice. Se generează mediul informațional al fiecărui document conținut în baza de date (care va fi ulterior afișat în formular, adică informații text corespunzătoare solicitării din pagina cu rezultatele căutării).
Datele primite sunt transmise ca parametri de intrare la un modul special de clasare. Datele sunt prelucrate pentru toate documentele, drept urmare fiecare document are propriul rating care caracterizează relevanța interogării introduse de utilizator și diferitele componente ale acestui document stocate în indexul motorului de căutare.
În funcție de alegerea utilizatorului, această evaluare poate fi ajustată prin condiții suplimentare (de exemplu, așa-numita „căutare avansată”).
În continuare, se generează un fragment, adică pentru fiecare document găsit, titlul, un scurt rezumat care se potrivește cel mai bine interogării și un link către documentul în sine sunt extrase din tabelul de documente, iar cuvintele găsite sunt evidențiate.
Rezultatele căutării rezultate sunt transmise utilizatorului sub forma unei SERP (Search Engine Result Page) – o pagină cu rezultatele căutării.

După cum puteți vedea, toate aceste componente sunt strâns legate între ele și funcționează în interacțiune, formând un mecanism clar, destul de complex pentru funcționarea sistemului de căutare, care necesită cantități uriașe de resurse.

6. Concluzie

Acum să rezumam toate cele de mai sus.

Scopul principal al oricărui motor de căutare este de a oferi oamenilor exact informațiile pe care le caută.
Principalele caracteristici ale motoarelor de căutare:
1. Completitudine
2. Precizie
3. Relevanţă
4. Viteza de căutare
5. Vizibilitate
Primul motor de căutare cu drepturi depline a fost proiectul WebCrawler, publicat în 1994.
Sistemul de căutare include următoarele componente:
1. Modul de indexare
2. Bază de date
3. Server de căutare

Sperăm că clasa noastră de master vă va permite să vă familiarizați mai bine cu conceptul de motor de căutare și să înțelegeți mai bine principalele funcții, caracteristici și principii de funcționare ale motoarelor de căutare.

Cel mai popular serviciu web al timpului nostru este motorul de căutare. Totul este de înțeles aici, pentru că vremurile în care reprezentanții primilor internauți puteau observa produse noi pe Internet au trecut de mult.

Apar și se acumulează atât de multe informații încât a devenit foarte greu pentru o persoană să găsească exact ceea ce are nevoie. Imaginați-vă cum ar fi să căutați pe Internet dacă utilizatorul obișnuit ar trebui să caute informații de la Dumnezeu știe unde. Pur și simplu nu înțelegi unde, pentru că nu vei găsi prea multe informații cu o căutare manuală.

Motor de căutare, ce este?

Este bine dacă utilizatorul cunoaște deja site-uri care pot avea informațiile necesare, dar ce să facă altfel? Pentru a ușura viața unei persoane în găsirea informațiilor necesare pe Internet, au fost inventate motoarele de căutare sau pur și simplu motoarele de căutare. Motorul de căutare îndeplinește o funcție foarte importantă, fără de care Internetul nu ar fi la fel cum suntem obișnuiți să-l vedem - aceasta este căutarea de informații pe Internet.

Sistem de căutare- acesta este un site web special sau cu alte cuvinte un site care oferă utilizatorilor, la cererea acestora, hyperlinkuri către pagini ale site-urilor care răspund la o anumită interogare de căutare.

Ca să fiu puțin mai precis, este o căutare de informații pe Internet, realizată datorită unui set funcțional software și hardware și a unei interfețe web pentru interacțiunea cu utilizatorii.

Pentru interacțiunea umană cu motorul de căutare, a fost creată o interfață web, adică un shell vizibil și ușor de înțeles. Această abordare a dezvoltatorilor de motoare de căutare face căutarea mai ușoară pentru mulți oameni. De regulă, căutările sunt efectuate folosind motoarele de căutare pe Internet, dar există și sisteme de căutare pentru servere FTP, anumite tipuri de bunuri pe World Wide Web sau informații de știri sau alte direcții de căutare.

Căutarea poate fi efectuată nu numai prin conținutul text al site-urilor, ci și prin alte tipuri de informații pe care o persoană le poate căuta: imagini, videoclipuri, fișiere de sunet etc.

Cum caută un motor de căutare?

Căutarea pe Internet în sine, la fel ca și navigarea pe site-uri web, este posibilă folosind un browser de internet. Numai după ce utilizatorul și-a specificat interogarea în bara de căutare, căutarea în sine este efectuată direct.

Orice sistem de căutare conține o parte software pe care se bazează întregul mecanism de căutare se numește motor de căutare - acesta este un pachet software care oferă posibilitatea de a căuta informații. După ce contactează un motor de căutare, o persoană generează o interogare de căutare și o introduce în bara de căutare, motorul de căutare generează o pagină cu o listă de rezultate de căutare, cele mai relevante, în opinia motorului de căutare, sunt situate mai sus.

Relevanța căutării - căutarea celor mai relevante materiale la cererea utilizatorului și plasarea de hyperlinkuri pe acestea în pagina cu rezultatele căutării cu rezultate mai precise deasupra altora. Distribuția în sine a rezultatelor se numește clasare site.

Deci, cum își pregătește un motor de căutare materialele pentru publicare și cum caută însuși motorul de căutare pentru informații? Colectarea informațiilor în rețea este facilitată de un robot sau bot unic pentru fiecare motor de căutare, care are și o serie de alte sinonime, cum ar fi crawler sau spider, iar activitatea sistemului de căutare în sine poate fi împărțită în trei etape:

Prima etapă a funcționării unui motor de căutare include scanarea site-urilor din rețeaua globală și colectarea de copii ale paginilor web pe propriile servere. Acest lucru creează o cantitate imensă de informații care nu au fost încă procesate și nu sunt potrivite pentru rezultatele căutării.

A doua etapă a muncii motorului de căutare se rezumă la punerea în ordine a informațiilor primite anterior, în prima etapă, de pe site-uri. Sortarea este realizată în așa fel încât în cel mai mic timp să fie favorabilă căutării de foarte înaltă calitate pe care utilizatorii se așteaptă de fapt de la un motor de căutare. Etapa se numește indexare, ceea ce înseamnă că paginile sunt deja pregătite pentru emitere, iar baza de date actuală va fi considerată un index.

Este tocmai a treia etapă care determină rezultatele căutării, după primirea unei cereri de la clientul său, pe baza cuvintelor cheie sau a cuvintelor cheie apropiate specificate în cerere. Acest lucru facilitează selectarea informațiilor cele mai relevante pentru cerere și livrarea ulterioară a acesteia. Întrucât există o mulțime, o mulțime de informații, motorul de căutare realizează clasarea în conformitate cu algoritmii săi.
Cel mai bun motor de căutare este considerat a fi cel care poate furniza materialul care răspunde cel mai corect solicitării utilizatorului. Dar și aici pot exista rezultate care au fost influențate de persoane interesate să își promoveze site-urile, deși nu întotdeauna, apar adesea în rezultatele căutării, dar nu pentru mult timp;

Deși lideri mondiali au fost deja identificați în multe regiuni, motoarele de căutare continuă să-și dezvolte căutarea de înaltă calitate. Cu cât o pot oferi o căutare mai bună, cu atât mai mulți oameni o vor folosi.

Cum se utilizează motorul de căutare?

Ce este un motor de căutare și cum funcționează este deja clar, dar cum să-l folosești corect? Majoritatea site-urilor au întotdeauna o bară de căutare, iar lângă ea există un buton Găsiți sau Căutați. O interogare este introdusă în linia de căutare, după care trebuie să apăsați butonul de căutare sau, așa cum se întâmplă mai des, apăsați tasta Enter de pe tastatură și în câteva secunde primiți rezultatul interogării în formular a unei liste.

Dar nu este întotdeauna posibil să obțineți răspunsul corect la o interogare de căutare prima dată. Pentru a vă asigura că căutarea a ceea ce doriți nu devine dureroasă, trebuie să compuneți corect interogarea de căutare și să urmați recomandările descrise mai jos.

Compunem corect interogarea de căutare

Următoarele vor oferi sfaturi pentru utilizarea motorului de căutare. Respectarea unor trucuri și reguli atunci când căutați informații într-un motor de căutare va face posibilă obținerea rezultatului dorit mult mai rapid. Urmați aceste instrucțiuni:

Ortografia corectă a cuvintelor asigură numărul maxim de potriviri cu obiectul informațional dorit (Deși motoarele de căutare moderne au învățat deja să corecteze greșelile de ortografie, acest sfat nu trebuie neglijat).
Folosind sinonime în interogarea dvs., puteți acoperi o gamă mai largă de căutare.
Uneori, modificarea unui cuvânt din textul interogării poate aduce rezultate mai bune.
Aduceți specificitate interogării dvs., utilizați aparițiile exacte ale expresiilor care ar trebui să definească esența principală a căutării.
Experimentați cu cuvinte cheie. Folosirea cuvintelor cheie și a expresiilor poate ajuta la identificarea punctului principal, iar motorul de căutare va returna rezultate mai relevante.

Deci, ceea ce este un motor de căutare nu este altceva decât o oportunitate de a găsi informații de interes și de a le folosi, de obicei, complet gratuit, de a învăța ceva, de a înțelege ceva sau de a trage concluzia corectă pentru tine. Mulți oameni nu își mai pot imagina viața fără căutare vocală, în care nu este nevoie să tastați text, trebuie doar să spuneți cererea dvs., iar dispozitivul de introducere a informațiilor de aici este un microfon. Toate acestea indică dezvoltarea constantă a tehnologiilor de căutare pe Internet și necesitatea acestora.

Subiectul 3.1.1 Căutarea informațiilor pe Internet

Internetul crește într-un ritm foarte rapid, așa că găsirea informațiilor de care aveți nevoie între sute de miliarde de pagini Web și sute de milioane de fișiere devine din ce în ce mai dificilă. Pentru a căuta informații, sunt folosite motoare de căutare speciale, care conțin informații actualizate constant despre locația paginilor Web și a fișierelor de pe sute de milioane de servere de Internet.

Când căutați informații, este necesar să răspundeți la trei întrebări: ce să căutați, adică ce surse de informații, unde să căutați (locațiile acestor surse) și cum să căutați (ce instrumente să folosiți pentru aceasta).

Care sunt principalele surse de informații disponibile pe internet? Acestea sunt documente WWW, articole din grupuri de știri și liste de corespondență, fișiere din biblioteci de fișiere, directoare cu informații despre adrese ale organizațiilor și persoanelor (e-mail, adresă, telefon), articole din baze de date tematice, enciclopedii.

Unde se află aceste surse de informare? Acestea sunt resurse de Internet atât de populare, cum ar fi WWW, grupuri de știri, liste de corespondență și servere FTP.

Desigur, puteți căuta manual sursele necesare de informare, puteți afla adrese din reviste de specialitate de informatică și internet și puteți folosi directoare speciale de hârtie cu adrese clasificate pe categorii.

Cu toate acestea, pentru un astfel de spațiu în schimbare precum Internetul, este necesar să învățați cum să folosiți instrumente speciale, al căror scop este de a colecta date despre resursele de informații și de a oferi utilizatorilor un serviciu de căutare rapidă.

IRS (sistem de recuperare a informațiilor) este un sistem care asigură căutarea și selecția datelor necesare într-o bază de date specială cu descrieri ale surselor de informații (index) bazate pe limbajul de regăsire a informațiilor și regulile de căutare corespunzătoare.

Sarcina principală a oricărui sistem informațional este de a căuta informații relevante pentru nevoile de informații ale utilizatorului. Este foarte important să nu pierdeți nimic în urma căutării, adică să găsiți toate documentele legate de cerere și să nu găsiți nimic de prisos. Prin urmare, se introduce o caracteristică calitativă a procedurii de căutare - relevanța.

Relevanța este corespondența rezultatelor căutării cu interogarea formulată.

Serverele de căutare pe Internet pot fi împărțite în două grupuri:

– motoare de căutare de uz general;

– motoare de căutare specializate.

Motoare de căutare de uz general

Interfața motorului de căutare de uz general conține un câmp de căutare și o listă de secțiuni de director. Se disting următoarele instrumente de căutare pentru WWW: directoare, motoare de căutare, metamotoare de căutare.

Catalog

Catalog– un sistem de căutare cu o listă de adnotări clasificate pe subiecte cu link-uri către resurse web. Clasificarea este de obicei făcută de oameni.

Căutarea în catalog este foarte convenabilă și se realizează prin clarificarea secvenţială a subiectelor. Cu toate acestea, directoarele acceptă posibilitatea de a căuta rapid o anumită categorie sau o pagină folosind cuvinte cheie folosind un motor de căutare local. Baza de date cu linkuri a directorului (index) are de obicei un volum limitat și este completată manual de personalul directorului. Unele directoare folosesc actualizarea automată a indexului.

Rezultatul căutării în catalog este prezentat sub forma unei liste constând dintr-o scurtă descriere (adnotare) a documentelor cu un link hipertext către sursă.

Adrese de directoare populare:

1 Cataloage străine:

a) Yahoo – www.yahoo.com;

b) Look Smart – www.looksmart.com;

c) Magellan – www.mckinley.com;

d) eiNET – www.einet.net.

2 cataloage rusesti:

a) Aport (Constellation Internet) – www.aport.ru;

b) AU – www.au.ru;

c) Weblist – www.weblist.ru;

d) Melc – www.ulitka.ru.

Într-o bază de date a unui motor de căutare, site-urile Web sunt grupate în directoare de subiecte ierarhice, care sunt analoge cu un director de subiecte dintr-o bibliotecă.

Secțiunile tematice de nivel superior, de exemplu: Internet, Calculatoare, Știință și Educație și așa mai departe, conțin subdirectoare. De exemplu, directorul de Internet poate conține subdirectoare Căutare, Mail și altele.

Căutarea de informații în catalog se reduce la selectarea unui catalog anume, după care utilizatorului i se va prezenta o listă de link-uri către adresele de internet ale celor mai vizitate și mai informative site-uri Web. Fiecare link este de obicei adnotat, adică conține un scurt comentariu asupra conținutului documentului.

Cel mai complet catalog tematic ierarhic pe mai multe niveluri al resurselor de internet în limba rusă este disponibil în sistemul de căutare Aport (www.aport.ru). Catalogul conține un rezumat detaliat al conținutului site-urilor Web și o indicație a locației lor geografice.

Motor de căutare

Motor de căutare– un sistem de căutare cu o bază de date generată de robot care conține informații despre resursele informaționale.

O caracteristică distinctivă a motoarelor de căutare este faptul că baza de date care conține informații despre pagini Web, articole Usenet și așa mai departe, este generată de un program robot.

O căutare într-un astfel de sistem se efectuează conform unei interogări compilate de utilizator, constând dintr-un set de cuvinte cheie sau o expresie cuprinsă între ghilimele. Indexul este generat și ținut la zi de roboții de indexare. De exemplu, pentru a căuta în sine motoarele de căutare pe Internet, puteți introduce cuvintele cheie „Sistem rusesc de căutare a informațiilor pe internet” în câmpul de căutare.

La ceva timp după trimiterea cererii, motorul de căutare va returna o listă de adrese de Internet ale documentelor în care au fost găsite cuvintele cheie specificate. Descrierea unui document conține cel mai adesea primele câteva propoziții sau fragmente din textul documentului cu cuvinte cheie evidențiate. De regulă, este indicată data actualizării (verificarea) a documentului, dimensiunea acestuia în kiloocteți, unele sisteme determină limba documentului și codificarea acestuia (pentru documentele în limba rusă);

Pentru a vizualiza acest document într-un browser, pur și simplu activați linkul care indică către acesta.

Dacă cuvintele cheie au fost alese prost, atunci lista de adrese de document poate fi prea mare (poate conține zeci sau chiar sute de mii de link-uri). Pentru a reduce lista, puteți introduce cuvinte cheie suplimentare în câmpul de căutare sau utilizați directorul motorului de căutare.

Multe motoare de căutare vă permit să căutați în documentele găsite și vă puteți rafina interogarea introducând termeni suplimentari. Dacă inteligența sistemului este mare, vi se poate oferi serviciul de căutare a documentelor similare. Pentru a face acest lucru, selectați un document care vă place în mod deosebit și îl îndreptați către sistem ca model de urmat. Dar adesea această funcție nu funcționează conform așteptărilor. Unele motoare de căutare vă permit să resortați rezultatele. Pentru a economisi timp, puteți salva rezultatele căutării ca fișier pe unitatea dvs. locală pentru studiu offline ulterior.

Adresele celor mai populare motoare de căutare din străinătate și din Rusia:

1 Motoare de căutare străine:

a) Google – www.google.com;

b) Alta Vista – www.altavista.com;

c) Excite – www.excite.com;

d) HotBot – www.hotbot.com;

e) Northern Light – www.northernlight.com;

f) Go (Infoseek) – www.go.com (infoseek.com);

g) Lycos – www.lycos.com;

h) Rapid – www.alltheweb.com.

2 motoare de căutare rusești:

a) Yandex – www.yandex.ru (sau www.ya.ru);

b) Rambler – www.rambler.ru;

c) Aport – www.aport.ru.

Unul dintre cele mai complete și puternice motoare de căutare este Google (www.google.ru), a cărui bază de date stochează 8 miliarde de pagini Web și în fiecare lună programele robot adaugă 5 milioane de pagini noi. În Runet (partea rusă a internetului), bazele de date extinse care conțin 200 de milioane de documente fiecare au motoarele de căutare Yandex (www.yandex.ru) și Rambler (www.rambler.ru).

Metamotor de căutare

Vă rugăm să rețineți că diferite motoare de căutare descriu un număr diferit de surse de informații pe Internet. Prin urmare, nu vă puteți limita căutarea doar la unul dintre motoarele de căutare specificate. Acum să ne familiarizăm cu instrumentele de căutare care nu își creează propriul index, dar pot folosi capacitățile altor motoare de căutare. Acestea sunt metamotoare de căutare (servicii de căutare) – sisteme care pot trimite interogări utilizatorilor către mai multe servere de căutare simultan, apoi combină rezultatele și le prezintă utilizatorului sub forma unui document cu link-uri.

Motoarele de metacăutare nu au propria lor bază de date. Sunt programe care preiau cererea unui utilizator, procesează acea cerere folosind algoritmi de inteligență artificială și apoi motoarele de căutare. Adică sunt motoare de căutare ale motoarelor de căutare. Avantajul acestor sisteme este capacitatea lor de a sintetiza intenția de căutare, mai degrabă decât doar căutarea conform unei interogări verbale. Rezultatele unei astfel de căutări sunt clare pentru utilizator și se potrivesc cel mai bine cu ceea ce caută. Site-urile de metacăutare oferă un număr mare de opțiuni, urmărind să fie utile oricărui utilizator. Există diferite versiuni de metamotoare de căutare care accesează constant internetul pentru informații care se potrivesc criteriilor dvs. de căutare.

Când sistemul găsește informații noi, vă avertizează sau le descarcă automat. Dacă doriți să găsiți site-uri dedicate problemelor generale, călătoriilor și așa mai departe, atunci motoarele de metacăutare vă vor permite să accesați rapid informațiile de care aveți nevoie. De asemenea, oferă acces direct la site-uri cu informații specifice, cum ar fi directoare telefonice, ghiduri de călătorie și site-uri guvernamentale. Motoarele de metacăutare au de obicei un timp de rulare puțin mai lung, deoarece interogează alte motoare de căutare. Este logic să apelați la ele atunci când motoarele de căutare convenționale nu au dat rezultate.

Adresele motoarelor de metacăutare binecunoscute:

– MetaCrawler – www.metacrawler.com;

– SavvySearch – www.savvysearch.com