Instrumente de căutare. Scopul ultimei etape este rezolvarea finală a problemei de căutare. De asemenea, include construirea instrumentelor necesare pentru a o rezolva. selectia si evaluarea calitatii motoarelor de cautare

Tutorial video: Cum se creează interogări în Microsoft Access în 10 minute

Lectura: Utilizarea instrumentelor pentru motoarele de căutare (generare de interogări)

Cele mai importante funcții atunci când lucrați cu baze de date sunt filtrul de informații, căutarea și interogarea.


Triere este procesul de ordonare a informațiilor în funcție de un anumit atribut. Există soiuri crescătoare și descrescătoare. Dacă baza de date are informații numerice, atunci clasamentul este folosit ca sortare, iar dacă este vorba de informații textuale, atunci se folosește sortarea alfabetică.


Când se ia în considerare sortarea după sistemele de gestionare a bazelor de date în MS Access, sortarea se realizează într-un singur câmp. Dacă se folosește o nouă sortare, atunci rezultatele sale anterioare se pierd. Dacă sortarea este imbricată, atunci se poate face folosind o interogare.


Filtru este selecția informațiilor solicitate de utilizator. Puteți seta condiții complexe de selecție.

Pentru a găsi unele date, puteți folosi caractere speciale numite masca:


* – înseamnă că poate fi selectat orice număr de caractere.

? - în locul acestui caracter, poate exista orice caracter care poate fi folosit.

# - în locul acestui caracter poate fi folosit orice număr.

- orice caractere între paranteze.

- – orice caracter corespunzător intervalului selectat.

! – orice caracter, cu excepția celor cuprinse între paranteze drepte.

Acest filtru după semne poate fi folosit pentru întregul tabel, sau pentru o parte din datele deja selectate în funcție de anumite criterii.

Cerere- această funcție este la scară largă și poate include atât sortarea, cât și filtrarea. Această caracteristică vă permite să selectați date în mai multe câmpuri și tabele. Puteți crea o bibliotecă de interogări care este salvată pentru utilizare ulterioară. Există un limbaj special de interogare SQL - structurat.

IPS (sistem de recuperare a informațiilor) este un sistem care asigură căutarea și selectarea datelor necesare într-o bază de date specială cu descrieri ale surselor de informații (index) pe baza limbajului de regăsire a informațiilor și a regulilor de căutare corespunzătoare.

Relevanţă este corespondența rezultatelor căutării cu interogarea formulată.

Pertinenţă(în regăsirea informațiilor) - conformitatea informațiilor primite cu nevoile de informații ale utilizatorului.

Pertinența este măsurată prin gradul de corespondență dintre așteptările utilizatorilor și rezultatele căutării (comparați cu relevanța), care este definită ca raportul dintre cantitatea de informații utile utilizatorului și cantitatea totală de informații primite de motorul de căutare.

Atingerea unui grad ridicat de pertinență este principalul domeniu de competiție pentru motoarele de căutare moderne. Pentru o satisfacție maximă nevoi de informare a utilizatorilor, teorii și metode ale rețelelor semantice, analiza conținutului și analiza textului profund (Text mining, minarea textului).

Folosit pentru a căuta informații pe web adresa resursei (Engleză . Uniformăresursălocalizator (URL) abordare), conținând numele protocolului prin care trebuie să accesați informațiile necesare, adresa serverului și numele fișierului de pe acest server (Fig. 2).

Orez. 2. Un exemplu de adresă de resursă

Sistem de căutare- un complex software și hardware cu o interfață web care oferă posibilitatea de a căuta informații pe Internet. Un motor de căutare înseamnă de obicei un site care găzduiește interfața sistemului. Partea software a unui motor de căutare este un motor de căutare (motor de căutare) - un set de programe care oferă funcționalitatea unui motor de căutare și este de obicei un secret comercial al companiei de dezvoltare a motoarelor de căutare.

Căutarea de informații pe Internet se realizează cu ajutorul unor programe speciale care procesează cereri - sisteme de recuperare a informațiilor (IPS). Există mai multe modele pe care se bazează motoarele de căutare, dar din punct de vedere istoric, două modele au câștigat cea mai mare popularitate - aceasta este directoare de căutare și indecși de căutare.

Cataloagele de căutare sunt aranjate pe același principiu ca și cataloagele de subiecte ale bibliotecilor mari. Ele reprezintă, de obicei, meniuri hipertext ierarhice cu articole și sub-articole care definesc subiectul site-urilor ale căror adrese sunt cuprinse în acest director, cu o rafinare treptată a subiectului de la nivel la nivel. Directoarele de căutare sunt create manual. Editorii cu înaltă calificare răsfoiesc personal spațiul de informații WWW, selectează ceea ce consideră că este de interes public și îl catalogează.

Principala problemă a directoarelor de căutare este acoperirea extrem de scăzută a resurselor WWW. Pentru a multiplica rata de acoperire a resurselor Web, este necesar să excludem factorul uman din procesul de completare a bazei de date a motorului de căutare - munca trebuie să fie automatizată.

Se realizează catalogarea automată a resurselor Web și satisfacerea solicitărilor clienților indici de căutare. Lucrarea indexului de căutare poate fi împărțită condiționat în trei etape:

    colectarea bazei de date primare. Pentru a scana spațiul de informații WWW, se folosesc programe de agenți speciali - viermi, a căror sarcină este să caute resurse necunoscute și să le înregistreze în baza de date;

    indexarea bazei de date - prelucrare primară în vederea optimizării căutării. La etapa de indexare se creează documente specializate - indicii de căutare propriu-zis;

    rafinarea listei rezultate. În această etapă, este creată o listă de link-uri, care vor fi transmise utilizatorului ca rezultat. Rafinarea listei rezultate constă în filtrarea și clasarea rezultatelor căutării.

Filtrarea se referă la filtrarea linkurilor care nu sunt adecvate pentru a le oferi utilizatorului (de exemplu, verificarea dublurilor). Clasamentul constă în crearea unei ordini speciale de prezentare a listei rezultate (după numărul de cuvinte cheie, cuvinte înrudite etc.).

Sarcina principală a oricărui IS este să caute informații relevante pentru nevoile de informații ale utilizatorului. Este foarte important să nu pierdeți nimic în urma căutării, adică să găsiți toate documentele legate de cerere și să nu găsiți nimic de prisos. Prin urmare, se introduce o caracteristică calitativă a procedurii de căutare - relevanța.

Relevanţăeste corespondența rezultatelor căutării cu interogarea formulată.

1 Instrumente de căutare

Instrumentele de căutare sunt software speciale, al căror scop principal este de a oferi utilizatorilor de internet cea mai optimă și de înaltă calitate de căutare a informațiilor. Instrumentele de căutare sunt găzduite pe servere web speciale, fiecare dintre ele îndeplinește o funcție specifică:

Motoarele de căutare web sunt servere cu o bază de date uriașă de URL-uri care accesează automat paginile WWW la toate aceste adrese, examinează conținutul acestor pagini, formează și scriu cuvinte cheie din pagini în baza lor de date (pagini index).

Mai mult, roboții motoarelor de căutare urmăresc legăturile pe care le întâlnesc pe pagini și le reindexează. Deoarece aproape orice pagină WWW are multe link-uri către alte pagini, cu o astfel de muncă, motorul de căutare în rezultatul final poate ocoli, teoretic, toate site-urile de pe Internet.

Acest tip de instrumente de căutare este cel mai faimos și popular printre toți utilizatorii de internet. Toată lumea cunoaște numele motoarelor de căutare web cunoscute (motoare de căutare) - Yandex, Rambler, Aport.

Activitatea motoarelor de căutare web se rezumă la următoarele:

    Analiza paginilor web și introducerea rezultatelor analizei la unul sau altul nivel al bazei de date a serverului de căutare.

    Căutați informații la cererea utilizatorului.

    Furnizarea unei interfețe ușor de utilizat pentru căutarea informațiilor și vizualizarea rezultatului căutării de către utilizator.

Metodele de lucru folosite atunci când lucrați cu aceste sau alte instrumente de căutare sunt aproape aceleași. La descrierea acestora se folosesc următoarele concepte:

    Interfața instrumentului de căutare este prezentată ca o pagină cu hyperlinkuri, un șir de interogare (șir de căutare) și instrumente de activare a interogărilor.

    Indexul motorului de căutare este o bază de informații care conține rezultatul analizei paginilor web, întocmit după anumite reguli.

    O interogare este un cuvânt cheie sau o expresie pe care utilizatorul o introduce în bara de căutare. Caracterele speciale ("", ~), simbolurile matematice (*, +, ?) sunt folosite pentru a forma diferite interogări.

Schema de căutare a informațiilor este simplă. Utilizatorul tastează o frază cheie și activează căutarea, primind astfel o selecție de documente în funcție de cererea formulată (dată). Această listă de documente este clasificată în funcție de anumite criterii, astfel încât în ​​fruntea listei se află acele documente care se potrivesc cel mai mult cu interogarea utilizatorului. Fiecare dintre instrumentele de căutare utilizează criterii diferite pentru ierarhizarea documentelor, atât în ​​analiza rezultatelor căutării, cât și în formarea indexului (completarea bazei de date index a paginilor web).

În Rusia, cei mai mari și mai populari indici de căutare sunt:

    Yandex (www.yandex.ru)

    Rambler (www.rambler.ru)

    Google (www.google.ru)

    „Aport2000” (www.aport.ru)

2 Motoare de căutare

Tehnologia de căutare generalizată constă din următorii pași:

    Utilizatorul face o cerere

    Sistemul caută documente (sau imaginile de căutare ale acestora)

    Utilizatorul primește rezultatul (detalii document)

    Utilizatorul rafinează sau reformează interogarea

    Se organizează o nouă căutare...

În general, motoarele de căutare acceptă două moduri: modul de căutare simplă și modul de căutare avansată. Să luăm în considerare posibilitățile generalizate.

Formarea unei interogări în modul de căutare simplă. Puteți introduce pur și simplu unul sau mai multe cuvinte separate printr-un spațiu; căutarea cuvintelor cu toate terminațiile posibile este modelată de simbolul * la sfârșitul cuvântului. Multe sisteme vă permit să căutați expresii sau expresii prin includerea lor între ghilimele. Este posibil să includeți sau să excludeți anumite cuvinte.

Principala problemă a căutării unei interogări compuse primitiv (sub forma unei enumerări de cuvinte cheie) este că motorul de căutare va găsi toate paginile pe care cuvintele specificate apar în orice parte a documentului. De regulă, numărul de pagini găsite va fi prea mare.

Pentru a îmbunătăți calitatea căutării în modul de căutare simplă, puteți utiliza operatori și operatori logici care vă permit să limitați domeniul de aplicare al căutării, precum și să selectați o anumită categorie de documente din lista furnizată.

Multe motoare de căutare includ operatori speciali în limbajul lor de interogare care vă permit să căutați în anumite zone ale unui document, cum ar fi titlul acestuia, sau să căutați un document după o parte cunoscută a adresei acestuia.

Modul de interogare avansat sau detaliatîn diferite sisteme este implementat individual, dar cel mai adesea este o formă în care operatorii și elementele cheie menționate sunt implementate prin simpla setare a steagurilor corespunzătoare sau selectând parametrii din listă.

Mai jos este un exemplu de informații din secțiune Ajutor Motor de căutare Yandex: fereastra de căutare avansată, limba de interogare, căutare în găsit.

Căutare în găsiteÎn cazul în care un în Rezultatul interogării Yandex găsite multe documente, dar pe un subiect mai larg decât doriți, puteți scurta această listă prin rafinarea interogării. O altă opțiune este să activați caseta de selectare în găsite în formularul de căutare, setați cuvinte cheie suplimentare, iar următoarea căutare va fi efectuată numai pe acele documente care au fost selectate în căutare anterioară.

O notă despre utilizarea limbajului de interogare

Exemplu

Sens

„La noi pentru muratul de dimineață”

Cuvintele sunt consecutive în formă exactă

„Am sosit * Ambasador”

Cuvânt lipsă din ghilimele

jumatate cocoasa & mosol

Cuvinte din aceeași propoziție

echipa && obţine

Cuvinte din același document

cocoș de munte | potârniche | cineva

Căutați oricare dintre cuvinte

nu poţi<< винить

Neclasare „și”: expresia după operator nu afectează poziția documentului în rezultatele căutării

Trebuie /2 să execut

Distanța în două cuvinte în orice direcție (adică un cuvânt poate apărea între cuvintele date)

ceva ce ~~ inteleg

Excepție de cuvânt a intelege din căutare

cu mintea mea /+2

Distanța în două cuvinte în ordine directă

ceai ~ laptem

Căutați o propoziție în care cuvântul ceai se întâlnește fără un cuvânt pantofi bast

supă de varză /(-1 +2) slurp

Distanța de la un cuvânt înapoi la două cuvinte înainte

cred! ce! ce

Cuvinte în formă exactă cu majuscule specificate

se dovedește că && (+pe | !me)

Parantezele formează grupuri în interogări complexe

Politică

Forma de dicționar a cuvântului

titlu:(în țară)

Căutați după titlurile documentelor

url:ptici.narod.ru/ptici/kuropatka.htm

Căutați după URL

cu siguranță inurl:vojne

Căutare pe baza fragmentului de adresă URL

Căutați după gazdă

Căutați după gazdă în rescriere

site:http://www.lib.ru/PXESY/FILATOW

Căutați în toate subdomeniile și paginile unui anumit site

Căutare un singur tip de fișier

Căutare restricționată în limbă

Căutare restricționată în domeniu

Căutare restricționată la dată

afaceri de stat && /3 prind firul

Distanța în 3 propoziții în orice direcție

ceva ce ~~ inteleg

Excepție de cuvânt a intelege din căutare

O caracteristică interesantă este căutarea documentelor pe web care leagă la o pagină cu adresa (URL) pe care o specificați. Astfel, puteți găsi pagini pe web care au link-uri către site-ul dvs. Web. Unele sisteme vă vor permite să limitați sfera căutării în domeniul specificat.

Operatorii speciali suplimentari includ:

    Operatori de căutare de documente cu un fișier grafic specific;

    Operatori pentru limitarea datei paginilor de căutat;

    Operatori de proximitate între cuvinte;

    Operatori de contabilitate sub formă de cuvinte;

    Operatori pentru sortarea rezultatelor (după relevanță, prospețime, bătrânețe).

Trebuie remarcat faptul că, din păcate, astăzi nu există un standard pentru numărul și sintaxa operatorilor acceptați pentru diverse motoare de căutare. Se încearcă dezvoltarea unui standard pentru sintaxa operatorilor suportați, așa că se speră ca dezvoltatorii de motoare de căutare să aibă grijă de comoditatea utilizatorilor. În această etapă a dezvoltării instrumentelor de căutare, utilizatorul, referindu-se la un anumit motor de căutare, trebuie în primul rând să se familiarizeze cu regulile acestuia pentru compilarea interogărilor. De regulă, va exista un link pe pagina de pornire Ajutor care vă va duce la informațiile de ajutor.

Diferitele motoare de căutare descriu un număr diferit de surse de informații pe Internet. Prin urmare, nu vă puteți limita la a căuta doar într-un singur motor de căutare.

Luați în considerare modalități prezentarea rezultatelor căutării în motoarele de căutare.

Cel mai adesea, numărul documentelor găsite depășește câteva zeci, iar în unele cazuri poate ajunge la sute de mii! Prin urmare, ca formă de emitere, se întocmește o listă de documente de 5-10-15 unități pe pagină cu posibilitatea de a trece la următoarea porțiune din partea de jos a paginii. Trebuie indicate titlul și URL-ul (adresa) documentului găsit, uneori sistemul indică gradul de relevanță a documentului ca procent.

Descrierea documentului conține cel mai adesea primele câteva propoziții sau fragmente din textul documentului cu cuvinte cheie evidențiate. De regulă, este indicată data actualizării (verificarea) documentului, dimensiunea acestuia în kiloocteți, unele sisteme determină limba documentului și codificarea acestuia (pentru documentele în limba rusă).

Ce se poate face cu rezultatele? Dacă titlul și descrierea documentului corespund cerințelor dvs., puteți accesa imediat sursa acestuia făcând clic pe link. Este mai convenabil să faceți acest lucru într-o fereastră nouă pentru a putea analiza în continuare rezultatele căutării. Multe motoare de căutare vă permit să căutați în documentele găsite și vă puteți rafina interogarea introducând termeni suplimentari.

Dacă inteligența sistemului este mare, vi se poate oferi serviciul de căutare a documentelor similare. Pentru a face acest lucru, selectați documentul care vă place în mod deosebit și îl indicați sistemului ca model de urmat.

Cu toate acestea, automatizarea detectării similitudinii nu este o sarcină banală și, adesea, această funcție nu funcționează adecvat așteptărilor dumneavoastră. Unele motoare de căutare vă permit să sortați rezultatele. Pentru a economisi timp, puteți salva rezultatele căutării ca fișier pe unitatea dvs. locală pentru studiu offline ulterior.


După ce ați studiat acest subiect, veți învăța și veți repeta:

Pentru ce sunt serverele de căutare?
- numirea principalelor părți ale serverelor de căutare;
- ce tipuri de căutare de informații există pe Internet;
- regulile de bază pentru generarea unei cereri în motorul de căutare Yandex.

Căutați după adrese URL

Cea mai rapidă și mai fiabilă modalitate de a găsi informații pe Internet este căutarea adreselor URL. Multe dintre ele sunt date în publicații tipărite, cărți speciale de referință, sunt auzite în emisiunile posturilor de radio populare și de pe ecranele TV.

♦ Fanii clubului de fotbal Zenit știu pe de rost adresa www.fc-zenit.ru.
♦ Fanii grupului „Korol i Shut” cunosc bine site-ul oficial al acestui grup www.korol.spb.ru.
♦ Fanii canalului NTV pot găsi cu ușurință site-ul său la www.ntv.ru. Pentru acces rapid la resursele de mai sus, lansați un program de browser, cum ar fi Internet Explorer, și introduceți o adresă URL familiară în bara de adrese.

Motoare de căutare

Există o cantitate imensă de documente pe Internet. Pentru a facilita căutarea informațiilor necesare, sunt create motoare de căutare speciale.

motoare de căutare- Acestea sunt sisteme automate care interoghează serverele conectate la rețeaua globală și stochează informații despre datele disponibile pe servere în baza lor de date. Conform unei cereri special formulate, motoarele de căutare oferă informații despre unde puteți obține datele necesare.

De regulă, motoarele de căutare sunt compuse din trei părți: robot, index și program de procesare a cererilor.

Robot (Pianjen, Robot sau Bot) este un program care vizitează pagini web și citește (în întregime sau parțial) conținutul acestora. Roboții motoarelor de căutare diferă prin schema lor individuală de analiză a conținutului unei pagini web.
Indexul motorului de căutare- acesta este un depozit de imagini de căutare vizitate de paginile roboților. Imaginea de căutare a unui document (inclusiv o pagină web) este o descriere a conținutului documentului într-un limbaj special de regăsire a informațiilor. Această descriere conține coduri pentru cuvintele cheie ale documentului, reflectând sensul și conținutul acestuia. Indicii din fiecare motor de căutare diferă în ceea ce privește cantitatea și modul în care sunt stocate informațiile. Bazele de date ale principalelor motoare de căutare stochează informații despre zeci de milioane de documente, iar volumele lor indexate sunt de sute de gigaocteți. Indecșii sunt actualizați și completați periodic, astfel încât rezultatele muncii unui motor de căutare cu aceeași interogare pot diferi dacă căutarea a fost efectuată în momente diferite.

Handler de cereri este un program care, în conformitate cu solicitarea utilizatorului, „căută” indexul pentru prezența informațiilor necesare și returnează link-uri către documentele găsite. Setul de legături de la ieșirea sistemului este distribuit de program în ordinea descrescătoare a relevanței y, adică de la cel mai înalt grad de potrivire a legăturii cu cererea la cel mai mic.

În prezent, cele mai populare pentru utilizatorii de internet ruși sunt trei motoare de căutare majore de tip index:

Aceste sisteme iau în considerare caracteristicile gramaticale ale limbii ruse, astfel încât rezultatele căutării lor în resursele în limba rusă sunt de o calitate mai bună decât în ​​sistemele occidentale.

Motoarele de căutare diferă în ceea ce privește acoperirea resurselor de informații:

♦ motoarele de căutare generale au o bază de date în toate domeniile de cunoaștere și se disting printr-un index extins și o cantitate mare de informații acumulate;
♦ Motoarele de căutare cu scop special caută numai site-uri cu subiecte specifice, cum ar fi site-uri muzicale sau muzee.

Principalele caracteristici ale motoarelor de căutare sunt:

♦ volumul documentelor din index;
♦ frecvența actualizării informațiilor;
♦ spațiul informațional pe care îl acoperă robotul motor de căutare și varietatea de tipuri de documente despre care se colectează informații;
♦ viteza de procesare a cererii;
♦ criteriu de determinare a relevanței (corespondența documentului găsit cu interogarea de căutare);
♦ posibilitatea detalierii și clarificării cererii.

Căutare după rubricator al motorului de căutare

Directoarele de căutare sunt o colecție (selecție) sistematică de legături către alte resurse de pe Internet. Legăturile sunt organizate sub forma unui rubricator tematic, care este o structură ierarhică, deplasându-se de-a lungul căreia puteți găsi informațiile de care aveți nevoie.

Să dăm ca exemplu structura catalogului de căutare pe Internet Yandex. Acesta este un director de uz general, deoarece conține legături către resurse de Internet în aproape toate direcțiile posibile. Acest catalog conține următoarele subiecte:

♦ Afaceri și economie;
♦ Referințe și link-uri;
♦ Societate și politică;
♦ Cămin și familie;
♦ Știință și educație;
♦ Divertisment și recreere;
♦ Calculatoare și comunicații;
♦ Cultură și artă.

Fiecare subiect include multe subsecțiuni, iar acestea la rândul lor conțin rubrici și așa mai departe.

Să presupunem că pregătești un eveniment pentru Ziua Victoriei și vrei să cauți pe internet cuvintele celebrului cântec militar al lui Bulat Okudzhava „Auzi cizmele rumble”. Căutarea poate fi organizată după cum urmează: Catalog Yandex Cultură și artă Muzică Cântecul autorului.

Această metodă de căutare este destul de rapidă și eficientă. La final, vi se oferă doar 5 link-uri, printre care există link-uri către site-uri cu cântece ale unor barzi celebri. Rămâne doar să găsiți pe site o arhivă cu versuri de B. Okudzhava și să selectați textul dorit în ea.

Alt exemplu. Să presupunem că veți cumpăra un telefon mobil și doriți să comparați caracteristicile dispozitivelor de la diferite companii. Căutarea ar putea fi efectuată sub următoarele titluri de catalog: Catalog Yandex Calculatoare și comunicații Comunicații mobile Telefoane mobile.

După ce ați primit un număr limitat de referințe, le puteți vizualiza rapid și alege un telefon examinând caracteristicile de la firme și modificările dispozitivelor.

Căutare prin cuvinte cheie

Majoritatea motoarelor de căutare au capacitatea de a căuta după cuvinte cheie. Acesta este unul dintre cele mai comune tipuri de căutare. Pentru a căuta după cuvinte cheie, trebuie să introduceți un cuvânt sau mai multe cuvinte pentru a fi căutate într-o fereastră specială și să faceți clic pe butonul Căutare. Motorul de căutare va găsi în baza sa de date și va afișa documente care conțin aceste cuvinte. Pot fi multe astfel de documente, dar multe în acest caz nu înseamnă neapărat bine.

Să facem câteva experimente cu oricare dintre motoarele de căutare. Să presupunem că decidem să începem un acvariu și ne interesează orice informație pe această temă.

La prima vedere, cel mai simplu lucru este să cauți cuvântul „acvariu”. Să verificăm acest lucru, de exemplu, în motorul de căutare Yandex. Rezultatul căutării va fi peste 460.000 de pagini pe 3.500 de site-uri - un număr mare de link-uri. Mai mult, dacă te uiți mai atent, printre ele vor fi site-uri care menționează grupul de acvariu al lui B. Grebenshchikov, centre comerciale și asociații informale cu același nume și multe altele care nu au nimic de-a face cu peștii de acvariu.

Este ușor de ghicit că o astfel de căutare nu poate satisface nici măcar utilizatorul fără pretenții. Va trebui să se aloce prea mult timp selectării dintre toate documentele propuse a celor care se referă la subiectul de care avem nevoie și cu atât mai mult pentru a le cunoaște conținutul.

Putem concluziona imediat că de obicei nu este recomandabil să căutați după un cuvânt, deoarece este foarte dificil să determinați subiectul unui document, pagină web sau site printr-un singur cuvânt. Excepție fac cuvintele și termenii rari care nu sunt aproape niciodată utilizați în afara domeniului lor.

Să încercăm să clarificăm condițiile de căutare și să introducem expresia „pește de acvariu”. Rezultatul căutării va fi puțin peste 20.000 de pagini și aproximativ 650 de site-uri. După cum puteți vedea, numărul de link-uri a scăzut de peste 20 de ori. Acest rezultat ni se potrivește mai mult, dar totuși, printre linkurile propuse puteți întâlni, de exemplu, seturi de suveniruri rusești de etichete de chibrit cu imagini cu pești și colecții de screensavere de pe computer și cataloage de pești de acvariu cu fotografii și acvariu. magazine de accesorii.

Este evident că ar trebui să continuăm să ne mișcăm în direcția rafinării condițiilor de căutare.

Pentru a face căutarea mai productivă, toate motoarele de căutare au un limbaj special de interogare cu propria sa sintaxă. Aceste limbi sunt similare în multe privințe. Învățarea tuturor este destul de dificilă, dar orice motor de căutare are un sistem de ajutor care vă va permite să stăpâniți limba dorită.

Iată zece reguli simple pentru generarea unei cereri în motorul de căutare Yandex.

1. Cuvintele cheie din interogare trebuie scrise cu litere mici (minuscule). Acest lucru va asigura că toate cuvintele cheie sunt căutate, nu doar cele care încep cu o literă mare.

2. Căutarea ia în considerare toate formele cuvântului conform regulilor limbii ruse, indiferent de forma cuvântului din interogare. De exemplu, dacă cuvântul „știi” a fost specificat în interogare, atunci cuvintele „știi”, „știi”, etc. vor îndeplini și condiția de căutare.

3. Pentru a căuta o frază stabilă, ar trebui să includeți cuvintele între ghilimele, de exemplu, „vase de porțelan”.

4. Pentru a căuta după forma exactă a cuvântului, trebuie să puneți un semn de exclamare înaintea cuvântului. De exemplu, pentru a căuta cuvântul „septembrie” în cazul genitiv, ai scrie „!septembrie”.

5. Pentru a căuta într-o singură propoziție, cuvintele din interogare sunt separate printr-un spațiu sau semn &: „roman de aventură” sau „aventură și roman”. Mai multe cuvinte introduse în interogare, separate prin spații, înseamnă că toate trebuie incluse într-o singură propoziție a documentului căutat.

6. Dacă doriți să selectați doar acele documente în care apare fiecare cuvânt specificat în interogare, puneți un semn plus „+” în fața fiecăruia dintre ele. Dacă, dimpotrivă, doriți să excludeți orice cuvânt din rezultatul căutării, puneți un minus „-” în fața acestui cuvânt. Semnele „+” și „-” trebuie scrise cu un spațiu din cel precedent și îmbinate cu cuvântul următor. De exemplu, interogarea „Volga-car” va găsi documente care conțin cuvântul „Volga” și nu cuvântul „mașină”.

7. Când căutați sinonime sau cuvinte cu sens apropiat, puteți pune o bară verticală „|” între cuvinte. De exemplu, pentru interogarea „copil | copil | baby” va găsi documente cu oricare dintre aceste cuvinte.

8. În loc de un singur cuvânt într-o interogare, puteți înlocui o expresie întreagă. Pentru a face acest lucru, trebuie luată între paranteze, de exemplu „(copil | bebe | copii | bebe) + (îngrijire | creștere)”.

9. Caracterul *~" (tilde) vă permite să găsiți documente cu o propoziție care conține primul cuvânt, dar care nu îl conține pe al doilea. De exemplu, căutarea „cărți ~ magazin” va găsi toate documentele care conțin cuvântul „cărți” care nu are cuvântul „magazin” lângă el (în cadrul propoziției).

10. Dacă operatorul este repetat o dată (de exemplu, & sau ~), căutarea se efectuează în cadrul propoziției. Operatorul dublu (&&, -) caută în document. De exemplu, interogarea „cancer - astrologie” va găsi documente cu cuvântul „cancer” care nu au legătură cu astrologie.

Având un anumit set de termeni cei mai des întâlniți în zona dorită, puteți utiliza căutarea avansată. Pe fig. 3.3 arată fereastra de căutare avansată în motorul de căutare Yandex. În acest mod, capacitățile limbajului de interogare sunt implementate ca formă. Un serviciu similar, inclusiv filtre de dicționar, este oferit de aproape toate motoarele de căutare.

Orez. 3.3. Un exemplu de căutare avansată în sistemul Yandex

Având în vedere alegerea corectă a cuvintelor dorite și necesare și excluderea termenilor nedoriți, o astfel de căutare poate da rezultate bune.

Să revenim la exemplul peștilor de acvariu. După citirea mai multor documente oferite de motorul de căutare, devine clar că căutarea de informații pe Internet nu trebuie să înceapă cu alegerea peștilor de acvariu. Un acvariu este un sistem biologic complex, a cărui creare și întreținere necesită cunoștințe speciale, timp și investiții serioase.

Pe baza informațiilor primite, o persoană care efectuează o căutare pe Internet poate schimba radical strategia căutării ulterioare, hotărând să studieze literatura specială legată de problema studiată.

Pentru a căuta literatură sau documente full-text, este posibilă următoarea interogare:

„+ (acvariu | acvarist | acvarist) + pentru începători + (sfaturi | literatură) + (articol | teză | text integral) - (preț | magazin | livrare | catalog)".

După procesarea cererii de către motorul de căutare, s-a obținut următorul rezultat: pagini - 195, site-uri - cel puțin 43.

După cum se poate vedea din statisticile de căutare, rezultatul a fost foarte reușit. Deja primele linkuri duc la documentele necesare:

Configurare acvariu > Sfaturi pentru acvaristul începător >
Articole > Acvascop. ro
http://aquascope.ru/modules/wfsection/article.php?page=l&articleid=49 (32KB) - conformitate strictă.
SFAT PENTRU ACvariumiștii începători. Cum să alegi și să instalezi un acvariu, cum să...
http://www.aquariums.ru/sovna.htm (2KB) 23/07/2002 - corespondență nestrictă.

Acum puteți rezuma rezultatele căutării, puteți trage anumite concluzii și decide asupra acțiunilor posibile:

♦ Opriți căutările ulterioare, deoarece din diverse motive întreținerea acvariului este peste puterea dumneavoastră.
♦ Citiți articolele sugerate și începeți amenajarea unui acvariu.
♦ Căutați materiale despre hamsteri sau budgi.

Căutare profesională

Cercetătorii și specialiștii vor trebui să adopte o abordare mai atentă a organizării căutării. Atunci când căutați în mod profesional informații pe internet, trebuie îndeplinite următoarele cerințe:

♦ viteză mare de căutare;
♦ fiabilitatea informațiilor primite;
♦ completitudinea acoperirii resurselor în timpul căutării.

Viteză. Viteza căutării depinde în principal de doi factori: de planificarea competentă a căutării (selectarea serviciilor și instrumentelor de căutare) și a abilităților de a lucra cu o resursă deja selectată (abilitatea de a înțelege rapid structura și metodele de navigare ale acesteia). Indecșii de căutare nu sunt suficienți pentru a asigura viteza de căutare. Pe lângă acestea, există o serie de resurse de căutare pe Internet, a căror utilizare asigură efectuarea unei căutări profesionale.

Fiabilitate. Problema fiabilității informațiilor primite de pe Internet este foarte relevantă, deoarece oricine poate plasa orice informație acolo fără niciun control asupra conformității acesteia cu realitatea. Acest lucru, la rândul său, duce la un număr mare de surse nesigure, cum ar fi rezumate și lucrări de termen care au inundat internetul.

Există servicii speciale de căutare care vă permit să evaluați fiabilitatea unei surse de informații pe Internet.

Completitudine. O condiție necesară pentru o culegere de succes la scară largă a informațiilor este cunoașterea principalelor tipuri de resurse care există astăzi și utilizarea diferitelor servicii de căutare. Niciun motor de căutare nu poate acoperi toate resursele Internetului.

De regulă, pentru a obține un rezultat pozitiv, utilizatorul trebuie să recurgă la serviciile mai multor motoare de căutare. O poți face singur, trecând de la sistem la sistem, sau poți încredința această muncă unuia dintre motoarele de metacăutare (meta este prima componentă a cuvintelor compuse care desemnează sisteme de descriere și cercetare a altor sisteme).

Orez. 3.4. Ferestrele de metacăutare

Motoarele de metacăutare nu au propriile baze de date de căutare și folosesc resursele multor alte motoare de căutare atunci când caută. Din acest motiv, probabilitatea de a găsi informațiile necesare este foarte mare. Lucrul în sistemele de metacăutare se desfășoară după aceleași reguli ca și munca în motoarele de căutare. Acest lucru se datorează faptului că motoarele de metacăutare sunt un fel de supliment pentru motoarele de căutare și își folosesc bazele de date indexate în munca lor. Aspectul metamotoarelor de căutare seamănă cu aspectul unor motoare de căutare binecunoscute. Pe fig. 3.4 arată ferestrele metamotoarelor myweb.ru și metabot.ru.

Experiența arată că, în cele mai multe cazuri, se obține un rezultat mai bun prin utilizarea mai multor indici de căutare independenți decât prin utilizarea unui singur motor de metacăutare.

Controlați întrebările și sarcinile

1. Care este scopul unui program de browser?

2. Ce programe de browser cunoașteți?

3. Unde poate un utilizator care planifică o căutare pe Internet să găsească adrese URL?

4. Care este tehnologia de căutare pentru rubricatorul motorului de căutare?

5. Care este tehnologia de căutare a cuvintelor cheie?

6. Ce cerințe trebuie respectate în căutarea profesională a informațiilor pe Internet?

7. Când trebuie să specificați semnele „+” sau „-” în criteriile de căutare?

8. Ce criterii de căutare în Yandex sunt stabilite de următoarea frază:

(dădacă | învățătoare | guvernantă) ++ (îngrijire | creștere | supraveghere).

9. Ce înseamnă dublarea semnului (∼∼ sau ++) atunci când se formează o interogare complexă?

10. Ce este relevanța căutării?

11. Care este scopul metamotoarelor de căutare?

Curs 4. Instrumente de regăsire a informațiilor

Actualizarea constantă a matricei de informații, combinată cu creșterea volumului de date, face extrem de dificilă luarea în considerare a documentelor disponibile și, în consecință, căutarea, care poate fi împărțită condiționat în:

  • căutarea faptică:în enciclopedii, cărți de referință, dicționare,
  • căutare bibliografică:biblioteci, directoare, programe.
  • căutare document:documente electronice, biblioteci electronice, reviste electronice.

Importanța problemei regăsirii informațiilor a dus la formarea unei întregi industrii a cărei sarcină este tocmai aceea de a asista utilizatorul în navigarea în spațiul cibernetic. Alcătuiește această industrie specialăservicii de căutare sau servicii. Ele sunt împărțite în mod tradițional în:

  • directoare sau cataloage
  • motoare de căutare

Aceste soiuri sunt vizual foarte asemănătoare, deoarece„fiecare director are propriul său motor de căutare și fiecare motor de căutare are propriul său director”. Cu toate acestea, principiile muncii lor se bazează pe abordări și tehnologii complet diferite. În plus, fiecare tip de servicii de căutare este utilizat în rezolvarea unui anumit tip de problemă. Găsirea informațiilor presupune utilizarea anumitor strategii, metode, mecanisme și mijloace. Comportamentul utilizatorului care gestionează procesul de căutare este determinat nu numai de nevoia de informații, ci și de diversitatea instrumentală a sistemului - tehnologiile și instrumentele furnizate de sistem. Alegerea instrumentului determină în mare măsurăstrategie de căutare și tehnologii de căutare.

Tehnologii de căutare- secvențe unificate (optimizate în cadrul unui sistem specific de regăsire a informațiilor) pentru utilizarea eficientă a instrumentelor individuale de căutare în procesul de interacțiune a utilizatorului cu sistemul.

Tehnologii de căutare utilizatesistemele informatice pot fi împărțite în 3 categorii:

  • cataloage tematice și cataloage de specialitate (directoare online);
  • motoare de căutare (căutare full-text);
  • instrumente de meta căutare.

Cataloage tematiceprevăd prelucrarea documentelor și repartizarea acestora într-una din mai multe categorii, a căror listă este predeterminată. De fapt, acest lucru este familiar tuturor bibliotecarilor.indexare bazată pe clasificare. Cataloage specializate sau ghiduri sunt create pe ramuri și teme separate.motoare de căutare(cea mai avansată facilitate de căutare de pe Internet) implementează tehnologia de căutare full-text. Textele aflate pe serverele solicitate sunt indexate.La folosirea fondurilor metacăutare Solicitarea este efectuată simultan de mai multe motoare de căutare. Rezultatul căutării este combinat într-o listă generală, sortată după relevanță.

Instrumente de căutare - un set interdependent de limbaje de regăsire a informațiilor și limbaje de definire/management a datelor care oferă transformări structurale și semantice ale obiectelor de prelucrare (documente, dicționare, colecții de rezultate ale căutării).

1. Cărți de referință

Instrumentele de căutare din primul grup sunt directoare electronice care au o structură ierarhică sistematică sau logico-tematică clară,la fel ca structura unui catalog sistematic de bibliotecă. Lucrul cu directoare vă permite să navigați în resursele de internet în cadrul unor ramuri individuale de cunoaștere, de la general la particular, schimbând ramurile ierarhice, revenind cu câțiva pași etc.

Printre evoluțiile rusești în acest domeniu se numără:

  • Aport (adresa: www.aport.ru),
  • List.ru (adresa: list.mail.ru ),
  • Weblist (adresa: www.weblist.ru),
  • Ivan Susanin (adresa: www.susanin.net
  • Melc (adresa: www.ulitka.ru).

Principala caracteristică distinctivă a cărților de referință este că sunt realizate manual. Colegiile editoriale ale fiecăreia dintre cărțile de referință careprin natura muncii lor, ele seamănă cu departamentele de catalogare și sistematizare ale marilor biblioteci, revizuiește în mod regulat conținutul serverelor nou apărute și urmărește modificările pe cele existente. Datele dezvăluite sunt analizate și introduse în secțiunile cărții de referință în conformitate cu clasificarea acceptată. Descrierea serverului ca întreg (sau a secțiunii, dacă pare a fi un bloc complet independent) este furnizată cu o scurtă adnotare care conține informații generale despre natura informațiilor disponibile. În unele cazuri, se introduc informații suplimentare despre limba documentelor, prezența resursei, locația fizică a acesteia etc.

Principalii parametri care caracterizează avantajele directoarelor sunt:

  • volum;
  • eficiența reflectării resurselor noi sau modificate;
  • consecvența și consistența schemei de clasificare ierarhică;
  • încrucișarea structurii.

Volumul directorului determină gradul de fiabilitate sau "puterea informatiei". În unele sisteme, există un mecanism special care verifică periodic disponibilitatea site-ului și îl exclude din listă în cazul unei „absențe” îndelungate pe Web. Logica (științifică) a schemei de clasificare aplicată determină gradul de ușurință cu care utilizatorii găsesc informațiile necesare. Sistemreferințe încrucișatevă permite să identificați informații folosind diferite abordări (de exemplu, teritoriale sau sectoriale). În acest caz, schema de clasificare ar trebui să conducă automat utilizatorul la obiectul dorit, indiferent de calea de căutare aleasă.

Posibilitatea de a compila o interogare pentru acest tip de instrumente de căutare nu joacă un rol special. Căutările complicate care necesită detalierea cererii nu sunt efectuate folosind cataloage.

Directoarele sunt concepute pentru a rezolvatrei tipuri de sarcini:

  • orientare într-o ramură necunoscută a cunoașterii;
  • căutarea de obiecte mari, care sunt, de exemplu, servere ale organizațiilor sau proiecte semnificative;
  • obținerea unei liste gata făcute de resurse care au o imagine de căutare neclară (biblioteci de un anumit tip, orare de transport sau site-uri ale partidelor politice etc.)

Un alt exemplu este compararea unui ghid de resurse cu catalogul sistematic al unei biblioteci, unde o carte (în acest caz, un întreg site web) rămâne doar cu o descriere și o adnotare.

2. Motoare de căutare

Munca motoarelor de căutare (motoarele de căutare) se bazează pe principii tehnologice complet diferite. Sarcina motoarelor de căutare este de a oferi o căutare detaliată a informațiilor, care poate fi realizată numai prin contabilitate ( indexarea ) conținutul cât mai multor pagini web. Spre deosebire de directoare, motoarele de căutare funcționează într-un mod automat și au un principiu uniform de funcționare.

Motoarele de căutare constau din două componente de bază. Prima componentă este program robot , a cărui sarcină este să treacă de la server la server și să găsească acolo documente noi (sau modificate), descarcându-le pe computerul principal al sistemului. Robotul caută prin conținutul documentului, găsește noi link-uri, atât către alte documente de pe server, cât și către site-uri externe. Apoi, programul merge independent la linkurile specificate, găsește documente noi, după care procesul se repetă din nou,amintind din bibliografie cunoscuta „metodă bulgărelui de zăpadă”.. Documentele identificate sunt procesate (indexate) de a doua componentă a motorului de căutare. În acest caz, de regulă, se ia în considerare tot conținutul paginii, inclusiv text, ilustrații, fișiere audio și video. Toate cuvintele din document sunt indexate, ceea ce face posibilă utilizarea motoarelor de căutare pentru căutări detaliate pe cele mai restrânse subiecte. Format fișiere index , stocând informații despre ce cuvânt cheie, de câte ori, în ce document și pe ce server este folosit, alcătuiesc baza de date pe care o accesează bibliotecarul la introducerea combinațiilor de cuvinte cheie în șirul de interogare.

Ieșirea rezultatelor se realizează folosind un modul special care produceclasarea inteligentă a rezultatelor . Aceasta ia în considerare:

  • locația termenului în document (titlu, titlu, textul corpului), frecvența repetării acestuia,
  • raportul procentual dintre termenul de căutare și textul paginii,
  • numărul și autoritatea legăturilor externe către această pagină de pe alte site-uri.

La parametrii de bază ai motoarelor de căutare raporta:

  • numărul de servere indexate și documente individuale (volumul fișierelor indexate);
  • gradul de eficiență al actualizării bazei de date prin includerea de informații despre materiale noi și ștergerea celor învechite;
  • posibilități de a face o cerere;
  • inteligența sistemului de clasare a rezultatelor căutării;
  • prezența unor funcții de serviciu suplimentare care facilitează munca utilizatorului.

Capacitatea unui motor de căutare de a exprima cât mai exact o interogare determină în mare măsură calitatea rezultatelor obținute. Fiecare mașină are propriul vocabular, care vă permite să detaliați în moduri diferiteordinea de căutare.

Toate motoarele de căutare aumodulul de clasare a rezultatelor căutării. Este a doua componentă de bază a tuturor sistemelor. Lista factorilor luați în considerare atunci când se determină locul unui document în lista de link-uri este neobișnuit de largă: de la locația cuvântului pe pagină până la evaluarea (autoritatea) paginilor care au link-uri către documentul găsit.

  • Google (adresa: www.google.com ),
  • AlltheWeb (adresa: www.alltheweb.com ),
  • Alta Vista (adresa: www.altavista.com).

Instrumente de căutare similare există în Rusia. Toate sunt concepute pentru a funcționa cu documente în limba rusă și au un puternic http://www.metabot.ru).

Concluzii pe tema blocului de curs

Motorul de căutare face o selecție a paginilor din baza de date în conformitate cu interogarea, apoi paginile sunt ordonate după gradul de potrivire descrescător (nota A.A.)

În acest caz, există o analogie directă cu principiile de funcționare ale cataloagelor rezumative distribuite ale bibliotecii. Oportunitate cheie meta căutare este capacitatea de a trimite simultan cererile utilizatorilor către diverse motoare de căutare - cu însumarea ulterioară a rezultatelor. (notă de A.A.)

Referindu-se la directoare, bibliotecarul se poate aștepta să primească doar informații foarte generale asupra subiectului și niciodată - date detaliate: de pe serverul unei mari corporații care conține mii de pagini, directorul va oferi doar numele și câteva rânduri de adnotare.

  • Serghei Savenkov

    un fel de recenzie „rare”... parcă s-ar grăbi undeva