Alati za pretraživanje. Cilj posljednje faze je konačno rješenje problema pretraživanja. To također uključuje stvaranje alata potrebnih za njegovo rješavanje. izbor i procena kvaliteta pretraživača

Video tutorial: Kako kreirati upite u Microsoft Accessu za 10 minuta

Predavanje: Korištenje alata tražilice (formiranje upita)

Najvažnije funkcije pri radu sa bazama podataka su filtriranje informacija, pretraživanje i upiti.


Sortiranje je proces organiziranja informacija prema nekim kriterijima. Postoji uzlazno i ​​silazno sortiranje. Ako baza podataka ima numeričke informacije, tada se kao sortiranje koristi rangiranje, a ako je riječ o tekstualnim informacijama, onda se koristi sortiranje po abecednom redu.


Kada se razmatra sortiranje po sistemima za upravljanje bazom podataka u MS Accessu, sortiranje se vrši unutar jednog polja. Ako se koristi novo sortiranje, njegovi prethodni rezultati se gube. Ako je sortiranje ugniježđeno, onda ga možete izvesti pomoću upita.


Filter– ovo je odabir informacija potrebnih korisniku. Možete postaviti složene uslove odabira.

Da biste pronašli neke podatke, možete koristiti posebne znakove tzv maska:


* – znači da možete odabrati bilo koji broj znakova.

? – umjesto ovog znaka može biti bilo koji simbol koji se može koristiti.

# – ovaj simbol se može zamijeniti bilo kojim brojem.

– bilo koji karakter u zagradama.

- – bilo koji simbol koji odgovara odabranom rasponu.

! – bilo koji znak osim onih koji su u uglastim zagradama.

Ovaj filter znakova može se koristiti za cijelu tablicu ili za dio podataka koji su već odabrani prema određenim kriterijima.

Zahtjev– ova funkcija je velika i može uključivati ​​i sortiranje i filtriranje. Ova funkcija vam omogućava da odaberete podatke u nekoliko polja i tabela. Možete kreirati biblioteku upita koji se čuvaju za buduću upotrebu. Postoji poseban jezik upita SQL - strukturiran.

IRS (sistem za pronalaženje informacija) je sistem koji omogućava pretragu i odabir potrebnih podataka u posebnoj bazi podataka sa opisima izvora informacija (indeks) na osnovu jezika za pronalaženje informacija i odgovarajućih pravila pretraživanja.

Relevantnost– ovo je korespondencija rezultata pretrage sa formulisanim upitom.

Pertinence(u pronalaženju informacija) - usklađenost primljenih informacija sa informacijskim potrebama korisnika.

Relevantnost se mjeri stepenom podudarnosti između očekivanja korisnika i rezultata pretrage (uporedi s relevantnošću), koji je definiran kao omjer količine informacija korisnih korisniku i ukupne količine informacija koje je pronašao pretraživač.

Postizanje visokog stepena postojanosti je glavno polje konkurencije za moderne pretraživače. Za maksimalno zadovoljstvo potrebe za informacijama korisnika, teorije i metode semantičkih mreža, analize sadržaja i dubinske analize tekstova (Text mining, rudarenje teksta).

Da biste pronašli potrebne informacije na Internetu, koristite adresa resursa (engleski . UniformaResursLokator (URL) adresa), koji sadrži naziv protokola pomoću kojeg se pristupa traženim informacijama, adresu servera i naziv datoteke na ovom serveru (slika 2).

Rice. 2. Primjer adrese resursa

Tražilica- softversko-hardverski kompleks sa web interfejsom koji pruža mogućnost pretraživanja informacija na Internetu. Pretraživač obično znači web stranicu na kojoj se nalazi interfejs sistema. Softverski dio sistema za pretraživanje je tražilica (tražilica) - skup programa koji obezbjeđuje funkcionalnost sistema za pretraživanje i obično je poslovna tajna kompanije za razvoj pretraživača

Pretraživanje informacija na Internetu vrši se pomoću posebnih programa koji obrađuju zahtjeve - sistemi za pronalaženje informacija (IRS). Postoji nekoliko modela na kojima se zasniva rad pretraživača, ali istorijski su dva modela stekla najveću popularnost - ovaj direktorije pretraživanja i indeksi pretraživanja.

Katalozi pretraživanja su organizovani po istom principu kao i predmetni katalozi velikih biblioteka. Obično su hijerarhijski hipertekstualni meniji sa stavkama i podstavkama koje definišu teme sajtova čije su adrese sadržane u ovom direktorijumu, uz postepeno pojašnjenje teme od nivoa do nivoa. Direktoriji pretraživanja se kreiraju ručno. Visokokvalifikovani urednici lično pregledaju informativni prostor WWW, biraju ono što smatraju od javnog interesa i unose u katalog.

Glavni problem direktorija za pretraživanje je izuzetno niska stopa pokrivenosti WWW resursa. Da bi se značajno povećala stopa pokrivenosti web resursa, ljudski faktor mora biti eliminisan iz procesa popunjavanja baze podataka pretraživača – rad mora biti automatizovan.

Vrši se automatska katalogizacija web resursa i zadovoljavanje zahtjeva kupaca indeksi pretraživanja. Rad indeksa pretraživanja može se podijeliti u tri faze:

    zbirka primarne baze podataka. Za skeniranje WWW informacijskog prostora koriste se posebni agentski programi - crvi, čiji je zadatak da traže nepoznate resurse i registruju ih u bazi podataka;

    indeksiranje baze podataka - primarna obrada u svrhu optimizacije pretraživanja. U fazi indeksiranja kreiraju se specijalizovani dokumenti - stvarni indeksi pretraživanja;

    prečišćavanje rezultirajuće liste. U ovoj fazi kreira se lista veza koja će kao rezultat biti proslijeđena korisniku. Pročišćavanje rezultirajuće liste uključuje filtriranje i rangiranje rezultata pretrage.

Filtriranje znači filtriranje veza koje su neprikladne za pružanje korisniku (na primjer, provjera duplikata). Rangiranje se sastoji od kreiranja posebnog redosleda za predstavljanje rezultirajuće liste (po broju ključnih reči, srodnih reči itd.).

Glavni zadatak svakog informacionog sistema je traženje informacija relevantnih za potrebe korisnika za informacijama. Veoma je važno da ne izgubite ništa kao rezultat pretrage, odnosno da pronađete svu dokumentaciju u vezi sa zahtjevom i da ne nađete ništa suvišno. Stoga se uvodi kvalitativna karakteristika postupka pretraživanja - relevantnost.

Relevantnost– ovo je korespondencija rezultata pretrage sa formulisanim upitom.

1 Alati za pretraživanje

Alati za pretraživanje su specijalni softver čija je osnovna namjena pružanje najoptimalnijeg i najkvalitetnijeg pretraživanja informacija korisnicima Interneta. Alati za pretraživanje se nalaze na posebnim web serverima, od kojih svaki obavlja određenu funkciju:

Web pretraživači su serveri sa ogromnom bazom podataka URL-ova koji automatski pristupaju WWW stranicama na svim ovim adresama, ispituju sadržaj tih stranica, formiraju i upisuju ključne riječi sa stranica u svoju bazu podataka (indeksiraju stranice).

Štaviše, roboti pretraživača prate veze koje se nalaze na stranicama i ponovo ih indeksiraju. Budući da skoro svaka WWW stranica ima mnogo linkova na druge stranice, uz takav rad, pretraživač teoretski može indeksirati sve stranice na Internetu kao konačni rezultat.

Ovaj tip alata za pretraživanje je najpoznatiji i najpopularniji među svim korisnicima interneta. Svi su čuli imena poznatih web pretraživača (pretraživača) - Yandex, Rambler, Aport.

Način rada web pretraživača je sljedeći:

    Analiza web stranica i snimanje rezultata analize na jednom ili drugom nivou baze podataka servera za pretraživanje.

    Traženje informacija na osnovu zahtjeva korisnika.

    Pružanje praktičnog interfejsa za korisnika da traži informacije i pregleda rezultate pretrage.

Tehnike rada koje se koriste pri radu s jednim ili drugim alatom za pretraživanje su gotovo iste. Prilikom njihovog opisivanja koriste se sljedeći koncepti:

    Interfejs alata za pretraživanje predstavljen je u obliku stranice sa hiperlinkovima, linijom upita (linija za pretragu) i alatima za aktivaciju upita.

    Indeks pretraživača je baza podataka koja sadrži rezultate analize web stranica, sastavljenih prema određenim pravilima.

    Upit je ključna riječ ili fraza koju korisnik unese u traku za pretraživanje. Za formiranje različitih upita koriste se posebni znakovi ("", ~) i matematički simboli (*, +, ?).

Šema pretraživanja informacija je jednostavna. Korisnik upisuje ključnu frazu i aktivira pretragu, pri čemu dobija izbor dokumenata na osnovu formulisanog (specifikovanog) zahteva. Ova lista dokumenata se rangira prema određenim kriterijima tako da se na vrhu liste nalaze oni dokumenti koji najviše odgovaraju zahtjevu korisnika. Svaki od alata za pretraživanje koristi različite kriterije za rangiranje dokumenata, kako prilikom analize rezultata pretraživanja tako i prilikom kreiranja indeksa (popunjavanje indeksne baze podataka web stranica).

U Rusiji, najveći i najpopularniji indeksi pretraživanja su:

    "Yandex" (www.yandex.ru)

    "Rambler" (www.rambler.ru)

    "Google" (www.google.ru)

    "Aport2000" (www.aport.ru)

2 Mehanizmi pretraživanja

Generalizirana tehnologija pretraživanja sastoji se od sljedećih faza:

    Korisnik formulira zahtjev

    Sistem traži dokumente (ili njihove slike za pretragu)

    Korisnik prima rezultat (informacije o dokumentima)

    Korisnik poboljšava ili reformiše zahtjev

    Organiziranje nove pretrage...

Tipično, pretraživači podržavaju dva načina: jednostavni način pretraživanja i napredni način pretraživanja. Hajde da razmotrimo generalizovane mogućnosti.

Formiranje zahtjeva u jednostavnom načinu pretraživanja. Možete jednostavno unijeti jednu ili više riječi odvojenih razmakom; traženje riječi sa svim mogućim završecima modelira se simbolom * na kraju riječi. Mnogi sistemi vam omogućavaju da pretražujete fraze ili fraze da biste to uradili, morate ih staviti u navodnike. Možda će biti potrebno obavezno uključivanje ili isključivanje određenih riječi.

Glavni problem pretraživanja pomoću primitivno sastavljenog upita (u obliku liste ključnih riječi) je taj što će pretraživač pronaći sve stranice na kojima se navedene riječi pojavljuju u bilo kojem dijelu dokumenta. Obično će broj pronađenih stranica biti prevelik.

Da biste poboljšali kvalitetu pretraživanja u jednostavnom načinu pretraživanja, dopušteno je koristiti logičke operatore i operatore koji vam omogućavaju da ograničite područje pretraživanja, kao i da odaberete određenu kategoriju dokumenata s prikazane liste.

Mnogi pretraživači uključuju posebne operatore u svom jeziku upita koji vam omogućavaju da pretražujete u određenim područjima dokumenta, na primjer, u njegovom naslovu, ili tražite dokument prema poznatom dijelu njegove adrese.

Napredni ili detaljni način upita u različitim sistemima implementira se pojedinačno, ali najčešće je to forma u kojoj se navedeni operatori i ključni elementi implementiraju jednostavnim označavanjem odgovarajućih polja ili odabirom parametara sa liste.

Ispod su, kao primjer, informacije iz odjeljka pomoć Yandex pretraživač: napredni prozor za pretragu, jezik upita, traženje onoga što je pronađeno.

Traži V pronađeno Ako V rezultat Yandex zahtjeva pronađeno mnogo dokumenata, ali na širu temu nego što želite, možete suziti ovu listu tako što ćete navesti svoj upit. Druga opcija je da omogućite potvrdni okvir V pronađeno V obrazac za pretragu, postavite dodatne ključne riječi, a sljedeća pretraga će se vršiti samo na onim dokumentima koji su odabrani V prethodna pretraga.

Cheat Sheet o korišćenju jezika upita

Primjer

Značenje

"Dodjite kod nas na jutarnju kiselu krastavcu"

Riječi dolaze u nizu u tačnom obliku

"*ambasador je stigao"

Nedostaje riječ u navodniku

pola kriške i kukuruz

Riječi unutar jedne rečenice

opremiti && nabaviti

Riječi unutar jednog dokumenta

divov golf | jarebica | nekoga

Potražite bilo koju od riječi

ne možeš<< винить

Nerangirani "i": izraz nakon operatora ne utiče na poziciju dokumenta u rezultatima pretrage

Moram /2 izvršiti

Udaljenost unutar dvije riječi u bilo kojem smjeru (to jest, jedna riječ se može pojaviti između datih riječi)

nešto što ~~ razumijem

Eliminacija riječi Ja ću razumjeti iz pretrage

sa mojom /+2 inteligencijom

Udaljenost unutar dvije riječi u direktnom redoslijedu

čaj ~ laptem

Potražite rečenicu u kojoj se ta riječ nalazi čaj sastaje se bez reči bast cipela

čorba od kupusa /(-1+2) srkanje

Udaljenost od jedne riječi obrnutim redoslijedom do dvije riječi naprijed

Shvatio sam šta!

Riječi u tačnom obliku sa navedenim velikim padežom

ispada && (+ na | !me)

Zagrade formiraju grupe u složenim upitima

Policy

Rečnik oblik reči

naslov: (u zemlji)

Traži po naslovima dokumenata

url:ptici.narod.ru/ptici/kuropatka.htm

Traži po URL-u

svakako inurl:vojne

Pretraživanje na osnovu URL fragmenta

Traži po domaćinu

Pretraživanje po hostu u obrnutom unosu

stranica: http://www.lib.ru/PXESY/FILATOW

Pretražujte po svim poddomenama i stranicama date stranice

Traži po jednoj vrsti datoteke

Pretraživanje ograničeno jezikom

Pretraga ograničena domenom

Tražite s ograničenjima datuma

državni posao && /3 uhvatite nit

Udaljite 3 rečenice u bilo kojem smjeru

nešto što ~~ razumijem

Eliminacija riječi Ja ću razumjeti iz pretrage

Zanimljiva opcija je traženje dokumenata na webu koji povezuju na stranicu s URL-om koji navedete. Na ovaj način možete pronaći stranice na webu koje imaju veze do vaše web stranice. Neki sistemi će vam omogućiti da ograničite pretragu unutar određene domene.

Dodatni specijalni operateri uključuju:

    Operatori za pretraživanje dokumenata s određenom grafičkom datotekom;

    Operateri koji ograničavaju datum stranica koje se pretražuju;

    Operatori blizine između riječi;

    Računovodstveni operateri u obliku riječi;

    Operatori za sortiranje rezultata (po relevantnosti, svježini, starosti).

Treba napomenuti da, nažalost, danas ne postoji standard za broj i sintaksu podržanih operatora za različite pretraživače. U toku su napori da se razvije standard za sintaksu podržanih operatera, pa se nadamo da će programeri pretraživača voditi računa o korisničkom iskustvu. U ovoj fazi razvoja alata za pretraživanje, korisnik prilikom pristupa određenoj tražilici mora prije svega da se upozna sa njenim pravilima za sastavljanje upita. Po pravilu, na početnoj stranici će biti link Upomoć koji će vas odvesti do referentnih informacija.

Različiti pretraživači opisuju različit broj izvora informacija na Internetu. Stoga ne možete ograničiti pretragu na samo jedan pretraživač.

Hajde da razmotrimo načine prezentacija rezultata pretrage u pretraživačima.

Najčešće, broj pronađenih dokumenata prelazi nekoliko desetina, au nekim slučajevima može doseći i stotine hiljada! Stoga se kao oblik izdavanja sastavlja lista dokumenata od 5-10-15 jedinica po stranici sa mogućnošću prelaska na sljedeći dio pri dnu stranice. Naslov i URL (adresa) pronađenog dokumenta se ponekad moraju navesti na stepen relevantnosti dokumenta u procentima.

Opis dokumenta najčešće sadrži prvih nekoliko rečenica ili izvoda iz teksta dokumenta s istaknutim ključnim riječima. U pravilu je naznačen datum ažuriranja (verifikacije) dokumenta, njegova veličina u kilobajtima određuju jezik dokumenta i njegovo kodiranje (za dokumente na ruskom jeziku).

Šta možete učiniti s dobivenim rezultatima? Ako naslov i opis dokumenta ispunjavaju vaše zahtjeve, možete odmah otići na izvorni izvor koristeći vezu. Pogodnije je to učiniti u novom prozoru kako biste mogli dalje analizirati rezultate pretraživanja. Mnogi pretraživači vam omogućavaju da pretražujete pronađene dokumente, a možete precizirati svoj upit uvođenjem dodatnih pojmova.

Ako je inteligencija sistema visoka, može vam se ponuditi usluga traženja sličnih dokumenata. Da biste to učinili, odaberite dokument koji vam se posebno sviđa i usmjerite ga na sistem kao model koji treba slijediti.

Međutim, automatizirano određivanje sličnosti je vrlo netrivijalan zadatak i često ova funkcija ne radi kako se očekivalo. Neki pretraživači vam omogućavaju da ponovo sortirate rezultate. Da biste uštedjeli vrijeme, rezultate pretraživanja možete sačuvati kao datoteku na vašem lokalnom disku za kasnije istraživanje van mreže.


Nakon proučavanja ove teme naučit ćete i ponoviti:

Čemu služe serveri za pretragu?
- namena glavnih delova servera za pretragu;
- koje vrste pretraživanja informacija postoje na Internetu;
- osnovna pravila za formiranje upita u Yandex tražilici.

Traži po URL-u

Najbrži i najpouzdaniji način traženja informacija na Internetu je pretraživanje po URL-u. Mnogi od njih su predstavljeni u štampanim publikacijama, posebnim referencama i slušaju se na popularnim radio stanicama i na TV ekranima.

♦ Navijači fudbalskog kluba Zenit znaju adresu www.fc-zenit.ru napamet.
♦ Obožavatelji grupe “Kralj i šala” dobro znaju za službenu web stranicu ove grupe www.korol.spb.ru.
♦ Ljubitelji NTV kanala mogu lako pronaći njegovu web stranicu na www.ntv.ru. Da biste brzo pristupili gore navedenim resursima, jednostavno pokrenite program pretraživača, kao što je Internet Explorer, i unesite poznati URL u adresnu traku.

Pretraživači

Na internetu je koncentrisana ogromna količina dokumenata. Kako bi se olakšalo pronalaženje potrebnih informacija, kreiraju se posebne tražilice.

Pretraživači- to su automatski sistemi koji anketiraju servere povezane na globalnu mrežu i pohranjuju u svoju bazu podataka informacije o podacima dostupnim na serverima. Na osnovu posebno formulisanog upita, pretraživači daju informacije o tome gde možete dobiti potrebne podatke.

Obično se pretraživači sastoje od tri dijela: robot, program za obradu indeksa i upita.

Robot (pauk, robot ili bot) je program koji posjećuje web stranice i čita (u cijelosti ili djelomično) njihov sadržaj. Roboti pretraživača razlikuju se po individualnoj shemi za analizu sadržaja web stranice.
Indeks pretraživača je spremište slika pretraživanja stranica koje su posjetili roboti. Slika za pretragu dokumenta (uključujući web stranicu) je opis sadržaja dokumenta na posebnom jeziku za pronalaženje informacija. Ovaj opis sadrži kodove ključnih riječi dokumenta koje odražavaju njegovo značenje i sadržaj. Indeksi u svakoj tražilici razlikuju se po obimu i načinu organiziranja pohranjenih informacija. Baze podataka vodećih pretraživača pohranjuju informacije o desetinama miliona dokumenata, a njihov indeksni obim iznosi stotine gigabajta. Indeksi se povremeno ažuriraju i dopunjuju, tako da se rezultati jedne tražilice sa istim upitom mogu razlikovati ako je pretraga obavljena u različito vrijeme.

Program za obradu zahtjeva je program koji u skladu sa zahtjevom korisnika „pregleda“ kroz indeks prisutnost potrebnih informacija i vraća linkove na pronađene dokumente. Skup linkova na izlazu sistema program distribuira opadajućem redosledu relevantnosti, odnosno od najvećeg stepena korespondencije veze prema zahtevu do najmanjeg.

Trenutno su najpopularnija za ruske korisnike interneta tri velika pretraživača tipa indeksa:

Ovi sistemi uzimaju u obzir gramatičke karakteristike ruskog jezika, pa su njihovi rezultati pretraživanja u izvorima na ruskom jeziku kvalitetniji od onih u zapadnim sistemima.

Pretraživači se razlikuju po pokrivenosti izvora informacija:

♦ opšti pretraživači imaju bazu podataka u svim oblastima znanja i odlikuju ih obiman indeks i velika količina akumuliranih informacija;
♦ Pretraživači specijalne namjene gledaju samo na sajtove na određenu temu, kao što su muzika ili muzeji.

Glavne karakteristike pretraživača su:

♦ obim dokumenata u indeksu;
♦ učestalost ažuriranja informacija;
♦ informacioni prostor koji robot pretraživača pokriva i raznolikost vrsta dokumenata o kojima se prikupljaju informacije;
♦ brzina obrade zahteva;
♦ kriterijum za utvrđivanje relevantnosti (usklađenost pronađenog dokumenta sa upitom za pretragu);
♦ mogućnost detaljnog i pojašnjenja zahtjeva.

Pretražite po kategoriji tražilice

Imenici pretraživanja su sistematska kolekcija (izbor) veza ka drugim Internet resursima. Linkovi su organizovani u obliku tematskog rubrikatora, koji je hijerarhijska struktura, kretanjem kroz koju možete pronaći informacije koje su vam potrebne.

Navedimo kao primjer strukturu kataloga Yandex Internet pretraživanja. Ovo je direktorij opće namjene, jer sadrži veze ka Internet resursima u gotovo svim mogućim područjima. U ovom katalogu su istaknute sljedeće teme:

♦ Biznis i ekonomija;
♦ Imenici i linkovi;
♦ Društvo i politika;
♦ Dom i porodica;
♦ Nauka i obrazovanje;
♦ Zabava i opuštanje;
♦ Računari i komunikacije;
♦ Kultura i umjetnost.

Svaka tema uključuje mnogo pododjeljaka, a oni, zauzvrat, sadrže naslove itd.

Pretpostavimo da pripremate događaj za Dan pobjede i želite na internetu pronaći riječi poznate vojne pjesme Bulata Okudžave „Čuješ kako čizme zveckaju“. Pretraga se može organizirati na sljedeći način: Yandex Katalog Kultura i umjetnost Muzika Autorska pjesma.

Ova metoda pretraživanja je prilično brza i efikasna. Na kraju vam se nudi samo 5 linkova, među kojima su i linkovi ka sajtovima sa pesmama poznatih bardova. Ostaje samo da na web stranici pronađete arhivu sa tekstovima pjesama B. Okudzhave i iz nje odaberete željeni tekst.

Još jedan primjer. Pretpostavimo da ćete kupiti mobilni telefon i želite da uporedite karakteristike uređaja različitih kompanija. Pretraga bi se mogla izvršiti prema sljedećim kataloškim naslovima: Yandex katalog Računari i komunikacije Mobilne komunikacije Mobilni telefoni.

Nakon što ste dobili ograničen broj linkova, možete ih brzo pregledati i odabrati telefon ispitivanjem karakteristika kompanija i modifikacija uređaja.

Pretražujte po ključnim riječima

Većina pretraživača ima mogućnost pretraživanja po ključnoj riječi. Ovo je jedna od najčešćih vrsta pretraživanja. Da biste pretraživali pomoću ključnih riječi, potrebno je da u posebnom prozoru unesete riječ ili nekoliko riječi koje želite da tražite i kliknete na dugme Traži. Pretraživač će pronaći i prikazati dokumente koji sadrže ove riječi u svojoj bazi podataka. Takvih dokumenata može biti mnogo, ali mnogo u ovom slučaju ne znači nužno dobro.

Provedimo nekoliko eksperimenata sa bilo kojim od pretraživača. Pretpostavimo da smo odlučili pokrenuti akvarij i da nas zanimaju bilo kakve informacije o ovoj temi.

Na prvi pogled, najjednostavnije je tražiti riječ "akvarij". Provjerimo ovo, na primjer, u tražilici Yandex. Rezultat pretrage će biti više od 460.000 stranica na 3.500 stranica - ogroman broj linkova. Štoviše, ako bolje pogledate, među njima će se naći stranice koje spominju grupu B. Grebenshchikova “Aquarium”, trgovačke centre i neformalna udruženja s istim imenom, i još mnogo toga što nema nikakve veze s akvarijskim ribama.

Nije teško pretpostaviti da takva pretraga ne može zadovoljiti ni najnezahtjevnijeg korisnika. Previše vremena će biti potrebno utrošiti na odabir između svih predloženih dokumenata onih koji se odnose na temu koja nam je potrebna, a još više na upoznavanje sa njihovim sadržajem.

Odmah možemo zaključiti da je pretraživanje po jednoj riječi po pravilu nepraktično, jer je pomoću jedne riječi vrlo teško odrediti temu kojoj je dokument, web stranica ili stranica posvećena. Izuzetak su rijetke riječi i termini koji se gotovo nikada ne koriste izvan svog tematskog područja.

Pokušajmo razjasniti uvjete pretraživanja i unesite frazu "akvarijske ribe". Rezultat pretrage bit će nešto više od 20.000 stranica i oko 650 stranica. Kao što vidite, broj linkova se smanjio za više od 20 puta. Ovaj rezultat nam više odgovara, ali još uvijek među predloženim vezama mogu biti, na primjer, ruski suvenirski setovi etiketa za šibice sa slikama riba, i kolekcije screensaver-a za desktop računara, i katalozi akvarijskih riba sa fotografijama i akvarijskim priborom trgovine.

Očigledno je da treba nastaviti ići ka razjašnjavanju uslova traženja.

Kako bi pretraživanje bilo produktivnije, sve tražilice imaju poseban jezik upita sa vlastitom sintaksom. Ovi jezici su slični na mnogo načina. Prilično ih je teško proučiti sve, ali svaki pretraživač ima sistem pomoći koji će vam omogućiti da savladate željeni jezik.

Evo deset jednostavnih pravila za formiranje upita u Yandex pretraživaču.

1. Ključne riječi u upitu treba pisati malim (malim) slovima. Ovo će osigurati da se pretražuju sve ključne riječi, a ne samo one koje počinju velikim slovom.

2. Prilikom pretraživanja uzimaju se u obzir svi oblici riječi prema pravilima ruskog jezika, bez obzira na oblik riječi u upitu. Na primjer, ako je riječ "znam" specificirana u upitu, tada će riječi "mi znamo", "znate" itd. također zadovoljiti uvjet pretraživanja.

3. Da biste pronašli stabilnu frazu, trebali biste riječi staviti pod navodnike, na primjer, "porculansko posuđe".

4. Da biste pretraživali po tačnom obliku riječi, potrebno je da stavite uzvičnik ispred riječi. Na primjer, da biste tražili riječ “septembar” u padežu genitiva, napisali biste “!septembar”. 

5. Za pretraživanje unutar jedne rečenice, riječi u upitu su odvojene razmakom ili znakom &: “avanturistički roman” ili “avantura&roman”. Nekoliko riječi unesenih u upit, odvojenih razmacima, znače da se sve moraju uključiti u jednu rečenicu dokumenta koji se traži.

6. Ako želite da se izaberu samo oni dokumenti koji sadrže svaku riječ navedenu u upitu, stavite znak plus “+” ispred svakog od njih. Ako, naprotiv, želite da isključite bilo koju riječ iz rezultata pretraživanja, stavite minus “-” ispred ove riječi. Znakovi “+” i “-” moraju se pisati odvojeno razmakom od prethodnog i zajedno sa sljedećom riječju. Na primjer, upit "Volga-auto" će pronaći dokumente koji sadrže riječ "Volga", a ne riječ "automobil".

7. Kada tražite sinonime ili riječi sa sličnim značenjima, možete staviti okomitu traku “|” između riječi. Na primjer, za upit „dijete | beba | baby" dokumenti sa bilo kojom od ovih riječi će biti pronađeni.

8. Umjesto jedne riječi u upitu, možete zamijeniti cijeli izraz. Da biste to učinili, mora se staviti u zagrade, na primjer, "(dijete | beba | djeca | beba) + (briga | obrazovanje)".

9. Znak *~" (tilda) vam omogućava da pronađete dokumente sa rečenicom koja sadrži prvu riječ, ali ne i drugu. Na primjer, upit “books ~ store” će pronaći sve dokumente koji sadrže riječ “books”, pored koje (unutar rečenice) nema riječi “prodavnica”.

10. Ako se operator jednom ponovi (na primjer, & ili ~), pretraga se vrši unutar rečenice. Dvostruki operator (&&, -) specificira pretragu unutar dokumenta. Na primjer, upit “rak - astrologija” će pronaći dokumente sa riječju “rak” koji nisu povezani s astrologijom.

Ako imate određeni skup najčešćih pojmova u željenoj oblasti, možete koristiti naprednu pretragu. Na sl. Slika 3.3 prikazuje prozor napredne pretrage u Yandex pretraživaču. U ovom načinu rada, mogućnosti jezika upita implementirane su u obliku obrasca. Sličnu uslugu, uključujući filtere rječnika, nude gotovo sve tražilice.

Rice. 3.3. Primjer napredne pretrage u Yandex sistemu

Pod uslovom da su željene i tražene riječi pravilno odabrane i da su nepoželjni pojmovi isključeni, takva pretraga može dati dobre rezultate.

Vratimo se na primjer s akvarijskim ribama. Nakon čitanja nekoliko dokumenata koje nudi pretraživač, postaje jasno da traženje informacija na Internetu ne bi trebalo započeti odabirom akvarijskih riba. Akvarij je složen biološki sistem čije stvaranje i održavanje zahtijeva posebna znanja, vrijeme i ozbiljna ulaganja.

Na osnovu dobijenih informacija, osoba koja pretražuje na Internetu može radikalno promijeniti strategiju daljeg pretraživanja odlučivanjem da prouči stručnu literaturu koja se odnosi na problematiku koja se proučava.

Za traženje literature ili dokumenata u punom tekstu moguć je sljedeći upit:

“+(akvarij | akvarist | akvarijumski hobi) + za početnike + (savjet | literatura) + (članak | teza | cijeli tekst) - (cijena | trgovina | dostava | katalog).”

Nakon obrade zahtjeva od strane pretraživača, dobijen je sljedeći rezultat: stranica - 195, stranica - najmanje 43.

Kao što se može vidjeti iz statistike pretraživanja, rezultat je bio vrlo uspješan. Već prvi linkovi vode do potrebnih dokumenata:

Postavljanje akvarija > Savjeti za akvariste početnike >
Članci > Aq uascope. ru
http://aquascope.ru/modules/wfsection/article.php?page=l&articleid=49 (32KB) - strogo poštovanje.
SAVJETI ZA POČETNE AKVARIJUSTE. Kako odabrati i instalirati akvarij, kako...
http://www.aquariums.ru/sovna.htm (2KB) 07/23/2002 - nestrogo usklađenost.

Sada možete sumirati rezultate pretraživanja, izvući određene zaključke i odlučiti o mogućim radnjama:

♦ Zaustavite dalju pretragu, jer iz raznih razloga niste u mogućnosti da održavate akvarijum.
♦ Pročitajte predložene članke i počnite s postavljanjem akvarija.
♦ Potražite materijale o hrčcima ili papagajima.

Profesionalna pretraga

Istraživači i stručnjaci će morati da zauzmu promišljeniji pristup organizaciji pretrage. Prilikom profesionalnog traženja informacija na Internetu moraju biti ispunjeni sljedeći zahtjevi:

♦ velika brzina pretraživanja;
♦ pouzdanost primljenih informacija;
♦ potpuna pokrivenost resursa prilikom pretraživanja.

Brzina. Brzina pretraživanja uglavnom ovisi o dva faktora: kompetentnom planiranju pretraživanja (izbor usluga i alata za pretraživanje) i vještinama rada sa već odabranim resursom (sposobnost brzog razumijevanja njegove strukture i metoda navigacije). Indeksi pretraživanja nisu dovoljni da osiguraju brzinu pretraživanja. Osim njih, na Internetu postoji niz resursa za pretraživanje, čija upotreba osigurava profesionalnu pretragu.

Kredibilitet. Pitanje pouzdanosti informacija dobijenih sa interneta je veoma relevantno, jer bilo ko tu može objaviti bilo koju informaciju bez ikakve kontrole usklađenosti sa stvarnošću. To, pak, dovodi do velikog broja nepouzdanih izvora, kao što su eseji i seminarski radovi koji preplavljuju internet.

Postoje posebne usluge pretraživanja koje vam omogućavaju da procijenite pouzdanost izvora informacija na Internetu.

Kompletnost. Neophodan uslov za uspješno prikupljanje informacija u punom obimu je poznavanje glavnih vrsta resursa koji postoje danas i korištenje različitih usluga pretraživanja. Nijedan pretraživač ne može pokriti sve internetske resurse.

U pravilu, da bi postigao pozitivan rezultat, korisnik mora pribjeći uslugama nekoliko pretraživača. To možete učiniti sami, prelazeći od sistema do sistema, ili možete povjeriti ovaj posao nekom od metapretraživačkih sistema (meta je prva komponenta složenih riječi koja označava sisteme za opisivanje i istraživanje drugih sistema).

Rice. 3.4. Prozori meta pretraživača

Metatražilice nemaju svoje baze podataka za pretraživanje i koriste resurse mnogih drugih pretraživača prilikom pretraživanja. Zbog toga je vjerovatnoća pronalaženja potrebnih informacija vrlo velika. Rad u metapretraživačkim sistemima odvija se po istim pravilima kao i rad u pretraživačima. To je zbog činjenice da su metapretraživači svojevrsni dodatak pretraživačima i koriste svoje indeksne baze podataka u svom radu. Pojava metapretraživača podseća na izgled poznatih pretraživača. Na sl. 3.4 prikazuje prozore metapretraživača myweb.ru i metabot.ru.

Iskustvo pokazuje da se u većini slučajeva bolji rezultati postižu korištenjem nekoliko nezavisnih indeksa pretraživanja nego korištenjem jednog metapretraživača.

Test pitanja i zadaci

1. Koja je svrha programa pretraživača?

2. Koje programe pretraživača poznajete?

3. Gdje web pretraživač može pronaći URL-ove?

4. Koja je tehnologija pretraživanja pomoću rubrikatora pretraživača?

5. Koja je tehnologija pretraživanja po ključnim riječima?

6. Koji zahtjevi moraju biti ispunjeni pri profesionalnom traženju informacija na Internetu?

7. Kada treba navesti znake “+” ili “-” u kriterijima pretraživanja?

8. Koje kriterije pretraživanja u Yandexu specificira sljedeća fraza:

(dadilja | učiteljica | guvernanta) ++ (briga | obrazovanje | nadzor).

9. Šta znači udvostručenje znaka (∼∼ ili ++) kada se formira složeni upit?

10. Šta je relevantnost pretraživanja?

11. Koja je svrha metapretraživača?

Predavanje 4. Alati za pronalaženje informacija

Stalno ažuriranje niza informacija, u kombinaciji s povećanjem obima podataka, izuzetno otežava uzimanje u obzir postojećih dokumenata i, shodno tome, pretraživanje, koje se može podijeliti na:

  • pretraga činjenica:u enciklopedijama, priručnicima, rječnicima,
  • bibliografsko pretraživanje:biblioteke, katalozi, programi.
  • dokumentarna pretraga:elektronski dokumenti, elektronske biblioteke, elektronski časopisi.

Važnost problema pronalaženja informacija dovela je do formiranja čitave industrije čiji je zadatak upravo da pomogne korisniku u snalaženju u sajber prostoru. Ovu industriju čine posebniusluge pretraživanja ili usluge. Tradicionalno se dijele na:

  • imenike ili katalozi
  • tražilice

Ove sorte su vizualno vrlo slične jer“svaki direktorij ima svoju tražilicu, a svaka tražilica ima svoj direktorij”. Međutim, principi njihovog rada zasnivaju se na potpuno drugačijim pristupima i tehnologijama. Štaviše, svaka vrsta usluge pretraživanja koristi se za rješavanje određene vrste problema. Pretraživanje informacija uključuje korištenje određenih strategija, metoda, mehanizama i sredstava. Ponašanje korisnika koji upravlja procesom pretraživanja određeno je ne samo potrebom za informacijama, već i instrumentalnom raznolikošću sistema – tehnologijama i alatima koje sistem pruža. Izbor alata je u velikoj mjeri određenstrategija pretraživanja i tehnologije pretraživanja.

Tehnologije pretraživanja- objedinjene (optimizovane u okviru specifičnog sistema za pronalaženje informacija) sekvence za efikasno korišćenje pojedinačnih alata za pretragu u procesu interakcije korisnika sa sistemom.

Po korištenim tehnologijama pretraživanjaInformacioni sistemi se mogu podeliti u 3 kategorije:

  • tematski katalozi i specijalizirani katalozi (online imenici);
  • tražilice (pretraga cijelog teksta);
  • meta alati za pretraživanje.

Predmetni katalozipredviđaju obradu dokumenata i njihovo svrstavanje u jednu od nekoliko kategorija čija je lista unaprijed određena. Zapravo, ovo je poznato svim bibliotekarimaindeksiranje zasnovano na klasifikaciji. Specijalizovani katalozi ili referentne knjige kreirani su za određene industrije i teme.Pretraživači(najnapredniji alat za pretraživanje na Internetu) implementirati tehnologiju pretraživanja punog teksta. Tekstovi koji se nalaze na traženim serverima se indeksiraju.Prilikom korištenja sredstava metasearch zahtjev se istovremeno izvršava od strane nekoliko pretraživača. Rezultat pretrage se kombinuje u zajedničku listu, poredanu po relevantnosti.

Alati za pretraživanje - međuovisni kompleks jezika za pronalaženje informacija i jezika za definisanje/upravljanje podacima, koji pruža strukturne i semantičke transformacije objekata obrade (dokumenti, rječnici, skupovi rezultata pretraživanja).

1. Imenici

Alati za pretragu prve grupe su elektronski imenici koji imaju jasnu hijerarhijsku sistematsku ili logičko-tematsku strukturu,slično strukturi sistematskog bibliotečkog kataloga. Rad sa priručnikom omogućava vam da se krećete po Internet resursima unutar pojedinačnih grana znanja, dublje od opšteg ka specifičnom, mijenjajući hijerarhijske grane, vraćajući se nekoliko koraka unazad, itd.

Među ruskim dostignućima u ovoj oblasti su:

  • Aport (adresa: www.aport.ru),
  • List.ru (adresa: list.mail.ru),
  • Weblist (adresa: www.weblist.ru),
  • Ivan Susanin (adresa: www.susanin.net)
  • Puž (adresa: www.ulitka.ru).

Glavna karakteristika referentnih knjiga je da se izrađuju ručno. Uredništvo svake od priručnika, kojepriroda posla podseća na odeljenja za katalogizaciju i sistematizaciju velikih biblioteka, redovno pregledavati sadržaj novonastalih servera i pratiti promjene na postojećim. Identifikovani podaci se analiziraju i unose u sekcije imenika u skladu sa prihvaćenom klasifikacijom. Opis servera u cjelini (ili odjeljka, ako se čini da je potpuno nezavisan blok) ima kratku napomenu koja sadrži opće informacije o prirodi dostupnih informacija. U nekim slučajevima se unose dodatne informacije o jeziku dokumenata, prometu resursa, njegovoj fizičkoj lokaciji itd.

Glavni parametri koji karakterišu prednosti referentnih knjiga su:

  • volumen;
  • efikasnost odražavanja novih ili promijenjenih resursa;
  • konzistentnost i konzistentnost hijerarhijske klasifikacione šeme;
  • unakrsna struktura.

Volumen imenika je određen stepenom njegove pouzdanosti ili “snaga informacija". U nekim sistemima postoji poseban mehanizam koji povremeno provjerava dostupnost web-mjesta i isključuje ga sa liste ako je duže vrijeme „odsutan“ na Internetu. Logička (naučna) priroda korišćene klasifikacione šeme određuje stepen lakoće sa kojom korisnici pronalaze tražene informacije. Sistemunakrsne referenceomogućava vam da identifikujete informacije koristeći različite pristupe (na primjer, teritorijalni ili sektorski). U ovom slučaju, klasifikaciona šema bi trebala automatski dovesti korisnika do željenog objekta, bez obzira koji je put pretraživanja odabran.

Mogućnost sastavljanja upita za ovu vrstu alata za pretraživanje ne igra posebnu ulogu. Složena pretraživanja koja zahtijevaju detaljan zahtjev ne provode se pomoću kataloga.

Imenici su namijenjeni rješavanjutri vrste zadataka:

  • orijentacija u nepoznatu granu znanja;
  • traženje velikih objekata, kao što su, na primjer, serveri organizacija ili značajnih projekata;
  • dobijanje gotove liste resursa koji imaju zamućenu sliku pretrage (biblioteke određene vrste, rasporedi transporta ili web stranice političkih stranaka itd.)

Drugi primjer je poređenje direktorija resursa sa sistematskim bibliotečkim katalogom, u kojem od knjige ostaju samo opis i napomena (u ovom slučaju, cijela web stranica).

2. Pretraživači

Rad sistema za pretraživanje (pretraživača) zasniva se na potpuno drugačijim tehnološkim principima. Zadatak pretraživača je da pruže detaljnu pretragu informacija, što se može postići samo računovodstvenim ( indeksiranje ) sadržaj maksimalnog mogućeg broja web stranica. Za razliku od imenika, pretraživači rade u automatizovanom režimu i imaju jedinstven princip rada.

Pretraživači imaju dvije osnovne komponente. Prva komponenta je program robota , čiji je zadatak da se kreće sa servera na server i tamo pronalazi nove (ili promijenjene) dokumente, preuzimajući ih na glavni računar sistema. Robot skenira sadržaj dokumenta, pronalazi nove veze, kako do drugih dokumenata na serveru, tako i do vanjskih stranica. Zatim program samostalno prati navedene veze, pronalazi nove dokumente, nakon čega se proces ponovo ponavlja,podsjeća na "metod grudve snijega" dobro poznat u bibliografiji. Identifikovani dokumenti se obrađuju (indeksiraju) od strane druge komponente pretraživača. U ovom slučaju, u pravilu se uzima u obzir cjelokupni sadržaj stranice, uključujući tekst, ilustracije, audio i video datoteke. Sve riječi u dokumentu su indeksirane, što omogućava korištenje pretraživača za detaljna pretraživanja najužih tema. Obrazovan indeksne datoteke , pohranjivanje informacija o tome koja se ključna riječ koristi, koliko puta, u kojem dokumentu i na kojem serveru, čine bazu podataka kojoj pristupa bibliotekar koji upisuje kombinacije ključnih riječi u string upita.

Rezultati se izlaze pomoću posebnog modula koji proizvodiinteligentno rangiranje rezultata . U ovom slučaju se uzima u obzir sljedeće:

  • lokacija termina u dokumentu (naslov, naslov, glavni tekst), učestalost njegovog ponavljanja,
  • postotak pojma za pretragu prema tekstu stranice,
  • broj i autoritet eksternih linkova na ovu stranicu sa drugih stranica.

TO osnovni parametri pretraživača uključuju:

  • broj indeksiranih servera i pojedinačnih dokumenata (volumen indeksnih datoteka);
  • stepen efikasnosti ažuriranja baze podataka uključivanjem informacija o novim materijalima i uklanjanjem zastarjelih;
  • mogućnosti za podnošenje zahteva;
  • inteligencija sistema rangiranja rezultata pretrage;
  • prisutnost dodatnih servisnih funkcija koje olakšavaju rad korisnika.

Sposobnost pretraživača da što preciznije izrazi upit u velikoj meri određuje kvalitet dobijenih rezultata. Svaka mašina ima svoj vokabular, koji omogućava detalje na različite načine.specifikacija pretrage.

Svi pretraživači imajumodul za rangiranje rezultata pretrage. Ovo je druga osnovna komponenta svih sistema. Lista faktora koji se uzimaju u obzir prilikom određivanja mjesta dokumenta na listi linkova je neobično široka: od lokacije riječi na stranici do ocjene (autoriteta) stranica koje imaju linkove na pronađeni dokument.

  • Google (adresa: www.google.com),
  • AlltheWeb (adresa: www.alltheweb.com),
  • Alta Vista (adresa: www.altavista.com).

Slični alati za pretraživanje postoje u Rusiji. Svi su dizajnirani za rad s dokumentima na ruskom jeziku i imaju moć http://www.metabot.ru).

Zaključci na temu bloka predavanja

Pretraživač bira stranice iz baze podataka u skladu sa zahtjevom, zatim se stranice poredaju u opadajućem redoslijedu podudaranja (napomena A.A.)

U ovom slučaju postoji direktna analogija sa principima rada distribuiranih bibliotečkih kataloga. Ključna prilika meta pretraga je mogućnost slanja korisničkih zahtjeva istovremeno različitim pretraživačima - uz naknadno zbrajanje rezultata. (bilješka A.A.)

Kada se okrene priručniku, bibliotekar može očekivati ​​da dobije samo vrlo opšte informacije o temi, a nikada detaljne podatke: sa servera velike korporacije koji sadrži hiljade stranica, priručnik će sadržati samo naslov i nekoliko redaka anotacija.

  • Sergej Savenkov

    nekakav “kratki” osvrt...kao da im se negdje žuri