Istoria dezvoltării motoarelor de căutare. Istoria dezvoltării motoarelor de căutare Istoria în motorul de căutare american

Care a fost primul motor de căutare din Runet? Yandex, Aport sau Rambler?

Primele motoare de căutare Runet (dintre care, potrivit unuia dintre fondatorii Rambler, au fost 2 sau 3) s-au scufundat foarte repede în uitare. Printre acestea au fost prelungiri morfologice ale sistemului AltaVista, care nu ne-au lăsat numele. Prin urmare, va trebui să alegem dintre cei care rămân:

Hoinar

Crearea „Rambler” a început în 1996, când existau doar câteva zeci de site-uri în segmentul rus al internetului. Dezvoltarea sa încheiat în toamna acelui an. Domeniul rambler.ru a fost înregistrat pe 26 septembrie și 8 octombrie 1996, de ziua unuia dintre creatori, Rambler a fost deschis utilizatorilor.

Rambler - primul motor de căutare din Runet dintre cele existente în prezent.

Motorul de căutare Aport a fost dezvoltat până în februarie 1996, dar la acel moment căuta doar pe site-ul russia.agama.com. Treptat, numărul site-urilor a crescut și până la deschiderea oficială 11 noiembrie 1997 ani, „Aport” căuta deja 10.000 de site-uri. Astfel, „Aport” a fost unul dintre primele motoare de căutare din Runet, dar din cauza domeniului limitat al căutării, nu poate fi recunoscut ca fiind cel mai vechi.

Yandex

CompTek, care a dezvoltat Yandex, a fost fondată în 1989. În 1993, CompTek a dezvoltat Yandex, un program de căutare pe hard disk. În 1996, a fost adăugată programului posibilitatea de a căuta pe Web. În 1997, a fost scris primul robot de căutare, a fost indexat Runetul și 23 septembrie 1997 anul, a avut loc prezentarea oficială a Yandex.

Yandex de la CompTek nu este cel mai vechi, dar tehnologiile lor de căutare și cercetarea în lingvistică și morfologie sunt cele mai vechi din Rusia.

În primele zile ale internetului, utilizatorii erau o minoritate privilegiată, iar cantitatea de informații disponibile era relativ mică. La acea vreme, aveau acces în principal angajații diferitelor instituții de învățământ și laboratoare mari, iar datele obținute erau folosite în scopuri științifice. La acea vreme, utilizarea Web-ului nu era la fel de relevantă ca acum.

În 1990 Omul de știință britanic Tim Berners-Lee (care este și inventatorul URI, URL, HTTP, World Wide Web) a creat site-ul web info.cern.ch, care este primul director accesibil de site-uri Internet din lume. Din acel moment, internetul a început să câștige popularitate nu numai în rândul comunității științifice, ci și în rândul proprietarilor obișnuiți de computere personale.

Astfel, prima modalitate de a facilita accesul la resursele informaționale de pe Internet a fost formarea de cataloage de site-uri. Legăturile către resursele din acestea au fost grupate pe subiecte.

Primul proiect de acest gen este considerat a fi Yahoo, deschis în aprilie 1994. Datorită creșterii rapide a numărului de site-uri din acesta, în curând a devenit posibilă căutarea informațiilor necesare la cerere. Desigur, nu era încă un motor de căutare cu drepturi depline. Căutarea a fost limitată doar la datele care se aflau în director.

În primele etape ale dezvoltării internetului, directoarele de link-uri au fost folosite foarte activ, dar și-au pierdut treptat popularitatea. Motivul este simplu: chiar dacă există multe resurse în directoarele moderne, acestea arată totuși doar o mică parte din informațiile disponibile pe Internet. De exemplu, cel mai mare director de rețea este - DMOZ(Proiect Open Directory). Conține informații despre puțin peste cinci milioane de resurse, ceea ce este incomensurabil cu baza de căutare Google care conține peste opt miliarde de documente.

Cel mai mare catalog în limba rusă este catalogul Yandex. Conține informații despre puțin peste o sută patru mii de resurse.

Cronologia dezvoltării motoarelor de căutare

1945- Inginerul american Vannevar Bush a publicat note despre ideea care a dus mai târziu la inventarea hipertextului, și o discuție despre necesitatea dezvoltării unui sistem de extragere rapidă a datelor din informațiile stocate în acest mod (echivalentul motoarelor de căutare actuale). Conceptul de dispozitiv de expandare a memoriei pe care l-a introdus conținea idei originale, care, în cele din urmă, au fost întruchipate pe Internet.

anii 1960 Gerard Salton și grupul său de la Universitatea Cornell au dezvoltat sistemul SMART de regăsire a informațiilor. SMART este un acronim pentru Salton's Magic Automatic Retriever of Text. Gerard Salton este considerat părintele tehnologiei moderne de căutare.

1987-1989 - dezvoltat Archie— motor de căutare pentru indexarea arhivelor FTP. Archie a fost un script care automatizează inserarea în listele de pe serverele ftp, care sunt apoi transferate în fișiere locale și abia apoi se efectuează o căutare rapidă a informațiilor necesare în fișierele locale. Căutarea s-a bazat pe comanda standard Unix grep, iar accesul utilizatorului la date s-a bazat pe telnet.

În versiunea următoare, datele au fost împărțite în baze de date separate, dintre care una conținea doar nume de fișiere text; iar celălalt - intrări cu link-uri către directoare ierarhice de o mie de gazde; și încă unul care leagă primele două. Această versiune de Archie a fost mai eficientă decât cea anterioară, deoarece căuta doar nume de fișiere, eliminând multe dintre repetările anterioare.

Motorul de căutare a devenit din ce în ce mai popular, iar dezvoltatorii s-au gândit cum să-și accelereze activitatea. Baza de date menționată mai sus a fost înlocuită cu alta bazată pe teoria arborelui comprimat. Noua versiune a creat în esență o bază de date full text în loc de o listă de nume de fișiere și a fost semnificativ mai rapidă decât înainte. În plus, modificări minore au permis sistemului Archie să indexeze paginile web. Din păcate, din diverse motive, lucrările la Archie au încetat curând.

În 1993 a creat primul motor de căutare din lume pentru World Wide Web Wandex. S-a bazat pe botul World Wide Web Wanderer dezvoltat de Matthew Gray de la Massachusetts Institute of Technology.

1993– creează Martin Coster Aliweb unul dintre primele motoare de căutare de pe World Wide Web. Proprietarii site-urilor au fost nevoiți să le adauge ei înșiși la indexul Aliweb pentru ca aceștia să apară în căutare. Din moment ce prea puțini webmasteri au făcut-o, Aliweb nu a devenit popular.

20 aprilie 1994– a eliberat Brian Pinkerton de la Universitatea din Washington crawler web- primul bot care a indexat paginile complet. Principala diferență dintre motorul de căutare și predecesorii săi este capacitatea utilizatorilor de a căuta orice cuvânt cheie pe orice pagină web. Astăzi, această tehnologie este standardul de căutare al oricărui motor de căutare. Motorul de căutare WebCrawler a fost primul sistem cunoscut unei game largi de utilizatori. Din păcate, debitul nu era mare și sistemul era adesea indisponibil în timpul zilei.

20 iulie 1994- deschis Lycos- o dezvoltare serioasă în tehnologia de căutare, creată la Universitatea Carnegie Melon. Michael Maldin a fost responsabil de acest motor de căutare și este încă persoana principală la Lycos Inc. Lycos s-a deschis cu un catalog de 54.000 de documente. Și în plus, rezultatele pe care le-a oferit au fost clasate, plus că a ținut cont de prefixe și potriviri aproximative. Dar principala diferență a Lycos a fost catalogul său în continuă creștere: până în noiembrie 1996, 60 de milioane de documente fuseseră indexate, mai mult decât orice alt motor de căutare al vremii.

ianuarie 1994- a fost fondat infoseek. Nu a fost cu adevărat inovator, dar a avut o serie de completări utile. O astfel de completare populară a fost posibilitatea de a adăuga pagina în timp real.

1995- lansat AltaVista. După ce a apărut, motorul de căutare AltaVista a câștigat rapid recunoașterea de la utilizatori și a devenit un lider în rândul său. Sistemul avea la acea vreme practic o lățime de bandă nelimitată, a fost primul motor de căutare în care era posibil să se formuleze interogări în limbaj natural, precum și să se formuleze interogări complexe. Utilizatorilor li s-a permis să adauge sau să elimine propriile adrese URL în decurs de 24 de ore. AltaVista a oferit și o mulțime de sfaturi și trucuri pentru căutare. Principalul merit al sistemului AltaVista este suportul pentru multe limbi, inclusiv chineză, japoneză și coreeană. Într-adevăr, în 1997, niciun motor de căutare de pe Web nu funcționa cu mai multe limbi, în special cu unele rare.

1996- Motorul de căutare AltaVista a lansat o extensie morfologică pentru limba rusă. În același an, au fost lansate primele motoare de căutare interne, Rambler.ru și Aport.ru. Apariția primelor motoare de căutare interne a marcat o nouă etapă în dezvoltarea Runetului, permițând utilizatorilor vorbitori de limbă rusă să facă o solicitare în limba lor maternă, precum și să răspundă rapid la schimbările care au loc în web.

20 mai 1996- a apărut corporația Inktomi împreună cu motorul său de căutare hotbot. Creatorii săi au fost două echipe de la Universitatea din California. Când a apărut site-ul, a devenit rapid popular. În octombrie 2001, Danny Sullivan a scris un articol intitulat „Inktomi’s Spam Database Opened to the Public” care descria modul în care Inktomi și-a făcut accidental baza de date cu site-uri de spam, care la acel moment avea deja aproximativ 1 milion de adrese URL, disponibile publicului.

1997- în țările occidentale, există un punct de cotitură în dezvoltarea motoarelor de căutare, când S. Brin și L. Page de la Universitatea Stanford au fondat Google(numele original al proiectului BackRub). Au dezvoltat propriul motor de căutare, care le-a oferit utilizatorilor posibilitatea de a efectua căutări de înaltă calitate, ținând cont de morfologie, cuvintele scrise greșit și, de asemenea, de a crește relevanța în rezultatele căutării.

23 septembrie 1997– a anunțat Yandex, care a devenit rapid cel mai popular motor de căutare în rândul utilizatorilor de internet vorbitori de limbă rusă. Odată cu lansarea motorului de căutare Yandex, motoarele de căutare interne au început să concureze între ele, îmbunătățind sistemul de căutare și site-urile de indexare, emitând rezultate, precum și oferind noi servicii și servicii.

Astfel, dezvoltarea motoarelor de căutare și formarea lor poate fi caracterizată prin etapele enumerate mai sus.

Până în prezent, trei lideri s-au stabilit pe piața globală - Google, Yahoo și Bing. Au propriile baze de date și proprii algoritmi de căutare. Multe alte motoare de căutare folosesc rezultatele acestor trei motoare de căutare majore. De exemplu, AOL folosește baza de date Google în timp ce AltaVista, Lycos și AllTheWeb folosesc baza de date Yahoo.Toate celelalte motoare de căutare, în diferite combinații, folosesc rezultatele (rezultatele) motoarelor listate.

Dacă facem o analiză similară a motoarelor de căutare populare în țările CSI, vom vedea că mail.ru difuzează căutarea Google, în timp ce își impune noile dezvoltări, Rambler, la rândul său, difuzează Yandex. Prin urmare, întreaga piață Runet poate fi împărțită între acești doi giganți.

De aceea, în țările CSI, promovarea site-ului web, de regulă, se realizează numai în aceste două PS.

În primii ani ai dezvoltării comunității internetului, utilizatorii activi de internet erau o minoritate, iar cantitatea de informații despre resursele de internet era relativ mică. În cea mai mare parte, doar angajații laboratoarelor științifice și ai instituțiilor de învățământ mari aveau acces la rețeaua mondială de informații. În general, utilizarea unei resurse de rețea nu a fost la fel de relevantă ca astăzi.

Istoria motoarelor de căutare

Un mare pas către răspândirea internetului în masă a fost apariția în 1990 a site-ului web info.centr.ch. Acest site a fost primul director public de site-uri de internet. Creatorul este savantul britanic Tim Berners-Lee, care este considerat și creatorul URI, HTTP, World Wide Web și URL. Din acel moment, site-urile de internet au devenit relevante nu numai în cercurile specializate de utilizatori, ci și în rândul proprietarilor obișnuiți de computere de acasă. În acest director, pentru comoditate, resursele informaționale au fost aranjate pe grupuri pe teme similare, ceea ce facilitează foarte mult căutarea informațiilor.

Dar progresul nu s-a oprit aici și, în 1994, s-a născut tehnologia de căutare dezvoltată de Universitatea Carnegie, cunoscută sub numele de Lucos. Acest catalog, care a fost creat de Michael Maldin, a început cu o resursă de peste 50.000 de documente. În Lucos, interogările au fost considerate potriviri aproximative ale interogării, iar rezultatul căutării a fost clasat în funcție de potrivirea dintre informațiile de intrare și de ieșire. Și, de asemenea, a existat o completare constantă a resursei cu noi pagini de internet. Până în noiembrie, Lucos avea peste 55 de milioane de pagini și documente, mult mai mult decât orice catalog de documente al zilei.

La sfârșitul anului 1994 a apărut resursa Infosek. Avea o serie de avantaje față de alte resurse. De exemplu, adăugarea site-urilor de către utilizator la baza de date a catalogului în timp real.

Noul monstru motor de căutare din 1995 a fost AltaVista. Ea a câștigat rapid popularitate în rândul utilizatorilor de internet și a ocupat o poziție de lider în domeniul său. Caracteristica sa principală a fost capacitatea de a formula interogări într-un limbaj natural, colocvial, precum și utilizatorilor li se permitea să adauge propriile adrese URL. Dar totuși, principalul merit al AltaVista a fost suportul pentru pachete de limbi multiple, cum ar fi coreeana, japoneză și chineză, precum și rusă.

Un pas uriaș în tehnologia de căutare a fost apariția unui nou motor de căutare pe Internet, al cărui nume este auzit în prezent de fiecare utilizator, și anume Google. În 1997, L. Page și S. Brin de la Universitatea Stanford au introdus noi caracteristici în algoritmii de căutare ai descendenților lor. În căutare s-au folosit sisteme de relevanță a rezultatelor căutării emise de sistem, iar la interogare s-a luat în considerare morfologia și eventualele erori de ortografie.

Există trei lideri majori pe piața motoarelor de căutare în zilele noastre: Bing, Google și Yahoo. Au la dispoziție algoritmi de căutare și baze de date de producție proprie. Multe motoare de căutare, dintre care există multe, folosesc evoluțiile acestor trei titani printre motoarele de căutare.

Datorită motoarelor de căutare, unui om obișnuit a devenit mai ușor să descopere întinderile vaste ale câmpului informațional. Fără dezvoltarea lor, este imposibil să se îmbunătățească modalitățile de schimb de informații între oameni.

Arhitectura unui motor de căutare include de obicei:

YouTube enciclopedic

1 / 5

✪ Lecția 3: Cum funcționează un motor de căutare. Introducere în SEO

✪ Motor de căutare din interior

✪ Shodan - Google negru

✪ Motorul de căutare Cheburashka va înlocui Google și Yandex în Rusia

✪ Lecția 1 - Cum funcționează un motor de căutare

Subtitrări

Istorie

Cronologie
An	Sistem	Eveniment
1993	W3Catalog?!	lansa
	Aliweb	lansa
	JumpStation	lansa
1994	crawler web	lansa
	infoseek	lansa
	Lycos	lansa
1995	AltaVista	lansa
	Daum	Baza
	text deschis index web	lansa
	Magellan	lansa
	Excita	lansa
	SAPO	lansa
	Yahoo!	lansa
1996	Dogpile	lansa
	Inktomi	Baza
	Hoinar	Baza
	hotbot	Baza
	Întreabă-l pe Jeeves	Baza
1997	Lumina Nordului	lansa
1997	Yandex	lansa
1998	Google	lansa
1999	AlltheWeb	lansa
	Genie Knows	Baza
	Naver	lansa
	Teoma	Baza
	Vivisimo	Baza
2000	Baidu	Baza
2000	Exalead	Baza
2003	info.com	lansa
2004	Yahoo! Căutare	Lansare finală
	A9.com	lansa
	sogou	lansa
2005	MSN Search	Lansare finală
	Ask.com	lansa
	Nigma	lansa
	bună căutare	lansa
Cauta-ma	Baza
2006	wikiseek	Baza
	Quaero	Baza
	Cautare in timp real	lansa
	ChaCha	Lansare (beta)
	Guruji.com	Lansare (beta)
2007	wikiseek	lansa
	Sproose	lansa
	Căutare Wikia	lansa
	blackle.com	lansa
2008	DuckDuckGo	lansa
	Tooby	lansa
	Picolator	lansa
	Viewzi	lansa
	Cuil	lansa
	Boogami	lansa
	LeapFish	Lansare (beta)
	Forestle	lansa
	VADLO	lansa
	set de putere	lansa
2009	Bing	lansa
	KAZ.KZ	lansa
	Yebol	Lansare (beta)
	Mugurdy	închidere
	cercetaș	lansa
2010	Cuil	închidere
	Blekko	Lansare (beta)
	Viewzi	închidere
2012	WAZZUB	lansa
2014	Satelit	Lansare (beta)

Într-un stadiu incipient al dezvoltării Internetului, Tim Berners-Lee a menținut o listă de servere web postată pe site-ul CERN. Au existat tot mai multe site-uri, iar menținerea manuală a unei astfel de liste a devenit din ce în ce mai dificilă. Site-ul NCSA avea o secțiune dedicată „Ce este nou!”. (ing. Ce este nou!), unde au publicat link-uri către site-uri noi.

Primul program de calculator pentru căutarea pe Internet a fost Archie(Engleză archie - arhivă fără litera „c”). A fost creat în 1990 de Alan Emtage, Bill Heelan și J. Peter Deutsch, studenți la informatică la Universitatea McGill din Montreal. Programul a descărcat liste cu toate fișierele de pe toate serverele FTP anonime disponibile și a construit o bază de date care putea fi căutată după numele fișierelor. Cu toate acestea, programul lui Archie nu a indexat conținutul acestor fișiere, deoarece cantitatea de date era atât de mică încât totul putea fi găsit cu ușurință manual.

Dezvoltarea și diseminarea protocolului de rețea Gopher, inventat în 1991 de Mark McCahill la Universitatea din Minnesota, a condus la crearea a două noi programe de căutare, Veronicași Jughead. La fel ca Archie, au căutat numele fișierelor și anteturile stocate în sistemele de index ale lui Gopher. Veronica (engleză) Foarte ușor, orientat spre rozătoare, index la nivel de rețea la arhivele computerizate) au permis căutări de cuvinte cheie pentru majoritatea titlurilor de meniu Gopher din toate listele Gopher. Programul Jughead Excavarea și afișarea ierarhiei universale a lui Jonzy) a preluat informații de meniu de la anumite servere Gopher. Deși numele motorului de căutare al lui Archie nu avea legătură cu seria de benzi desenate "Archie", cu toate acestea Veronica și Jughead sunt personaje din aceste benzi desenate.

Până în vara anului 1993, nu exista încă un singur sistem de căutare pe web, deși numeroase directoare specializate au fost întreținute manual. Oscar Nierstrasz de la Universitatea din Geneva a scris o serie de scripturi Perl care copiau periodic aceste pagini și le rescriu într-un format standard. Aceasta a devenit baza pentru W3Catalog?!, primul motor de căutare web primitiv, lansat pe 2 septembrie 1993.

Probabil că primul motor de căutare scris în Perl a fost „World Wide Web Wanderer”, un bot de Matthew Gray din iunie 1993. Acest robot a creat indexul de căutare „Wandex”. Scopul robotului Wanderer a fost să măsoare dimensiunea World Wide Web și să găsească toate paginile web care conțin cuvintele din interogare. În 1993, a apărut al doilea motor de căutare Aliweb. Aliweb nu a folosit un crawler, ci a așteptat în schimb notificări de la administratorii site-urilor web despre prezența unui fișier index într-un anumit format pe site-urile lor.

JumpStation, creat în decembrie 1993 de Jonathan Fletcher, a căutat și indexat pagini web folosind un crawler și a folosit un formular web ca interfață pentru formularea interogărilor de căutare. A fost primul instrument de căutare pe Internet care a combinat cele trei funcții esențiale ale unui motor de căutare (verificare, indexare și căutare reală). Datorită resurselor informatice limitate ale vremii, indexarea și, prin urmare, căutarea, era limitată doar la titlurile și titlurile paginilor web găsite de crawler.

Motoarele de căutare au participat la Dot-com Bubble de la sfârșitul anilor 1990. Mai multe companii au intrat pe piață într-un mod spectaculos, generând profituri record în timpul IPO-urilor lor. Unii au abandonat piața motoarelor de căutare publice și lucrează doar cu sectorul corporativ, cum ar fi Lumina Nordului.

Google a preluat ideea de a vinde cuvinte cheie în 1998, când era o companie mică care rula un motor de căutare la goto.com. Mișcarea a marcat o schimbare pentru motoarele de căutare de la concurența între ele la a deveni una dintre cele mai profitabile întreprinderi de afaceri de pe Internet. Motoarele de căutare au început să vândă companiile individuale primele locuri în rezultatele căutării.

Motorul de căutare Google a fost într-o poziție proeminentă încă de la începutul anilor 2000. Compania a atins o poziție înaltă datorită rezultatelor bune de căutare folosind algoritmul PageRank. Algoritmul a fost prezentat publicului în articolul „The Anatomy of Search Engine” scris de Sergey Brin și Larry Page, fondatorii Google. Acest algoritm iterativ clasifică paginile web pe baza unei estimări a numărului de hyperlinkuri către o pagină web, presupunând că paginile „bune” și „importante” primesc mai multe link-uri decât altele. Interfața Google este concepută într-un stil spartan, unde nu este nimic de prisos, spre deosebire de mulți dintre concurenții săi care au integrat motorul de căutare în portalul web. Motorul de căutare Google a devenit atât de popular încât au apărut imitatori ai acestuia, de exemplu, Căutător de mistere(motor de căutare secret).

Căutați informații în rusă

În 1996, a fost implementată o căutare ținând cont de morfologia rusă pe motorul de căutare Altavista și au fost lansate motoarele de căutare originale rusești Rambler și Aport. La 23 septembrie 1997, motorul de căutare Yandex a fost deschis. Pe 22 mai 2014, motorul național de căutare Sputnik a fost deschis de către Rostelecom, care la momentul anului 2015 se află în testare beta. Pe 22 aprilie 2015 a fost lansat un nou serviciu Sputnik. Copii special pentru copii cu siguranta sporita.

Metodele de analiză a clusterelor și căutarea metadatelor au câștigat o mare popularitate. Dintre mașinile internaționale de acest fel, cel mai faimos a fost "Clusty" companiilor Vivisimo. În 2005, cu sprijinul Universității de Stat din Moscova, motorul de căutare Nigma a fost lansat în Rusia, care acceptă gruparea automată. În 2006, a fost deschisă metamașina rusă Quintura, oferind grupare vizuală sub forma unui nor de etichete. Nigma a experimentat și gruparea vizuală.

Cum funcționează motorul de căutare

Principalele componente ale unui motor de căutare: robot de căutare, indexator, motor de căutare.

De regulă, sistemele funcționează în etape. În primul rând, crawler-ul primește conținutul, apoi indexerul generează un index care poate fi căutat și, în sfârșit, crawler-ul oferă funcționalitatea de a căuta datele indexate. Pentru a actualiza motorul de căutare, acest ciclu de indexare se repetă.

Motoarele de căutare funcționează prin stocarea informațiilor despre multe pagini web pe care le obțin din paginile HTML. Robot de căutare sau „crawler” (ing. Crawler) – un program care urmărește automat toate linkurile găsite pe pagină și le evidențiază. Crawler-ul, pe baza link-urilor sau pe baza unei liste predefinite de adrese, caută noi documente care nu sunt încă cunoscute de motorul de căutare. Proprietarul site-ului poate exclude anumite pagini folosind robots.txt , care poate fi folosit pentru a preveni indexarea fișierelor, paginilor sau directoarelor site-ului.

Motorul de căutare analizează conținutul fiecărei pagini pentru o indexare ulterioară. Cuvintele pot fi extrase din titluri, textul paginii sau câmpuri speciale - meta-etichete. Un indexator este un modul care analizează o pagină, după împărțirea ei în părți, folosind proprii algoritmi lexicali și morfologici. Toate elementele unei pagini web sunt izolate și analizate separat. Datele paginilor web sunt stocate într-o bază de date index pentru a fi utilizate în solicitările ulterioare. Indexul vă permite să găsiți rapid informații despre solicitarea utilizatorului. O serie de motoare de căutare, cum ar fi Google, stochează toată sau o parte din pagina originală, așa-numita cache, precum și diverse informații despre pagina web. Alte sisteme, cum ar fi AltaVista, stochează fiecare cuvânt din fiecare pagină găsită. Utilizarea memoriei cache ajută la accelerarea extragerii informațiilor din paginile deja vizitate. Paginile stocate în cache conțin întotdeauna textul specificat de utilizator în interogarea de căutare. Acest lucru poate fi util atunci când pagina web a fost actualizată, adică nu mai conține textul solicitării utilizatorului, iar pagina din cache este încă veche. Această situație este legată de pierderea legăturilor (ing. linkrot) și abordarea Google ușor de utilizat (utilizabilitate). Aceasta implică emiterea unor bucăți scurte de text din memoria cache care conține textul interogării. Se aplică principiul celei mai mici surprize, utilizatorul se așteaptă de obicei să vadă cuvintele căutate în textele paginilor primite ( așteptările utilizatorilor). Pe lângă accelerarea căutărilor folosind paginile din cache, paginile din cache pot conține informații care nu mai sunt disponibile în altă parte.

Motorul de căutare funcționează cu fișierele de ieșire primite de la indexator. Motorul de căutare acceptă cererile utilizatorilor, le procesează folosind un index și returnează rezultatele căutării.

Când un utilizator introduce o interogare într-un motor de căutare (de obicei folosind cuvinte cheie), sistemul își verifică indexul și returnează o listă cu cele mai relevante pagini web (sortate după un anumit criteriu), de obicei cu o scurtă adnotare care conține titlul documentului și uneori părți ale textului. Indexul de căutare este construit după o tehnică specială bazată pe informații extrase din paginile web. Din 2007, motorul de căutare Google vă permite să căutați în funcție de timp, să creați documentele pe care le căutați (apelați meniul „Instrumente de căutare” și specificați intervalul de timp). Majoritatea motoarelor de căutare acceptă utilizarea operatorilor boolean AND, OR, NOT în interogări, ceea ce vă permite să rafinați sau să extindeți lista de cuvinte cheie căutate. În acest caz, sistemul va căuta cuvinte sau expresii exact așa cum au fost introduse. Unele motoare de căutare permit căutare aproximativă, în acest caz, utilizatorii extind zona de căutare specificând distanța până la cuvintele cheie . Există, de asemenea căutare conceptuală, care utilizează o analiză statistică a utilizării cuvintelor și expresiilor de căutare în textele paginilor web. Aceste sisteme vă permit să compuneți interogări în limbaj natural. Un exemplu de astfel de motor de căutare este site-ul ask com.

Utilitatea unui motor de căutare depinde de relevanța paginilor pe care le găsește. În timp ce milioane de pagini web pot include un cuvânt sau o expresie, unele pot fi mai relevante, populare sau mai autorizate decât altele. Majoritatea motoarelor de căutare folosesc metode de clasare pentru a aduce cele mai bune rezultate în fruntea listei. Motoarele de căutare decid ce pagini sunt mai relevante și în ce ordine rezultatele ar trebui afișate în moduri diferite. Metodele de căutare, precum Internetul însuși, se schimbă în timp. Astfel, au apărut două tipuri principale de motoare de căutare: sisteme de cuvinte cheie predefinite și ordonate ierarhic și sisteme în care se generează un index inversat pe baza analizei textului.

Majoritatea motoarelor de căutare sunt întreprinderi comerciale care realizează profit din publicitate, în unele motoare de căutare poți cumpăra poziții de top în rezultatele căutării pentru anumite cuvinte cheie contra cost. Acele motoare de căutare care nu taxează pentru ordinea rezultatelor, câștigă din publicitate contextuală, în timp ce mesajele publicitare corespund solicitării utilizatorului. Astfel de anunțuri sunt afișate pe pagină cu o listă de rezultate de căutare, iar motoarele de căutare câștigă de fiecare dată când un utilizator dă clic pe mesaje publicitare.

Tipuri de motoare de căutare

Există patru tipuri de motoare de căutare: robotizate, conduse de oameni, hibride și metasisteme.

sisteme care utilizează roboți de căutare

Acestea constau din trei părți: un crawler („bot”, „robot” sau „păianjen”), un index și un software pentru motor de căutare. Crawler-ul este necesar pentru a ocoli rețeaua și pentru a crea liste de pagini web. Un index este o arhivă mare de copii ale paginilor web. Scopul software-ului este de a evalua rezultatele căutării. Datorită faptului că crawler-ul din acest mecanism explorează în mod constant rețeaua, informațiile sunt mai actualizate. Majoritatea motoarelor de căutare moderne sunt sisteme de acest tip.

sisteme controlate de om (cataloage de resurse)

Aceste motoare de căutare primesc liste de pagini web. Directorul conține adresa, titlul și o scurtă descriere a site-ului. Catalogul de resurse caută rezultate numai din descrierile paginilor trimise acestuia de webmasteri. Avantajul directoarelor este că toate resursele sunt verificate manual, prin urmare, calitatea conținutului va fi mai bună în comparație cu rezultatele obținute automat de sistemul de primul tip. Dar există și un dezavantaj - actualizarea acestor directoare se face manual și poate rămâne semnificativ în urma situației reale. Clasamentul paginilor nu se poate schimba instantaneu. Exemple de astfel de sisteme sunt directorul Yahoo, dmoz și Galaxy.

sisteme hibride

Motoarele de căutare precum Yahoo, Google, MSN combină funcțiile sistemelor folosind roboți de căutare și sisteme controlate de om.

meta-sisteme

Motoarele de metacăutare combină și clasifică rezultatele mai multor motoare de căutare simultan. Aceste motoare de căutare erau utile atunci când fiecare motor de căutare avea un index unic, iar motoarele de căutare erau mai puțin „inteligente”. Deoarece căutarea s-a îmbunătățit atât de mult acum, nevoia de ele a scăzut. Exemple: MetaCrawlerși MSN Search.

Piața motoarelor de căutare

Google este cel mai popular motor de căutare din lume, cu o cotă de piață de 68,69%. Bing ocupă poziţia a doua, cota sa fiind de 12,26%.

Cele mai populare motoare de căutare din lume:

Sistem de căutare	Cota de piata in iulie 2014	Cota de piata in octombrie 2014	Cota de piata in septembrie 2015
Google	68,69 %	58,01 %	69,24%
Baidu	17,17 %	29,06 %	6,48%
Bing	6,22 %	8,01 %	12,26%
Yahoo!	6,74 %	4,01 %	9,19%
AOL	0,13 %	0,21 %	1,11%
Excita	0,22 %	0,00 %	0,00 %
Cere	0,13 %	0,10 %	0,24%

Asia

În țările din Asia de Est și în Rusia, Google nu este cel mai popular motor de căutare. În China, de exemplu, mai popular motor de căutare Soso?!.

În Coreea de Sud, portalul de căutare proprietar al Naver este folosit de aproximativ 70% din Yahoo! Japonia și Yahoo! Taiwan sunt cele mai populare motoare de căutare din Japonia și, respectiv, Taiwan.

Rusia și motoarele de căutare în limba rusă

Conform datelor LiveInternet din iunie 2015 privind acoperirea interogărilor de căutare în limba rusă:

Toate limbi:
- Yahoo! (0,1%) și motoarele de căutare deținute de această companie: Inktomi, AltaVista , Alltheweb
vorbitor de limba engleza si international:
- Întreabă-l pe Jeeves(mecanismul Teoma)
Limbă rusă - majoritatea motoarelor de căutare „vorbitoare rusă” indexează și caută texte în multe limbi - ucraineană, belarusă, engleză, tătără și altele. Ele diferă de sistemele „toate limbi” care indexează toate documentele la rând, prin aceea că indexează în principal resursele situate în zonele de domeniu în care domină limba rusă sau, altfel, își limitează roboții la site-uri în limba rusă.

Unele dintre motoarele de căutare folosesc algoritmi de căutare externi.

Date cantitative ale motorului de căutare Google

Numărul de utilizatori de Internet și motoare de căutare și cerințele utilizatorilor pentru aceste sisteme este în continuă creștere. Pentru a crește viteza de căutare a informațiilor necesare, motoarele de căutare mari conțin un număr mare de servere. Serverele sunt de obicei grupate în centre de servere (centre de date). Motoarele de căutare populare au centre de server împrăștiate în toată lumea.

În octombrie 2012, Google a lansat proiectul Where the Internet Lives, unde utilizatorilor li se oferă posibilitatea de a se familiariza cu centrele de date ale companiei.

Motorul de căutare Google știe următoarele despre activitatea centrelor de date:

Capacitatea totală a tuturor centrelor de date Google, începând cu 2011, a fost estimată la 220 MW.
Când Google a plănuit să deschidă un nou complex cu trei clădiri de 6,5 milioane m² în Oregon în 2008, Harper's Magazine a estimat că un complex atât de mare ar consuma peste 100 MW de energie electrică, ceea ce este comparabil cu consumul de energie al unui oraș de 300.000 de oameni. .
Numărul estimat de servere Google în 2012 este de 1.000.000.
Cheltuielile Google pentru centrele de date au fost de 1,9 miliarde de dolari în 2006 și de 2,4 miliarde de dolari în 2007.

Dimensiunea World Wide Web indexată de Google în decembrie 2014 este de aproximativ 4,36 miliarde de pagini.

Motoare de căutare care țin cont de interdicțiile religioase

Răspândirea globală a internetului și popularitatea tot mai mare a dispozitivelor electronice în lumea arabă și musulmană, în special în țările din Orientul Mijlociu și subcontinentul indian, au contribuit la dezvoltarea motoarelor de căutare locale care țin cont de tradițiile islamice. Astfel de motoare de căutare conțin filtre speciale care ajută utilizatorii să evite accesarea site-urilor interzise, cum ar fi site-urile cu pornografie, și le permit să utilizeze numai acele site-uri al căror conținut nu este contrar credinței islamice. Cu puțin timp înainte de luna musulmană Ramadan, în iulie 2013, a fost introdusă lumea Google-ul halal- un sistem care oferă utilizatorilor numai linkuri „corecte” halal prin filtrarea rezultatelor căutării primite de la alte motoare de căutare precum Google și Bing. Cu doi ani mai devreme, în septembrie 2011, motorul de căutare I'mHalal a fost lansat pentru a servi utilizatorilor din Orientul Mijlociu. Totuși, acest serviciu de căutare a trebuit să fie închis în scurt timp, potrivit proprietarului, din lipsă de finanțare.

Lipsa investițiilor și ritmul lent de difuzare a tehnologiei în lumea musulmană a împiedicat progresul și a împiedicat succesul unui motor de căutare islamic serios. Eșecul investițiilor uriașe în proiecte web de stil de viață musulman, dintre care unul a fost Muxlim. El a primit milioane de dolari de la investitori precum Rite Internet Ventures și acum - conform ultimei postări de la I'mHalal înainte de a se închide - vine cu ideea dubioasă că „următorul Facebook sau Google ar putea fi doar la mijloc. Est. dacă ne susțineți tineretul strălucit." Cu toate acestea, experții islamici în internet s-au ocupat de ani de zile să definească ceea ce este sau nu în conformitate cu Sharia și clasifică site-urile drept „halal” sau „haram”. Toate motoarele de căutare islamice anterioare și actuale sunt doar un set de date indexat special, sau sunt motoare de căutare majore, cum ar fi Google, Yahoo și Bing, cu un fel de sistem de filtrare folosit pentru a împiedica utilizatorii să acceseze site-uri haraam, cum ar fi site-uri despre nuditate, LGBT, jocurile de noroc și orice altceva care este considerat anti-islam.

Printre alte motoare de căutare orientate spre religie, Jewogle, versiunea evreiască a Google și SeekFind.org, un site creștin care include filtre pentru a ține utilizatorii departe de conținutul care le-ar putea submina sau slăbi credința, sunt comune.

Rezultate personale și bule de filtrare

Multe motoare de căutare, cum ar fi Google și Bing, folosesc algoritmi pentru a ghici selectiv ce informații ar dori să vadă un utilizator pe baza activităților sale anterioare pe sistem. Drept urmare, site-urile web afișează doar informații care sunt în concordanță cu interesele trecute ale utilizatorului. Acest efect se numește „bulă de filtru”.

Toate acestea duc la faptul că utilizatorii primesc mult mai puține informații care contrazic punctul lor de vedere și devin izolați intelectual în propria „bulă informațională”. Astfel, „efectul bulei” poate avea consecințe negative pentru formarea opiniei civice.

Prejudecata motorului de căutare

Deși motoarele de căutare sunt programate să clasifice site-urile web pe baza unei combinații de popularitate și relevanță, realitatea este că cercetările experimentale indică faptul că diverși factori politici, economici și sociali influențează SERP-urile.

Această părtinire poate fi un rezultat direct al proceselor economice și comerciale: companiile care fac publicitate pe un motor de căutare pot deveni mai populare în rezultatele căutării organice pe acel motor de căutare. Eliminarea rezultatelor căutării care nu respectă legile locale este un exemplu de influență a proceselor politice. De exemplu, Google nu va afișa unele site-uri web neonaziste în Franța și Germania, unde negarea Holocaustului este ilegală.

Prejudecățile poate fi, de asemenea, o consecință a proceselor sociale, deoarece algoritmii motoarelor de căutare sunt adesea proiectați pentru a exclude punctele de vedere neformatate în favoarea unor rezultate mai „populare”. Algoritmii de indexare ai marilor motoare de căutare prioritizează site-urile americane.

Bomba de căutare este un exemplu de încercare de a manipula rezultatele căutării din motive politice, sociale sau comerciale.

Vezi si

Qwika
Bibliotecă electronică #Liste biblioteci și sisteme de căutare
Bara de instrumente pentru dezvoltatori web

Note

Literatură

Ashmanov I. S., Ivanov A.A. Promovarea site-ului web în motoarele de căutare. - M. : Williams, 2007. - 304 p. - ISBN 978-5-8459-1155-1.
Baikov V.D. Internet. Căutați informații. Promovarea site-ului web. - St.Petersburg. : BHV-Petersburg, 2000. - 288 p. - ISBN 5-8206-0095-9.
Kolisnichenko D. N. Motoarele de căutare și promovarea site-urilor pe Internet. - M.: Dialectică, 2007. - 272 p. - ISBN 978-5-8459-1269-5.

Lande D.V. Căutați cunoștințe pe Internet. - M. : Dialectică, 2005. - 272 p. - ISBN 5-8459-0764-0.

Lande D.V., Snarsky A. A., Bezsudnov I.V. Internet: Navigarea în rețele complexe: modele și algoritmi. - M.: Librokom (Editorial URSS), 2009. - 264 p. - ISBN 978-5-397-00497-8.

Chu H., Rosenthal M.

Povestea modului în care au apărut motoarele de căutare începe în iulie 1945, când Vannevar Bush, un om de știință american, a reușit să scrie celebrul articol „While We Think”, în care a fost capabil să prezică apariția computerelor personale și, de asemenea, a putut pentru a formula ideea de hipertext. Rețineți că Vanniver Bush însuși a participat la crearea prototipurilor motoarelor de căutare pe care le folosim astăzi. Cu toate acestea, apoi, în 1938, a reușit să dezvolte și să breveteze un dispozitiv care putea căuta rapid informații pe microfilm.

În ciuda faptului că, deși Vanniver Bush este considerat fondatorul tehnologiilor de căutare și al ideii de internet, alți oameni de știință i-au pus ideile în practică. În 1958, în Statele Unite a fost creată ADIP (Advanced Research Projects Agency, ARPA, Advanced Research Projects Agency) în subordinea Departamentului de Apărare, în care, din 1963 până în 1969, oamenii de știință au putut lucra la un concept complet nou, care a permis informației să fi transmis prin intermediul unei rețele de calculatoare.

La început, această conexiune, care a permis transferul de date criptate, a fost planificată pentru a fi utilizată în scopuri militare, dar nivelul de securitate pentru transmiterea informațiilor s-a dovedit a fi foarte scăzut, așa că armata a fost rugată să refuze să continue dezvoltarea.

Cu toate acestea, abia la sfârșitul anilor 1980 a reînviat ideea de a crea o rețea de calculatoare. Acest lucru a fost ajutat de mai multe universități din SUA, care în dezvoltarea lor au putut să-și combine biblioteca de informații, care era educațională, prin conectarea rețelelor.

Anii 1990 au cunoscut o dezvoltare dramatică a internetului. Din februarie 1993, de îndată ce Mark Andressen de la NCSA (Centrul Național pentru Aplicații de Supracalculare, www.ncsa.uiuc.edu) a reușit să termine versiunea inițială a programului care a redat hipertextul Mosaic sub UNIX, deoarece ea era cea care avea un interfață grafică convenabilă și ea a reușit să devină prototipul browserelor pe care le folosim în vremea noastră. Internetul a început să câștige popularitate.

La mijlocul anilor 1990, pentru a găsi informațiile de care aveai nevoie, trebuia să folosești directorul în care se aflau site-urile. La acel moment, nu existau multe dintre aceste directoare și nu străluceau cu o abundență de site-uri, dar informațiile din ele erau ordonate după titluri și subiecte. Este de remarcat faptul că în 1993 trei roboți de motoare de căutare erau deja pe web. Aceste evoluții au fost necomerciale și după afluxul unei cantități mari de informații nu au putut face față muncii, așa că au dispărut din cauza dezvoltării rapide a internetului.

Din 1995, locul principal în Internetul global a fost ocupat de motoarele de căutare, care ulterior au devenit foarte mari, în Occident - Google, Yachoo, Alta Vista, iar în Rusia - Yandex, Rambler, Aport.

Să ne abatem de la istoria dezvoltării motoarelor de căutare în Rusia. Aici, motoarele noastre de căutare nu așteptau o cale atât de ușoară. Au fost și victorii și înfrângeri.

Compania Yandex a început să se dezvolte în 1990, dar abia în 1997 a devenit motorul de căutare pe care îl cunoaștem foarte bine.

Yandex este considerat liderul de necontestat în Rusia, deoarece acoperirea audienței Yandex pentru luna, conform estimărilor experților de top, s-a ridicat la aproximativ jumătate din audiența obișnuită a internetului din Rusia. Aceste cifre sunt cu cap și umeri deasupra audienței potențiale ale lui Aport și Rambler. Recent, s-a născut o căutare Go Mail destul de puternică dintr-un alt serviciu mare de poștă electronică, dar în acest caz, compania a putut folosi algoritmul Yandex și, din această cauză, putem atribui căutarea din paginile sistemului de e-mail Yandex. căutare. Dar cel mai recent scandal a forțat Mail Group să se îndepărteze de căutarea Yandex. Nimeni nu știe motivele exacte pentru ceartă până acum.

Căutarea Yandex ține cont de titluri, precum și de prezența obligatorie a unui cuvânt în corpul unui document. Se acordă preferință acelor cuvinte care sunt o frază, sunt situate aproape unul de celălalt și sunt în același paragraf. Căutarea în Yandex ține cont de morfologia limbii ruse, aceasta este trăsătura sa distinctivă, adică, în cazul cererii „natură foto” sau „natura foto” va emite atât acele documente, cât și alte documente care îndeplinesc aceste cuvinte. .

Hoinar este primul serviciu de căutare Runet, deschis în toamna anului 1997 de un grup de oameni de știință de la Institutul de Cercetare în Microbiologie din orașul Pushchino, Regiunea Moscova. Căutarea în Rambler a fost construită prin indexarea cuvintelor principale de pe pagină care erau îngroșate (etichete puternice și b) și dacă apăreau frecvent în titluri (etichete h1). Spre deosebire de Yandex, căutarea Rambler poate ignora etichetele de cuvinte cheie, motiv pentru care le place să o numească căutare pură, dar, în același timp, puritatea corespunzătoare a căutării nu a fost încă observată. Această problemă apare și în alte motoare de căutare. În acest moment, pozițiile de căutare ale lui Rambler au scăzut foarte mult, iar experții și prognozatorii prevăd că acest sistem va fi recalificat într-un portal de divertisment obișnuit. Singurul lucru care face acest sistem pe linia de plutire este propria rețea de publicitate Blogun.

Motorul de căutare Aport a fost demonstrat pentru prima dată în februarie 1996 în timpul conferinței de presă Agama în onoarea deschiderii Clubului Rus, la acel moment nu era încă un motor de căutare la scară largă pe internet. Diferența dintre Aport și alte motoare de căutare este că poate căuta anumite cuvinte cheie nu numai în cuvinte cheie, ci și în subtitrări (alt) și descriere. Dar această inovație nu a durat mult. Alte motoare de căutare au repetat același lucru și acum Aport nu mai are cu ce să-și surprindă utilizatorii. Pentru 2011, motorul de căutare Aport este probabil să fie preluat de jucători mai mari de pe piața de căutare.

Dezavantaje de căutare

În acest moment, motoarele de căutare continuă prin orice mijloace să-și îmbunătățească tehnologia de căutare. Dar, din păcate, niciunul dintre ei nu se poate lăuda cu o căutare perfectă, oricât de dezvoltate ar fi. În zilele noastre, principalele dezavantaje ale motoarelor de căutare pot include sisteme de generalizare a interogărilor care sunt subdezvoltate și o dependență uriașă de alegerea surselor de informații. În cazul unui conținut informațional insuficient, acesta poate fi cumva compensat de abundența alegerii rezultatelor căutării. Dar a explica computerului în limbaj uman ceea ce vor oamenii să găsească nu a fost încă tradus în realitate. Din această cauză, niciunul dintre motoarele de căutare nu se poate numi enciclopedie. Cu toate acestea, nu mai este un secret că viitorul este cu siguranță în căutarea informativă, care va fi axată pe prelucrarea conceptelor umane.