Care au fost primele motoare de căutare. Motor de căutare 1 motor de căutare

Povestea modului în care au apărut motoarele de căutare începe în iulie 1945, când omul de știință american Vannevar Bush a reușit să scrie celebrul articol „Atâta vreme cât credem”, în care a putut prezice apariția computerelor personale și, de asemenea, a putut să formula ideea de hipertext. Rețineți că Vanniver Bush însuși a participat la crearea prototipurilor motoarelor de căutare pe care le folosim astăzi. Cu toate acestea, apoi, în 1938, a reușit să dezvolte și să breveteze un dispozitiv care să poată căuta rapid informații despre microfilme.

În ciuda faptului că, deși Vanniver Bush este considerat strămoșul tehnologiilor de căutare și al ideii de internet, alți oameni de știință și-au pus ideile în practică. În 1958, Departamentul Apărării din SUA a creat AIP (Advanced Research Projects Agency, ARPA), în care, din 1963 până în 1969, oamenii de știință puteau lucra la un concept complet nou care făcea posibilă transmiterea informațiilor printr-o rețea de calculatoare.

La început, această conexiune, care a permis transmiterea datelor criptate, a fost planificată să fie utilizată în scopuri militare, dar nivelul de securitate pentru transferul de informații a fost foarte scăzut, astfel încât militarii au fost rugați să refuze dezvoltarea în continuare.

Cu toate acestea, abia la sfârșitul anilor '80 s-a reînviat ideea creării unei rețele de calculatoare. Acest lucru a fost ajutat de mai multe universități din SUA, care în dezvoltarea lor au reușit să combine biblioteca lor de informații, care a fost educativă, prin conectarea rețelelor.

În anii 1990, Internetul a început să se dezvolte dramatic. Din februarie 1993, de îndată ce Mark Andressen de la NCSA (Centrul Național pentru Aplicații de Supercomputing, www.ncsa.uiuc.edu) a reușit să finalizeze versiunea inițială a unui program care a redat hipertextul mozaic în cadrul UNIX, deoarece ea a fost cea care a avut o interfață grafică convenabilă și a reușit să devină prototipul browserelor pe care le folosim în timpul nostru. Internetul a început să câștige popularitate.

La mijlocul anilor 1990, pentru a găsi informațiile necesare, a fost necesar să se utilizeze directorul în care au fost amplasate site-urile. La acea vreme, nu existau multe dintre aceste cataloage și nu străluceau cu o mulțime de site-uri, dar informațiile din ele erau ordonate după rubrici și subiecte. Este demn de remarcat faptul că în 1993, trei roboți ai motoarelor de căutare erau deja pe web. Aceste evoluții au fost necomerciale și, după afluxul de cantități mari de informații, nu au putut face față lucrărilor, așa că au dispărut din cauza dezvoltării rapide a internetului.

Din 1995, locul principal în Internetul global a fost ocupat de motoarele de căutare, care ulterior au devenit foarte mari, în Occident - Google, Yachoo, Alta Vista și în Rusia - Yandex, Rambler, Aport.

Haideți să devionăm în istoria dezvoltării motoarelor de căutare în Rusia. Aceasta nu a fost o cale ușoară pentru motoarele noastre de căutare. Au fost și victorii și înfrângeri.

Yandex a început să se dezvolte în 1990, dar abia în 1997 a devenit un motor de căutare pe care îl cunoaștem foarte bine.

Yandex. este considerat liderul incontestabil din Rusia, deoarece acoperirea audienței Yandex pentru luna respectivă, potrivit experților de vârf, a reprezentat aproximativ jumătate din audiența obișnuită pe internet din Rusia. Aceste cifre se află deasupra audienței potențiale a lui Aport și Rambler. Recent, o căutare Go Mail destul de puternică s-a născut dintr-un alt serviciu electronic mare care se ocupă de poștă, dar în acest caz compania a reușit să utilizeze algoritmul Yandex și, din această cauză, putem atribui căutarea din paginile sistemului Mail la o căutare în Yandex. Dar ultimul scandal a forțat Mail Group să se îndepărteze de căutarea Yandex. Nimeni nu știe încă motivele exacte pentru scuipat.

Căutarea Yandex ia în considerare titlurile, precum și găsirea obligatorie a unui cuvânt în corpul documentului. Se acordă preferință acelor cuvinte care sunt fraze, sunt situate aproape una de cealaltă și se află în același paragraf. Căutarea în Yandex ia în considerare morfologia limbii ruse, aceasta este trăsătura sa distinctivă, adică, în cazul unei cereri „fotografie natură” sau „fotografie a naturii”, va oferi atât acele, cât și alte documente care îndeplinesc aceste cuvinte.

Hoinar este primul serviciu de căutare al Runetului, deschis în toamna anului 1997 de un grup de oameni de știință de la Institutul de Cercetare a Microbiologiei din orașul Pușchino, regiunea Moscovei. În Rambler, căutarea a fost construită prin indexarea cuvintelor principale de pe pagină, care au fost evidențiate cu caractere aldine (etichete puternice și b) și dacă au apărut adesea în titluri (etichete h1). Spre deosebire de căutarea Yandex, Rambler poate ignora etichetele de cuvinte cheie, motiv pentru care le place să o numească o căutare pură, dar în același timp, puritatea corectă a căutării nu a fost încă vizibilă. Această problemă clipește și în alte motoare de căutare. În acest moment, pozițiile de căutare Rambler au scăzut dramatic, iar experții și prognozorii prezic că acest sistem va fi recalificat într-un portal obișnuit de divertisment. Singurul lucru care menține acest sistem pe linia de plutire este propria rețea de publicitate Blogun.

Motorul de căutare Aport a fost demonstrat pentru prima dată în februarie 1996 în timpul conferinței de presă Agama în onoarea deschiderii clubului rus, la acea vreme nu era încă un motor de căutare pe scară largă pe internet. Diferența dintre Aport și alte motoare de căutare este că poate căuta cuvinte cheie date nu numai în cuvinte cheie, ci și în subtitrări de imagini (alt) și descrieri (descriere). Dar această inovație nu a durat mult. Alte motoare de căutare au repetat același lucru, iar Aport nu mai are nimic cu care să-și surprindă utilizatorii. Pentru 2011, motorul de căutare Aport este probabil absorbit de jucătorii mai mari de pe piața căutărilor.

Dezavantaje ale căutării

În acest moment, motoarele de căutare continuă să-și îmbunătățească tehnologiile de căutare prin orice mijloace. Dar, din păcate, niciunul dintre ei nu se poate lăuda cu o căutare perfectă, oricât de dezvoltate ar fi acestea. În zilele noastre, principalele dezavantaje ale motoarelor de căutare pot include sisteme de generalizare a interogărilor, care sunt slab dezvoltate și o dependență uriașă de alegerea surselor de informații. În cazul conținutului informațional insuficient, acesta poate fi într-un fel compensat de abundența de rezultate ale căutării. Dar a explica unui computer în limbajul uman ceea ce vor oamenii să găsească nu a fost încă tradus în realitate. Din această cauză, niciunul dintre motoarele de căutare nu se poate numi enciclopedie. Cu toate acestea, nu mai este un secret faptul că viitorul este cu siguranță în căutarea informativă, care va fi axată pe prelucrarea conceptelor umane.

Care a fost primul motor de căutare de pe Runet? Yandex, Aport sau Rambler?

Primele motoare de căutare ale internetului rus (dintre care, potrivit unuia dintre fondatorii Rambler, erau 2 sau 3) s-au scufundat foarte repede în uitare. Printre acestea se numărau extinderi morfologice ale sistemului AltaVista, care nu ne-au lăsat numele. Prin urmare, va trebui să alegem dintre cei care au rămas:

Hoinar

Crearea Rambler a început în 1996, când existau doar câteva zeci de site-uri în segmentul rus al internetului. Dezvoltarea sa încheiat până în toamna aceluiași an. Domeniul rambler.ru a fost înregistrat pe 26 septembrie și 8 octombrie 1996, de ziua unuia dintre creatori, Rambler a fost deschis utilizatorilor.

Rambler este primul motor de căutare din Runet din cele existente.

Motorul de căutare Aport a fost dezvoltat până în februarie 1996, dar în acel moment se uita doar la russia.agama.com. Treptat, numărul site-urilor a crescut și până la deschiderea oficială 11 noiembrie 1997 Ani „Aport” a căutat deja 10.000 de site-uri. Astfel, „Aport” a fost unul dintre primele motoare de căutare de pe Runet, dar datorită gamei limitate de căutări, acesta nu poate fi recunoscut ca fiind cel mai vechi.

Yandex.

CompTek, compania care a dezvoltat Yandex, a fost fondată în 1989. În 1993, CompTek a dezvoltat Yandex, un program de căutare pe hard disk. În 1996, programul a adăugat capacitatea de a căuta pe web. În 1997, a fost scris primul robot de căutare, indexat de Runet și 23 septembrie 1997 al anului, a avut loc prezentarea oficială a Yandex.

Yandex al CompTek nu este cel mai vechi, dar tehnologiile lor de căutare și cercetarea în lingvistică și morfologie sunt cele mai vechi din Rusia.

Arhitectura motorului de căutare include de obicei:

Colegiat YouTube

1 / 5

✪ Lecția 3: Cum funcționează motorul de căutare. Introducere în SEO

✪ Motor de căutare din interior

✪ Shodan - Google negru

✪ Motorul de căutare CHEBURASHKA va înlocui Google și Yandex în Rusia

✪ Lecția 1 - Cum funcționează motorul de căutare

Subtitrări

Istorie

Cronologie
An	Sistem	Eveniment
1993	W3Catalog?!	Lansa
	Aliweb	Lansa
	JumpStation	Lansa
1994	WebCrawler	Lansa
	Infoseek	Lansa
	Lycos	Lansa
1995	AltaVista	Lansa
	Daum	Baza
	Text deschis Index Web	Lansa
	Magellan	Lansa
	Excita	Lansa
	SAPO	Lansa
	Yahoo!	Lansa
1996	Dogpile	Lansa
	Inktomi	Baza
	Hoinar	Baza
	HotBot	Baza
	Întrebați-l pe jeeves	Baza
1997	Lumina Nordului	Lansa
1997	Yandex.	Lansa
1998	Google	Lansa
1999	AlltheWeb	Lansa
	GenieKnows	Baza
	Naver	Lansa
	Teoma	Baza
	Vivisimo	Baza
2000	Baidu	Baza
2000	Exalead	Baza
2003	Info.com	Lansa
2004	Yahoo! Căutare	Lansare finală
	A9.com	Lansa
	Sogou	Lansa
2005	Căutare MSN	Lansare finală
	Ask.com	Lansa
	Nygma	Lansa
	GoodSearch	Lansa
Cauta-ma	Baza
2006	wikiseek	Baza
	Quaero	Baza
	Cautare in timp real	Lansa
	ChaCha	Lansare (beta)
	Guruji.com	Lansare (beta)
2007	wikiseek	Lansa
	Sproose	Lansa
	Căutare Wikia	Lansa
	Blackle.com	Lansa
2008	DuckDuckGo	Lansa
	Tooby	Lansa
	Picollator	Lansa
	Viewzi	Lansa
	Cuil	Lansa
	Boogami	Lansa
	LeapFish	Lansare (beta)
	Forestle	Lansa
	VADLO	Lansa
	Powerset	Lansa
2009	Bing	Lansa
	KAZ.KZ	Lansa
	Yebol	Lansare (beta)
	Mugurdy	Închidere
	cercetaș	Lansa
2010	Cuil	Închidere
	Blekko	Lansare (beta)
	Viewzi	Închidere
2012	WAZZUB	Lansa
2014	Satelit	Lansare (beta)

În primele zile ale internetului, Tim Berners-Lee a menținut o listă de servere web postate pe site-ul CERN. Existau din ce în ce mai multe site-uri și a devenit din ce în ce mai dificil să mențineți manual o astfel de listă. A existat o secțiune specială „Ce este nou” pe site-ul NCSA. (Engleză Ce este nou!), Unde au publicat linkuri către site-uri noi.

Primul program de calculator care a căutat pe Internet a fost programul Archie(Engleză archie este o arhivă fără litera „în”). A fost creat în 1990 de Alan Emtage, Bill Heelan și J. Peter Deutsch, studenți la informatică la Universitatea McGill din Montreal. Programul a descărcat liste cu toate fișierele de pe toate serverele FTP anonime disponibile și a construit o bază de date care ar putea fi căutată după nume de fișiere. Cu toate acestea, programul Archie nu a indexat conținutul acestor fișiere, deoarece cantitatea de date era atât de mică încât totul putea fi găsit cu ușurință manual.

Dezvoltarea și proliferarea protocolului de rețea Gopher, inventat în 1991 de Mark McCahill la Universitatea din Minnesota, a dus la crearea a două noi programe de căutare, Veronicași Jughead. La fel ca Archie, au căutat nume de fișiere și anteturi stocate în sistemele de index Gopher. Veronica (eng. Index foarte ușor orientat pe rozătoare la nivel de rețea pentru arhive computerizate) a permis căutarea cuvintelor cheie pentru majoritatea titlurilor din meniul Gopher din toate listele Gopher. Programul Jughead (eng. Excavarea și afișarea universală a ierarhiei Gopher a lui Jonzy) a preluat informații despre meniu de pe anumite servere Gopher. Deși numele motorului de căutare Archie nu a avut nimic de-a face cu ciclul de benzi desenate „Archie” cu toate acestea, Veronica și Jughead sunt personaje din aceste benzi desenate.

Până în vara anului 1993, nu exista încă un sistem de căutare pe web, deși numeroase directoare specializate au fost întreținute manual. Oscar Nierstrasz de la Universitatea din Geneva a scris o serie de scripturi Perl care au copiat periodic aceste pagini și le-au transcris într-un format standard. Aceasta a devenit baza pentru W3Catalog?!, primul motor de căutare primitiv al web, lansat pe 2 septembrie 1993.

Probabil primul crawler care a fost scris în Perl a fost „World Wide Web Wanderer” - botul lui Matthew Gray din iunie 1993. Acest robot a creat indexul de căutare Wandex. Scopul robotului Wanderer a fost să măsoare dimensiunea internetului mondial și să găsească toate paginile web care conțin cuvinte din interogare. În 1993, a apărut un al doilea motor de căutare, Aliweb. Aliweb nu a folosit un crawler, ci în schimb aștepta notificări de la administratorii site-ului web despre prezența unui fișier index într-un format specific pe site-urile lor.

JumpStation, creat în decembrie 1993 de Jonathan Fletcher, a căutat pagini web și și-a construit indexurile cu un crawler și a folosit un formular web ca o interfață pentru formularea căutărilor. A fost primul instrument de căutare pe Internet care a combinat cele trei funcții esențiale ale unui motor de căutare (validare, indexare și căutare efectivă). Datorită resurselor limitate de computere din acel moment, indexarea și, prin urmare, căutările erau limitate doar la titlurile și titlurile paginilor web găsite de robotul de căutare.

Motoarele de căutare au participat la balonul dotcom de la sfârșitul anilor 1990. Mai multe companii au intrat cu succes pe piață cu profituri record în timpul ofertei lor publice inițiale. Unii au abandonat piața motoarelor de căutare open source și au început să lucreze doar cu sectorul corporativ, de exemplu, Lumina Nordului.

Google a adoptat ideea de a vinde cuvinte cheie în 1998, când era o companie mică care alimenta motorul de căutare la goto.com. Miscarea a anunțat o schimbare pentru motoarele de căutare de la concurența între ele la una dintre cele mai profitabile afaceri de pe Internet. Motoarele de căutare au început să vândă poziții de top în rezultatele căutării către companii individuale.

Motorul de căutare Google a fost proeminent de la începutul anilor 2000. Compania a obținut o poziție înaltă datorită rezultatelor bune de căutare folosind algoritmul PageRank. Algoritmul a fost prezentat publicului în articolul „Anatomia motorului de căutare”, scris de Sergey Brin și Larry Page, fondatorii Google. Acest algoritm iterativ clasifică paginile web pe baza unei estimări a numărului de hyperlinkuri către o pagină web, presupunând mai multe legături către pagini „bune” și „importante” decât altele. Interfața Google este spartană și nu are nimic de prisos, spre deosebire de mulți dintre concurenții săi care au construit un motor de căutare într-un portal web. Motorul de căutare Google a devenit atât de popular încât au existat sisteme care îl imită, de exemplu, Căutător de mistere(motor de căutare secret).

Căutați informații în limba rusă

În 1996, a fost implementată o căutare luând în considerare morfologia rusă pe motorul de căutare Altavista și au fost lansate motoarele de căutare originale rusești Rambler și Aport. La 23 septembrie 1997 a fost lansat motorul de căutare Yandex. Pe 22 mai 2014, Rostelecom a lansat motorul național de căutare Sputnik, care în 2015 este în testare beta. Pe 22 aprilie 2015 a fost lansat noul serviciu Sputnik. Copii special pentru copii cu siguranță sporită.

Metodele de analiză cluster și de căutare a metadatelor au devenit foarte populare. Dintre mașinile internaționale de acest fel, cea mai faimoasă este primită „Clusty” companie Vivisimo... În 2005, în Rusia, cu sprijinul Universității de Stat din Moscova, a fost lansat motorul de căutare „Nigma”, care acceptă clusterizarea automată. În 2006, s-a deschis metamachina rusă Quintura, oferind clustering vizual sub forma unui nor de etichete. Nygma a experimentat, de asemenea, cu gruparea vizuală.

Cum funcționează motorul de căutare

Principalele componente ale unui motor de căutare: robot de căutare, indexator, motor de căutare.

De obicei, sistemele funcționează în etape. În primul rând, crawlerul primește conținutul, apoi indexatorul generează un index care poate fi căutat și, în cele din urmă, motorul de căutare oferă funcționalitatea de căutare a datelor indexate. Pentru a actualiza motorul de căutare, acest ciclu de indexare se repetă.

Motoarele de căutare funcționează stocând informații despre multe pagini web pe care le recuperează din pagini HTML. Un crawler sau „crawler” este un program care parcurge automat toate linkurile găsite pe o pagină și le evidențiază. Crawlerul, bazat pe linkuri sau pe baza unei liste predeterminate de adrese, caută documente noi care nu sunt încă cunoscute de motorul de căutare. Proprietarul site-ului poate exclude anumite pagini folosind robots.txt, care poate fi utilizat pentru a preveni indexarea fișierelor, paginilor sau a directoarelor site-ului.

Motorul de căutare analizează conținutul fiecărei pagini pentru indexare ulterioară. Cuvintele pot fi extrase din titluri, textul paginii sau câmpuri speciale - metaetichete. Un indexer este un modul care analizează o pagină după ce a împărțit-o în părți utilizând proprii algoritmi lexicali și morfologici. Toate elementele paginii web sunt izolate și analizate separat. Datele despre paginile web sunt stocate într-o bază de date index pentru a fi utilizate în interogări ulterioare. Indexul vă permite să găsiți rapid informații despre cererea unui utilizator. Un număr de motoare de căutare, cum ar fi Google, stochează pagina originală integral sau parțial, așa-numitul cache, precum și diverse informații despre pagina web. Alte sisteme precum AltaVista stochează fiecare cuvânt din fiecare pagină pe care o găsesc. Utilizarea cache-ului ajută la accelerarea recuperării informațiilor din paginile deja vizitate. Pagini în cache conțin întotdeauna textul specificat de utilizator în interogarea de căutare. Acest lucru poate fi util în cazul în care pagina web a fost reîmprospătată, adică nu mai conține textul cererii utilizatorului, iar pagina din cache este încă veche. Această situație este legată de pierderea legăturilor (eng. linkrot) și abordarea Google ușor de utilizat (de utilizare). Aceasta implică preluarea unor bucăți scurte de text din memoria cache care conțin textul cererii. Se aplică principiul celei mai mici surprize, de obicei utilizatorul se așteaptă să vadă cuvintele de căutare în textele paginilor primite ( Așteptările utilizatorilor). Pe lângă accelerarea căutărilor prin utilizarea paginilor cache, paginile din cache pot conține informații care nu mai sunt disponibile nicăieri.

Motorul de căutare funcționează cu fișierele de ieșire primite de la indexator. Motorul de căutare acceptă interogările utilizatorilor, le procesează utilizând un index și returnează rezultatele căutării.

Când un utilizator introduce o interogare într-un motor de căutare (de obicei utilizând cuvinte cheie), sistemul își verifică indexul și produce o listă cu cele mai potrivite pagini web (sortate după un anumit criteriu), de obicei cu o adnotare scurtă care conține titlul documentului și uneori părți ale textului. Indexul de căutare este construit folosind o tehnică specială bazată pe informații extrase din paginile web. Din 2007, motorul de căutare Google vă permite să căutați în funcție de timp, să creați documentele dorite (apelați meniul „Instrumente de căutare” și specificați intervalul de timp). Majoritatea motoarelor de căutare acceptă utilizarea operatorilor booleni ȘI, SAU, NU în interogări, ceea ce vă permite să rafinați sau să extindeți lista de cuvinte cheie pe care le căutați. În acest caz, sistemul va căuta cuvinte sau fraze exact așa cum au fost introduse. Unele motoare de căutare au opțiunea căutare aproximativă, în acest caz, utilizatorii își extind căutarea specificând distanța până la cuvintele cheie. Există, de asemenea căutare conceptuală, care utilizează o analiză statistică a utilizării cuvintelor și frazelor de căutare în textele paginilor web. Aceste sisteme vă permit să compuneți interogări în limbaj natural. Un exemplu de astfel de motor de căutare este ask com.

Utilitatea unui motor de căutare depinde de relevanța paginilor pe care le găsește. Deși milioane de pagini web pot include un cuvânt sau o expresie, unele pot fi mai relevante, populare sau autoritare decât altele. Majoritatea motoarelor de căutare folosesc tehnici de clasare pentru a aduce cele mai bune rezultate în partea de sus a listei. Motoarele de căutare decid ce pagini sunt mai relevante și în ce ordine ar trebui afișate rezultatele, în moduri diferite. Metodele de căutare, precum Internetul în sine, se schimbă în timp. Așa au apărut două tipuri principale de motoare de căutare: sisteme de cuvinte cheie predefinite și ordonate ierarhic și sisteme în care se generează un index inversat pe baza analizei textului.

Majoritatea motoarelor de căutare sunt întreprinderi comerciale care profită din publicitate, în unele motoare de căutare puteți cumpăra contra cost primele locuri în SERP pentru cuvintele cheie date. Motoarele de căutare care nu percep bani pentru ordinea în care sunt afișate rezultatele câștigă din publicitatea contextuală, în timp ce mesajele publicitare corespund cererii utilizatorului. Astfel de reclame sunt afișate pe o pagină cu o listă de rezultate ale căutării, iar motoarele de căutare câștigă de fiecare dată când un utilizator dă clic pe mesajele publicitare.

Tipuri de motoare de căutare

Există patru tipuri de motoare de căutare: robotice, bazate pe om, hibride și meta-sisteme.

sisteme de motoare de căutare

Acestea sunt formate din trei părți: crawlerul („bot”, „robot” sau „păianjen”), indexul și software-ul motorului de căutare. Este necesar un crawler pentru a accesa cu crawlere rețeaua și a crea liste de pagini web. Indexul este o arhivă mare de copii ale paginilor web. Scopul software-ului este de a evalua rezultatele căutării. Datorită faptului că robotul de căutare din acest mecanism explorează constant rețeaua, informațiile sunt mai relevante. Cele mai multe motoare de căutare moderne sunt de acest tip.

sisteme gestionate de om (directoare de resurse)

Aceste motoare de căutare primesc liste de pagini web. Directorul conține adresa, titlul și o scurtă descriere a site-ului. Directorul de resurse caută doar rezultatele din descrierile de pagini care i-au fost trimise de webmasteri. Avantajul cataloagelor este că toate resursele sunt verificate manual, prin urmare, calitatea conținutului va fi mai bună în comparație cu rezultatele obținute automat de sistemul de primul tip. Dar există și un dezavantaj - actualizarea acestor cataloage se face manual și poate rămâne semnificativ în urma stării reale de lucruri. Clasamentul paginilor nu se poate modifica instantaneu. Exemple de astfel de sisteme sunt Director Yahoo, dmoz și Galaxy.

sisteme hibride

Motoarele de căutare precum Yahoo, Google, MSN combină funcțiile sistemelor motoarelor de căutare și a sistemelor bazate pe om.

meta-sisteme

Motoarele de căutare combină și clasifică rezultatele mai multor motoare de căutare simultan. Aceste motoare de căutare erau utile atunci când fiecare motor de căutare avea un index unic și motoarele de căutare erau mai puțin inteligente. Pe măsură ce căutarea s-a îmbunătățit mult acum, nevoia pentru ele s-a diminuat. Exemple: MetaCrawlerși căutare MSN.

Piața motoarelor de căutare

Google este cel mai popular motor de căutare din lume cu o cotă de piață de 68,69%. Bing ocupă locul al doilea, cu o cotă de 12,26%.

Cele mai populare motoare de căutare din lume:

Sistem de căutare	Cota de piață în iulie 2014	Cota de piață în octombrie 2014	Cota de piață în septembrie 2015
Google	68,69 %	58,01 %	69,24%
Baidu	17,17 %	29,06 %	6,48%
Bing	6,22 %	8,01 %	12,26%
Yahoo!	6,74 %	4,01 %	9,19%
Aol	0,13 %	0,21 %	1,11%
Excita	0,22 %	0,00 %	0,00 %
Cere	0,13 %	0,10 %	0,24%

Asia

În țările din Asia de Est și în Rusia, Google nu este cel mai popular motor de căutare. În China, de exemplu, este mai popular motor de căutare Soso?!.

În Coreea de Sud, propriul portal de căutare Naver este utilizat de aproximativ 70% din Yahoo! Japonia și Yahoo! Taiwan sunt cele mai populare motoare de căutare din Japonia și, respectiv, Taiwan.

Rusia și motoarele de căutare în limba rusă

Conform datelor LiveInternet din iunie 2015 referitoare la întrebările de căutare în limba rusă:

All-lingual:
- Yahoo! (0,1%) și motoarele de căutare deținute de această companie: Inktomi, AltaVista, Alltheweb
Vorbitor de limbă engleză și internațional:
- AskJeeves(Mecanism Teoma)
Vorbitor de limbă rusă - majoritatea motoarelor de căutare „vorbitoare de limbă rusă” indexează și caută texte în multe limbi - ucraineană, bielorusă, engleză, tătară și altele. Ele diferă de sistemele „în toate limbile” care indexează toate documentele la rând, prin faptul că indexează în principal resursele situate în zone de domeniu dominate de limba rusă sau, în alte moduri, își restrâng roboții la site-urile în limba rusă.

Unele motoare de căutare folosesc algoritmi de căutare externi.

Date cantitative ale motorului de căutare Google

Numărul de utilizatori de Internet și de motoare de căutare și cerințele utilizatorilor pentru aceste sisteme este în continuă creștere. Pentru a crește viteza de căutare a informațiilor de care aveți nevoie, motoarele de căutare mari conțin un număr mare de servere. Serverele sunt de obicei grupate în centre de server (centre de date). Motoarele de căutare populare au centre de servere împrăștiate peste tot în lume.

În octombrie 2012, Google a lansat proiectul Where the Internet Lives, care oferă utilizatorilor posibilitatea de a explora centrele de date ale companiei.

Motorul de căutare Google știe următoarele despre activitatea centrelor de date:

Capacitatea totală a tuturor centrelor de date Google, începând cu 2011, a fost estimată la 220 MW.
Când Google a intenționat să deschidă un nou complex de 6,5 milioane m² de trei clădiri în Oregon în 2008, Harper's Magazine a calculat că un complex atât de mare consumă peste 100 de megawați de electricitate, ceea ce este comparabil cu consumul de energie al unui oraș de 300.000.
Numărul estimat de servere Google în 2012 este de 1.000.000.
Cheltuielile Google pentru centrele de date au fost de 1,9 miliarde de dolari în 2006 și 2,4 miliarde de dolari în 2007.

Dimensiunea World Wide Web, indexată de Google din decembrie 2014, este de aproximativ 4,36 miliarde de pagini.

Motoare de căutare luând în considerare interdicțiile religioase

Răspândirea globală a internetului și popularitatea crescândă a dispozitivelor electronice în lumea arabă și musulmană, în special în Orientul Mijlociu și subcontinentul indian, au contribuit la dezvoltarea motoarelor de căutare locale care țin cont de tradițiile islamice. Astfel de motoare de căutare conțin filtre speciale care îi ajută pe utilizatori să nu acceseze site-uri interzise, de exemplu, site-uri cu pornografie și le permit să folosească doar acele site-uri, al căror conținut nu contrazice credința islamică. Cu puțin înainte de luna musulmană a Ramadanului, în iulie 2013, lumea a fost prezentată Halalgoogling- un sistem care oferă utilizatorilor doar legături halal „corecte”, filtrând rezultatele căutării primite de la alte motoare de căutare precum Google și Bing. Cu doi ani mai devreme, în septembrie 2011, a fost lansat motorul de căutare I'mHalal pentru a deservi utilizatorii din Orientul Mijlociu. Cu toate acestea, acest serviciu de căutare a trebuit să fie închis în curând, potrivit proprietarului, din cauza lipsei de finanțare.

Lipsa investițiilor și ritmul lent de difuzare a tehnologiei în lumea musulmană au împiedicat progresul și au împiedicat succesul unui motor de căutare islamic serios. Investiția uriașă în proiectele web ale stilului de viață musulman a eșuat în mod clar, dintre care una a fost Muxlim... A primit milioane de dolari de la investitori precum Rite Internet Ventures și are acum - conform ultimului mesaj de la I'mHalal înainte de închidere - ideea dubioasă că „următorul Facebook sau Google ar putea veni doar în Orientul Mijlociu . dacă ne sprijiniți tineretul nostru strălucit. " Cu toate acestea, experții în Internet islamic au petrecut ani de zile definind ceea ce este sau nu conform Sharia și clasificând site-urile web ca „halal” sau „haram”. Toate motoarele de căutare islamice actuale și actuale sunt pur și simplu un set de date special indexat sau sunt motoare de căutare majore precum Google, Yahoo și Bing, cu un sistem de filtrare folosit pentru a împiedica utilizatorii să acceseze site-uri haraam, cum ar fi site-uri despre nuditate, LGBT, jocurile de noroc și orice altul, al cărui subiect este considerat anti-islamic.

Alte motoare de căutare orientate religios includ Jewogle, versiunea evreiască a Google și SeekFind.org, un site creștin care include filtre pentru a proteja utilizatorii de conținut care le-ar putea submina sau slăbi credința.

Rezultate personalizate și bule de filtrare

Multe motoare de căutare, precum Google și Bing, folosesc algoritmi pentru a ghici selectiv ce informații ar dori să vadă un utilizator pe baza activității sale anterioare în sistem. Prin urmare, site-urile web afișează doar informații care sunt în concordanță cu interesele anterioare ale utilizatorului. Acest efect se numește bula de filtrare.

Toate acestea duc la faptul că utilizatorii primesc informații mult mai puțin conflictuale și se izolează intelectual în propria lor „bulă informațională”. Astfel, „efectul bulei” poate avea consecințe negative asupra formării opiniei civile.

Particularitatea motorului de căutare

În timp ce motoarele de căutare sunt programate să evalueze site-urile web pe baza unei combinații de popularitate și relevanță, în realitate, cercetările experimentale indică faptul că diferiți factori politici, economici și sociali influențează rezultatele căutării.

Această prejudecată poate fi rezultatul direct al proceselor economice și comerciale: companiile care fac publicitate pe un motor de căutare pot deveni mai populare în rezultatele de căutare organice din acel motor de căutare. Eliminarea rezultatelor căutării care nu respectă legile locale este un exemplu de influență a proceselor politice. De exemplu, Google nu va afișa unele site-uri web neonaziste în Franța și Germania, unde negarea Holocaustului este ilegală.

Biasul poate fi, de asemenea, o consecință a proceselor sociale, deoarece algoritmii motoarelor de căutare sunt deseori concepuți pentru a exclude puncte de vedere informale în favoarea unor rezultate mai „populare”. Algoritmii de indexare pentru motoarele de căutare majore acordă prioritate site-urilor americane.

Bomba de căutare este un exemplu de încercare de a gestiona rezultatele căutării din motive politice, sociale sau comerciale.

Vezi si

Qwika
Biblioteca electronică # Liste de biblioteci și motoare de căutare
Tabloul de bord al dezvoltatorului web

Note (editați)

Literatură

Ashmanov I.S., Ivanov A.A. Promovarea site-ului web în motoarele de căutare. - M .: Williams, 2007. - 304 p. - ISBN 978-5-8459-1155-1.
Baikov V.D. Internet. Căutați informații. Promovare site web. - SPb. : BHV-Petersburg, 2000. - 288 p. - ISBN 5-8206-0095-9.
Kolisnichenko D.N. Motoare de căutare și promovare site web pe Internet. - M .: Dialectică, 2007 .-- 272 p. - ISBN 978-5-8459-1269-5.

Lande D.V. Căutați cunoștințe pe Internet. - M .: Dialectică, 2005 .-- 272 p. - ISBN 5-8459-0764-0.

Lande D.V., Snarskiy A.A., Bezsudnov I.V. Internetics: Navigare în rețele complexe: modele și algoritmi. - M.: Librokom (Editorial URSS), 2009. - 264 p. - ISBN 978-5-397-00497-8.

Chu H., Rosenthal M.

Un site web special pe internet, unde un utilizator, la o cerere dată, poate primi link-uri către site-uri web care corespund acestei cereri. Motorul de căutare este format din trei componente: 1 robot de căutare; 2 indici de sistem; și 3 programe, ... ... Vocabular financiar

Substantiv, număr de sinonime: 3 motor de căutare (9) houndhound (16) motor de căutare (13) Dicționar de sinonime AS ... Dicționar sinonim

sistem de căutare- motor de căutare Site-ul cu care sunt căutate alte site-uri. Căutarea se efectuează prin introducerea cuvintelor cheie în caseta de căutare. Spre deosebire de directoare, chiar dacă site-ul nu a fost înregistrat anterior, acesta poate fi găsit folosind un motor de căutare ... ... Ghidul traducătorului tehnic

sistem de căutare- ieškos sistema statusas T sritis automatika atitikmenys: angl. sistem de căutare vok. Suchsystem, n rus. motor de căutare, f pranc. système de recherche, m ... Automatikos terminų žodynas

Sistem de căutare- - (motor de căutare în engleză, sinonime: motor de căutare, motor de căutare, motor de căutare) - Un instrument pentru găsirea informațiilor pe internet. De regulă, activitatea unui motor de căutare constă în două etape. Un program special (robot de căutare, mitralieră, agent, ... ... Dicționar enciclopedic de mass-media

Control, un sistem de control automat (vezi Control automat), în care acțiunile de control prin metoda de căutare sunt schimbate automat, astfel încât să se efectueze cel mai bun control (într-un sens) al obiectului; la ... ... Marea Enciclopedie Sovietică

Sistem de control automat controlat, în care acțiunile de control prin metoda de căutare automată sunt modificate pentru a efectua cel mai bun control al obiectului; schimbând în același timp caracterul în obiect sau influențe externe. Miercuri în avans ... Marele dicționar politehnic enciclopedic

SMP 1 este conceput pentru a căuta salvatori în condiții critice asociate cu o amenințare la adresa vieții, precum și pentru a căuta mărfuri abandonate și diverse obiecte în condiții de vizibilitate slabă. Include: o unitate radio pentru căutarea activelor ... ... Dicționar de urgență

sistem automat de regăsire a informațiilor- 3.2.5 sistem automatizat de recuperare a informațiilor: ISS, implementat pe baza computerelor electronice Sursă ... Dicționar-carte de referință a termenilor documentației normative și tehnice

Acest termen are alte semnificații, vezi Aport. Aport ... Wikipedia

Cărți

Probleme extreme ale teoriei graficelor și internetului. Ghid de studiu, Raigorodsky Andrey Mikhailovich. Această broșură este dedicată studiului diferitelor probleme extreme ale teoriei graficelor, a căror soluție (cel puțin parțială) poate fi utilă în analiza datelor. A apărut pe baza ...
Probleme extreme ale teoriei graficelor și ale internetului, Raigorodsky FM. Această broșură este dedicată studiului diferitelor probleme extreme ale teoriei graficelor, a căror soluție (cel puțin parțială) poate fi utilă în analiza datelor. A apărut pe baza ...

În primele zile ale internetului, utilizatorii erau o minoritate privilegiată, iar cantitatea de informații disponibile este relativ mică. În acea perioadă, accesul la acesta era disponibil în principal angajaților diferitelor instituții de învățământ și laboratoare mari, iar datele obținute erau utilizate în scopuri științifice. În acel moment, utilizarea Web-ului nu era la fel de relevantă ca acum.

În 1990 Omul de știință britanic Tim Berners-Lee (care este și inventatorul URI, URL, HTTP, World Wide Web) a creat un site web info.cern.ch, care este primul director accesibil din lume de site-uri de internet. Din acel moment, Internetul a început să câștige popularitate nu numai în cercurile științifice, ci și în rândul proprietarilor obișnuiți de calculatoare personale.

Astfel, prima modalitate de a facilita accesul la resursele informaționale de pe internet a fost formarea de cataloage de site-uri. Link-urile către resursele din acestea au fost grupate pe subiecte.

Primul proiect de acest gen este considerat Yahoo, deschis în aprilie 1994... Datorită creșterii rapide a numărului de site-uri, a devenit în curând posibilă căutarea informațiilor necesare la cerere. Desigur, acesta nu a fost încă un motor de căutare complet. Căutarea a fost limitată doar la datele din catalog.

În primele etape ale dezvoltării internetului, directoarele de legături au fost utilizate foarte activ, dar și-au pierdut treptat popularitatea. Motivul este simplu: deși există multe resurse în cataloagele moderne, acestea arată în continuare doar o mică parte din informațiile disponibile pe internet. De exemplu, cel mai mare director de pe web este - DMOZ(Proiect Open Directory). Conține informații despre puțin peste cinci milioane de resurse, ceea ce este incomparabil cu baza de căutare Google, care conține peste opt miliarde de documente.

Cel mai mare director în limba rusă este directorul Yandex. Conține informații despre puțin peste o sută patru mii de resurse.

Cronologia dezvoltării motoarelor de căutare

1945 an- Inginerul american Vannevar Bush a publicat notele ideii care a dus la inventarea hipertextului și a raționamentului despre necesitatea dezvoltării unui sistem de extragere rapidă a datelor din informațiile stocate în acest mod (echivalent cu motoarele de căutare actuale). Conceptul de dispozitiv de extindere a memoriei pe care l-a introdus conținea idei originale care, în cele din urmă, au fost întruchipate în Internet.

Anii 1960- Gerard Salton și echipa sa de la Universitatea Cornell au dezvoltat sistemul SMART de recuperare a informațiilor. SMART este un acronim pentru Salton’s Magic Automatic Retriever of Text, care înseamnă Salton’s Magic Automatic Retriever of Text. Gerard Salton este considerat tatăl tehnologiei moderne de căutare.

1987-1989 - dezvoltat Archie- motor de căutare pentru indexarea arhivelor FTP. Archie a fost un script care automatizează injecția în listări de pe serverele ftp, care sunt apoi transferate în fișiere locale și abia apoi se efectuează o căutare rapidă a informațiilor necesare în fișiere locale. Căutarea s-a bazat pe comanda standard Unix grep, iar utilizatorul a accesat datele folosind telnet.

În următoarea versiune, datele au fost împărțite în baze de date separate, dintre care una conținea doar nume de fișiere text; cealaltă conține intrări cu legături către directoare ierarhice a mii de gazde; și încă unul care leagă primele două. Această versiune a lui Archie a fost mai eficientă decât cea anterioară, deoarece a căutat doar numele fișierelor, excluzând multe dintre duplicatele existente.

Motorul de căutare a devenit din ce în ce mai popular, iar dezvoltatorii s-au gândit cum să-și accelereze activitatea. Baza de date menționată mai sus a fost înlocuită cu alta bazată pe teoria arborelui comprimat. Noua versiune a creat în esență o bază de date full-text în loc de o listă de nume de fișiere și a fost semnificativ mai rapidă decât înainte. În plus, modificările minore au permis sistemului Archie să indexeze paginile web. Din păcate, din diverse motive, lucrările la Archie au încetat curând.

În 1993 a fost creat primul motor de căutare din lume pentru World Wide Web Wandex... S-a bazat pe botul World Wide Web Wanderer, dezvoltat de Matthew Gray de la Massachusetts Institute of Technology.

1993 an- Martin Koster creează Aliweb- unul dintre primele motoare de căutare de pe World Wide Web. Proprietarii de site-uri au trebuit să le adauge ei înșiși la indexul Aliweb pentru ca aceștia să poată apărea în căutare. Deoarece erau prea puțini webmasteri care făceau acest lucru, Aliweb nu a devenit popular.

20 aprilie 1994- Brian Pinkerton de la Universitatea din Washington a fost eliberat WebCrawler- primul bot care a indexat paginile complet. Principala diferență dintre motorul de căutare și predecesorii săi este capacitatea utilizatorilor de a căuta orice cuvinte cheie pe orice pagină web. Astăzi, această tehnologie este standardul de căutare pentru orice motor de căutare. Motorul de căutare WebCrawler a devenit primul sistem cunoscut de o gamă largă de utilizatori. Din păcate, debitul a fost redus și în timpul zilei sistemul a fost adesea indisponibil.

20 iulie 1994- deschis Lycos Este o dezvoltare majoră în tehnologia de căutare creată la Universitatea Carnegie Melon. Michael Muldin a fost responsabil pentru acest motor de căutare și rămâne specialistul principal la Lycos Inc. până în prezent. Lycos s-a deschis cu un catalog de 54.000 de documente. Și, în plus, rezultatele pe care le-a oferit au fost clasificate și a ținut cont și de prefixe și de potrivire aproximativă. Dar principala diferență între Lycos a fost catalogul său în continuă creștere: până în noiembrie 1996, 60 de milioane de documente fuseseră indexate - mai mult decât orice alt motor de căutare al vremii.

Ianuarie 1994- a fost fondat Infoseek... Nu a fost cu adevărat inovator, dar a venit cu o serie de adăugiri utile. Una dintre aceste adăugiri populare a fost posibilitatea de a adăuga pagina dvs. în timp real.

1995 an- lansat AltaVista... După ce a apărut, motorul de căutare AltaVista a câștigat rapid recunoașterea din partea utilizatorilor și a devenit un lider în acest gen. Sistemul avea lățime de bandă aproape nelimitată în acel moment, era primul motor de căutare în care era posibil să formuleze interogări în limbaj natural, precum și să formuleze interogări complexe. Utilizatorilor li s-a permis să adauge sau să elimine propriile adrese URL timp de 24 de ore. De asemenea, AltaVista a oferit multe sfaturi și trucuri pentru căutare. Principalul merit al sistemului AltaVista este considerat a oferi suport pentru multe limbi, inclusiv chineză, japoneză și coreeană. Într-adevăr, în 1997, niciun motor de căutare de pe web nu funcționa cu mai multe limbi, cu atât mai puțin cu cele rare.

Anul 1996- motorul de căutare AltaVista a lansat o extensie morfologică pentru limba rusă. În același an, au fost lansate primele motoare de căutare interne - Rambler.ru și Aport.ru. Apariția primelor motoare de căutare interne a marcat o nouă etapă în dezvoltarea Runet, permițând utilizatorilor de limbă rusă să facă o cerere în limba lor maternă, precum și să răspundă rapid la schimbările care au loc pe web.

20 mai 1996- corporația Inktomi a apărut împreună cu motorul său de căutare Hotbot... Creatorii săi au fost două echipe de la Universitatea din California. Când site-ul a fost lansat, a devenit rapid popular. În octombrie 2001, Danny Sullivan a scris un articol intitulat „Inktomi's Spam Site Database Opened to the Public” despre modul în care Inktomi și-a făcut din greșeală baza de date a site-ului de spam, care până atunci avea aproximativ 1 milion de adrese URL disponibile publicului.

1997 an- în țările occidentale, există un moment decisiv în dezvoltarea motoarelor de căutare, când S. Brin și L. Page de la Universitatea Stanford au fondat Google(numele original al proiectului este BackRub). Au dezvoltat propriul motor de căutare, care le-a oferit utilizatorilor posibilitatea de a efectua căutări de înaltă calitate luând în considerare morfologia, erorile de ortografie și, de asemenea, să crească relevanța în rezultatele căutării.

23 septembrie 1997- a anunțat Yandex, care a devenit rapid cel mai popular motor de căutare în rândul utilizatorilor de internet vorbitori de limbă rusă. Odată cu lansarea motorului de căutare Yandex, motoarele de căutare interne au început să concureze între ele, îmbunătățind sistemul de căutare și indexare a site-urilor, emitând rezultate, precum și oferind noi servicii și servicii

Astfel, dezvoltarea motoarelor de căutare și formarea acestora pot fi caracterizate prin etapele enumerate mai sus.

Astăzi, trei lideri s-au stabilit pe piața globală - Google, Yahoo și Bing. Au propriile baze de date și proprii algoritmi de căutare. Multe alte motoare de căutare folosesc rezultatele acestor trei motoare de căutare majore. De exemplu, AOL utilizează baza de date Google, în timp ce AltaVista, Lycos și AllTheWeb folosesc baza de date Yahoo. Toate celelalte motoare de căutare, în diferite combinații, utilizează rezultatele (SERP) ale sistemelor listate.

Dacă vom efectua o analiză similară a motoarelor de căutare populare în țările CSI, vom vedea că mail.ru transmite căutarea Google, în timp ce suprapune noile sale dezvoltări, Rambler, la rândul său, transmite Yandex. Prin urmare, întreaga piață Runet poate fi împărțită între acești doi uriași.

De aceea, în țările CSI, promovarea site-urilor web, de regulă, se desfășoară numai în aceste două PS-uri.