A keresőmotorok fejlődésének története. A keresőmotorok fejlődésének története Történelem az amerikai keresőben

Mi volt az első keresőmotor a Runetben? Yandex, Aport vagy Rambler?

A legelső Runet keresőmotorok (amelyekből a Rambler egyik alapítója szerint 2 vagy 3 volt) nagyon gyorsan a feledés homályába merültek. Köztük voltak az AltaVista rendszer morfológiai kiterjesztései is, amelyek nevüket nem hagyták ránk. Ezért a maradók közül kell választanunk:

Turista

A "Rambler" létrehozása 1996-ban kezdődött, amikor még csak néhány tucat webhely volt az internet orosz szegmensében. A fejlesztés az év őszén véget ért. A rambler.ru domain regisztrációja szeptember 26-án történt 1996. október 8, az egyik alkotó születésnapján a Rambler nyitva állt a felhasználók előtt.

Rambler – a Runet legelső keresője a jelenleg létezők közül.

Az Aport keresőt 1996 februárjában fejlesztették ki, de akkor még csak a russia.agama.com oldalon keresett. Fokozatosan nőtt az oldalak száma és a hivatalos megnyitóig 1997. november 11években az "Aport" már 10 000 oldalt keresett. Így az "Aport" volt az egyik első keresőmotor a Runetben, de a keresés korlátozott hatóköre miatt nem ismerhető fel a legrégebbiként.

Yandex

A Yandexet fejlesztő CompTek-et 1989-ben alapították. 1993-ban a CompTek kifejlesztette a Yandex-et, egy merevlemez-kereső programot. 1996-ban a webes keresés lehetőségével bővült a program. 1997-ben megírták az első keresőrobotot, indexelték a Runetet és 1997. szeptember 23évben megtörtént a Yandex hivatalos bemutatója.

A CompTek Yandex nem a legrégebbi, de keresési technológiái, valamint nyelvészeti és morfológiai kutatásaik a legrégebbi Oroszországban.

Az internet kezdetén a felhasználók kiváltságos kisebbséget alkottak, és a rendelkezésre álló információ mennyisége viszonylag csekély volt. Akkoriban elsősorban a különböző nagy oktatási intézmények, laboratóriumok dolgozói fértek hozzá, a megszerzett adatokat tudományos célokra használták fel. Abban az időben a web használata nem volt annyira releváns, mint most.

1990-ben Tim Berners-Lee brit tudós (aki az URI, URL, HTTP, World Wide Web feltalálója is) készítette a weboldalt. info.cern.ch, amely a világ első elérhető internetes oldalak címtára. Ettől a pillanattól kezdve az internet népszerűvé vált nemcsak a tudományos közösség, hanem a személyi számítógépek hétköznapi tulajdonosai körében is.

Így az internetes információforrásokhoz való hozzáférés megkönnyítésének első módja a webhelyek katalógusainak kialakítása volt. A bennük található forrásokra mutató hivatkozásokat témakörök szerint csoportosítottuk.

Az első ilyen projekt a Yahoo, nyitott 1994 áprilisában. A benne található helyek számának rohamos növekedése miatt hamarosan lehetővé vált a szükséges információk igény szerinti felkutatása. Természetesen ez még nem volt teljes értékű kereső. A keresés csak a címtárban lévő adatokra korlátozódott.

Az internet fejlődésének korai szakaszában a linkkönyvtárakat nagyon aktívan használták, de fokozatosan elvesztették népszerűségüket. Az ok egyszerű: még ha sok forrás is található a modern címtárban, akkor is csak egy kis részét jelenítik meg az interneten elérhető információknak. Például a legnagyobb hálózati könyvtár a − DMOZ(Open Directory Project). Valamivel több mint ötmillió forrásról tartalmaz információkat, ami összemérhetetlen a több mint nyolcmilliárd dokumentumot tartalmazó Google keresőbázissal.

A legnagyobb orosz nyelvű katalógus a Yandex katalógus. Valamivel több mint száznégyezer forrásról tartalmaz információkat.

A keresőmotor fejlesztésének idővonala

1945- Vannevar Bush amerikai mérnök jegyzeteket tett közzé arról az ötletről, amely később a hipertext feltalálásához vezetett, és egy olyan rendszer kifejlesztésének szükségességéről, amely az így tárolt információkból gyorsan kinyerhető (a mai keresőmotorok megfelelője). Az általa bemutatott memóriabővítő koncepció eredeti ötleteket tartalmazott, amelyek végül az interneten testesültek meg.

1960-as évek Gerard Salton és csoportja a Cornell Egyetemen fejlesztette ki a SMART információkereső rendszert. A SMART a Salton's Magic Automatic Retriever of Text rövidítése. Gerard Saltont a modern keresési technológia atyjának tartják.

1987-1989 – fejlődött Archie— keresőmotor FTP-archívumok indexeléséhez. Az Archie egy olyan szkript volt, amely automatizálja a beillesztést az ftp-szervereken lévő listákba, amelyek aztán átkerülnek a helyi fájlokba, és csak ezután történik a szükséges információk gyors keresése a helyi fájlokban. A keresés a szabványos Unix grep parancson alapult, a felhasználó adatokhoz való hozzáférése pedig a telnet alapján történt.

A következő változatban az adatokat külön adatbázisokba osztották, amelyek közül az egyik csak szöveges fájlneveket tartalmazott; a másik pedig ezer gazdagép hierarchikus könyvtáraira mutató hivatkozásokat tartalmazó bejegyzések; és egy másik, amely összeköti az első kettőt. Az Archie ezen verziója hatékonyabb volt, mint az előző, mivel csak fájlneveket keresett, kiküszöbölve a korábbi ismétlődéseket.

A kereső egyre népszerűbb lett, és a fejlesztők azon gondolkodtak, hogyan lehetne felgyorsítani a munkáját. A fent említett adatbázist egy másik, a tömörített fa elméleten alapuló adatbázis váltotta fel. Az új verzió lényegében egy teljes szöveges adatbázist hozott létre a fájlnevek listája helyett, és lényegesen gyorsabb volt, mint korábban. Ezenkívül kisebb változtatások lehetővé tették az Archie rendszer számára a weboldalak indexelését. Sajnos különböző okok miatt az Archie-val kapcsolatos munka hamarosan leállt.

1993-ban létrehozta a világ első keresőmotorját a világhálóhoz Wandex. Az alapja a World Wide Web Wanderer bot, amelyet Matthew Gray, a Massachusetts Institute of Technology munkatársa fejlesztett ki.

1993– alkotja Martin Coster Aliweb az egyik első keresőmotor a világhálón. A webhelytulajdonosoknak maguknak kellett hozzáadniuk őket az Aliweb indexéhez, hogy megjelenjenek a keresésben. Mivel túl kevés webmester csinálta, az Aliweb nem vált népszerűvé.

1994. április 20– tette közzé Brian Pinkerton, a Washingtoni Egyetem munkatársa webrobot- az első bot, amely teljesen indexelte az oldalakat. A fő különbség a keresőmotor és elődei között az, hogy a felhasználók bármilyen kulcsszóra kereshetnek bármely weboldalon. Ma ez a technológia minden keresőmotor keresési szabványa. A WebCrawler kereső volt az első olyan rendszer, amelyet a felhasználók széles köre ismert. Sajnos az átviteli sebesség nem volt magas, és a rendszer gyakran nem volt elérhető napközben.

1994. július 20- nyitott Lycos- a Carnegie Melon Egyetemen született komoly fejlesztés a keresőtechnológiában. Michael Maldin volt a felelős a keresőmotorért, és még mindig a Lycos Inc. vezetője. A Lycos egy 54 000 dokumentumot tartalmazó katalógussal nyitott. És ezen felül az általa közölt eredményeket rangsorolták, plusz az előtagokat és a hozzávetőleges egyezéseket is figyelembe vette. De a fő különbség a Lycos között a folyamatosan frissített címtár volt: 1996 novemberéig 60 millió dokumentumot indexeltek – többet, mint bármely más akkori keresőmotornál.

1994. január- megtalálva infoseek. Nem volt igazán innovatív, de számos hasznos kiegészítést tartalmazott. Az egyik ilyen népszerű kiegészítés az volt, hogy valós időben lehetett hozzáadni az oldalt.

1995- indított AltaVista. Megjelenése után az AltaVista keresőmotor gyorsan elnyerte a felhasználók elismerését, és a maga nemében vezető szerepet tölt be. A rendszer akkoriban gyakorlatilag korlátlan sávszélességgel rendelkezett, ez volt az első kereső, amelyben természetes nyelven lehetett lekérdezéseket megfogalmazni, valamint összetett lekérdezéseket is megfogalmazni. A felhasználók 24 órán belül hozzáadhatták vagy eltávolíthatták saját URL-jüket. Az AltaVista számos tippet és trükköt is kínált a kereséshez. Az AltaVista rendszer fő érdeme, hogy számos nyelvet támogat, beleértve a kínait, a japánt és a koreait is. Valójában 1997-ben a weben egyetlen keresőmotor sem dolgozott több nyelven, különösen ritka nyelvekkel.

1996- Az AltaVista kereső elindította az orosz nyelv morfológiai kiterjesztését. Ugyanebben az évben elindultak az első hazai keresők, a Rambler.ru és az Aport.ru. Az első hazai keresőmotorok megjelenése új állomást jelentett a Runet fejlesztésében, lehetővé téve az oroszul beszélő felhasználók számára, hogy anyanyelvükön kérjenek, valamint gyorsan reagáljanak a weben végbemenő változásokra.

1996. május 20- jelent meg az Inktomi társaság keresőjével együtt hotbot. Alkotói a Kaliforniai Egyetem két csapata volt. Amikor az oldal megjelent, gyorsan népszerűvé vált. 2001 októberében Danny Sullivan írt egy cikket "Az Inktomi levélszemét-adatbázisa nyilvánosan megnyílt" címmel, amelyben leírta, hogy az Inktomi véletlenül hogyan tette nyilvánossá a spamoldalak adatbázisát, amely akkoriban már körülbelül 1 millió URL-lel rendelkezett. Általános használatra.

1997- a nyugati országokban fordulópont van a keresőmotorok fejlődésében, amikor S. Brin és L. Page a Stanford Egyetemről megalapították Google(a BackRub projekt eredeti neve). Kifejlesztették saját keresőjüket, amely lehetőséget adott a felhasználóknak, hogy a morfológiát, a hibásan írt szavakat figyelembe véve jó minőségű kereséseket hajtsanak végre, és növeljék a relevanciát a keresési eredményekben.

1997. szeptember 23- bejelentett Yandex, amely gyorsan a legnépszerűbb keresővé vált az oroszul beszélő internetezők körében. A Yandex kereső elindításával a hazai keresők versenyezni kezdtek egymással, fejlesztve a keresőrendszert és az oldalak indexelését, találatokat adtak ki, valamint új szolgáltatásokat és szolgáltatásokat kínáltak.

Így a keresőmotorok fejlődése és kialakulása a fent felsorolt szakaszokkal jellemezhető.

A mai napig három vezető telepedett le a globális piacon – a Google, a Yahoo és a Bing. Saját adatbázisaik és keresési algoritmusaik vannak. Sok más keresőmotor használja ennek a három nagy keresőmotornak az eredményeit. Például az AOL a Google adatbázisát használja, míg az AltaVista, a Lycos és az AllTheWeb a Yahoo adatbázist, az összes többi kereső pedig különféle kombinációkban a felsorolt motorok eredményeit (eredményeit) használja.

Ha hasonló elemzést végzünk a FÁK-országokban népszerű keresőmotorokról, látni fogjuk, hogy a mail.ru a Google keresést sugározza, miközben új fejlesztéseit a Rambler a Yandexet sugározza. Ezért az egész Runet piac felosztható e két óriás között.

Éppen ezért a FÁK-országokban a webhelyek promóciója általában csak ebben a két PS-ben történik.

Az internetes közösség kialakulásának kezdeti éveiben az aktív internetezők kisebbségben voltak, az internetes forrásokról szóló információ mennyisége viszonylag csekély volt. A világ információs hálózatához többnyire csak tudományos laboratóriumok és nagy oktatási intézmények alkalmazottai fértek hozzá. Általánosságban elmondható, hogy a hálózati erőforrások használata nem volt annyira releváns, mint manapság.

A keresőmotorok története

Nagy lépés az internet tömegekhez való elterjedése felé az info.centr.ch weboldal megjelenése volt 1990-ben. Ez a webhely volt az internetes oldalak első nyilvános címtára. Az alkotó Tim Berners-Lee brit tudós, akit az URI-k, a HTTP-k, a World Wide Web és az URL-ek megalkotójának is tartanak. Ettől a pillanattól kezdve az internetes oldalak nemcsak a speciális felhasználói körökben váltak fontossá, hanem az otthoni számítógépek szokásos tulajdonosai körében is. Ebben a címtárban a kényelem kedvéért az információs forrásokat hasonló témájú csoportok alapján rendeztük el, ami nagyban megkönnyíti az információkeresést.

A fejlődés azonban nem állt meg itt, és 1994-ben megszületett a Carnegie Egyetem által kifejlesztett, Lucos néven ismert kereső technológia. Ez a katalógus, amelyet Michael Maldin készített, több mint 50 000 dokumentumot tartalmazott. A Lucosban a lekérdezéseket a lekérdezés hozzávetőleges egyezéseinek tekintették, és a keresési eredményt a bemeneti és kimeneti információ közötti egyezéstől függően rangsorolták. Emellett folyamatosan bővült az erőforrás új internetes oldalakkal. Novemberre a Lucosnak több mint 55 millió oldala és dokumentuma volt, sokkal több, mint bármely korabeli dokumentumkatalógus.

1994 végén megjelent az Infosek forrás. Számos előnnyel járt más erőforrásokkal szemben. Például webhelyek valós időben történő hozzáadása a felhasználó által a katalógus-adatbázishoz.

1995-ben az új keresőmotor szörnye az AltaVista volt. Gyorsan népszerűvé vált az internetezők körében, és vezető pozíciót szerzett a területén. Fő jellemzője az volt, hogy természetes, köznyelvi lekérdezéseket tudott megfogalmazni, valamint a felhasználók saját URL-címeket adhattak hozzá. Az AltaVista fő érdeme azonban a több nyelvi csomag támogatása volt, mint például a koreai, japán és kínai, valamint az orosz.

Óriási lépés volt a keresőtechnológiában egy új keresőmotor megjelenése az interneten, melynek nevét jelenleg minden felhasználó hallja, mégpedig a Google. 1997-ben L. Page és S. Brin a Stanford Egyetemről új funkciókat vezetett be utódaik keresési algoritmusaiba. A keresés során a rendszer által kiadott keresési eredmények relevanciarendszereit használtuk, a lekérdezésnél figyelembe vettük a morfológiát és az esetleges helyesírási hibákat.

A keresőmotorok piacán manapság három vezető szerepet tölt be: a Bing, a Google és a Yahoo. Rendelkezésükre állnak saját gyártású keresőalgoritmusok és adatbázisok. Sok keresőmotor, amelyekből sok van, ennek a három titánnak a fejlesztéseit használja a keresők között.

A keresőmotoroknak köszönhetően a hétköznapi ember könnyebben felfedezheti az információs mező hatalmas tárházát. Fejlesztésük nélkül lehetetlen javítani az emberek közötti információcsere módozatait.

A keresőmotor architektúrája általában a következőket tartalmazza:

Enciklopédiai YouTube

1 / 5

✪ 3. lecke: Hogyan működik a kereső. Bevezetés a SEO-ba

✪ Keresőmotor belülről

✪ Shodan – Fekete Google

✪ A Cheburashka keresőmotor felváltja a Google-t és a Yandexet Oroszországban

✪ 1. lecke – Hogyan működik a kereső

Feliratok

Történelem

Kronológia
Év	Rendszer	Esemény
1993	W3 katalógus?!	dob
	Aliweb	dob
	JumpStation	dob
1994	webrobot	dob
	infoseek	dob
	Lycos	dob
1995	AltaVista	dob
	Daum	Bázis
	nyitott szöveg webindex	dob
	Magellán	dob
	Izgat	dob
	SAPO	dob
	Jehu!	dob
1996	Dogpile	dob
	Inktomi	Bázis
	Turista	Bázis
	hotbot	Bázis
	Kérdezd meg Jeeves-t	Bázis
1997	Északi fény	dob
1997	Yandex	dob
1998	Google	dob
1999	AlltheWeb	dob
	GenieKnows	Bázis
	Naver	dob
	Teoma	Bázis
	Vivisimo	Bázis
2000	Baidu	Bázis
2000	Exalead	Bázis
2003	info.com	dob
2004	Jehu! Keresés	Végső indítás
	A9.com	dob
	sogou	dob
2005	MSN Keresés	Végső indítás
	Ask.com	dob
	Nigma	dob
	árukeresés	dob
Keress engem	Bázis
2006	wikikeresés	Bázis
	Quaero	Bázis
	Élő Keresés	dob
	ChaCha	Indítás (béta)
	Guruji.com	Indítás (béta)
2007	wikikeresés	dob
	Sproose	dob
	Wikia Keresés	dob
	blackle.com	dob
2008	DuckDuckGo	dob
	Tooby	dob
	Picollator	dob
	Viewzi	dob
	Cuil	dob
	Boogami	dob
	LeapFish	Indítás (béta)
	Erdő	dob
	VADLO	dob
	powerset	dob
2009	bing	dob
	KAZ.KZ	dob
	Yebol	Indítás (béta)
	Mugurdy	bezárás
	cserkész	dob
2010	Cuil	bezárás
	Blekko	Indítás (béta)
	Viewzi	bezárás
2012	WAZZUB	dob
2014	Műhold	Indítás (béta)

Az internet fejlesztésének korai szakaszában Tim Berners-Lee a CERN honlapján közzétett webszerverek listáját vezette. Egyre több oldal volt, és egy ilyen lista manuális karbantartása egyre nehezebbé vált. Az NCSA webhelyén volt egy külön „Újdonságok!” rész. (hun. What's New!), ahol új oldalakra mutató hivatkozásokat tettek közzé.

Az első számítógépes program az interneten való kereséshez az volt Archie(angolul archie - archívum a "c" betű nélkül). 1990-ben hozták létre Alan Emtage, Bill Heelan és J. Peter Deutsch, a montreali McGill Egyetem informatikus hallgatói. A program letöltötte az összes elérhető névtelen FTP-kiszolgálóról az összes fájl listáját, és létrehozott egy adatbázist, amelyben fájlnevek alapján lehetett keresni. Az Archie programja azonban nem indexelte ezeknek a fájloknak a tartalmát, mivel az adatmennyiség olyan csekély volt, hogy mindent könnyen meg lehetett találni kézzel.

A Gopher hálózati protokoll fejlesztése és terjesztése, amelyet 1991-ben Mark McCahill alkotott meg a Minnesotai Egyetemen, két új keresőprogram létrehozásához vezetett, Veronikaés Jughead. Archie-hoz hasonlóan megkeresték a Gopher indexrendszereiben tárolt fájlneveket és fejléceket. Veronica (angol) Nagyon egyszerű rágcsáló-orientált, hálózatra kiterjedő index a számítógépes archívumokhoz) engedélyezte a kulcsszavas keresést a legtöbb Gopher menüfejlécre az összes Gopher listán. A Jughead program Jonzy Univerzális Gopher-hierarchia ásatása és megjelenítése) lekérte a menüinformációkat bizonyos Gopher szerverekről. Bár Archie keresőjének neve nem a képregénysorozathoz kapcsolódott "Archie", ennek ellenére Veronica és Jughead karakterek ezekben a képregényekben.

1993 nyarára még nem létezett egyetlen rendszer a weben való kereséshez, bár számos speciális címtárat karbantartottak manuálisan. Oscar Nierstrasz a Genfi Egyetemen egy sor Perl-szkriptet írt, amelyek rendszeresen lemásolták ezeket az oldalakat, és átírták őket egy szabványos formátumra. Ez lett az alapja W3 katalógus?!, az első primitív internetes kereső, 1993. szeptember 2-án indult.

Valószínűleg az első Perlben írt keresőmotor a "World Wide Web Wanderer" volt, Matthew Gray botja 1993 júniusában. Ez a robot létrehozta a "Wandex" keresési indexet. A Wanderer robot célja az volt, hogy megmérje a világháló méretét, és megtalálja az összes olyan weboldalt, amely a lekérdezésben szereplő szavakat tartalmazza. 1993-ban megjelent a második keresőmotor, az Aliweb. Az Aliweb nem használt bejárót, ehelyett várta a webhelyek adminisztrátorainak értesítéseit egy bizonyos formátumú indexfájl jelenlétéről a webhelyükön.

JumpStation, amelyet 1993 decemberében Jonathan Fletcher hozott létre, weblapokat keresett és indexelt egy bejáró segítségével, valamint webes űrlapot használt felületként a keresési lekérdezések megfogalmazásához. Ez volt az első internetes keresőeszköz, amely egyesítette a keresőmotor három alapvető funkcióját (ellenőrzés, indexelés és tényleges keresés). A korabeli számítógépek korlátozott erőforrásai miatt az indexelés, így a keresés csak a bejáró által talált weboldalak címére és címére korlátozódott.

A keresőmotorok az 1990-es évek végén részt vettek a Dot-com buborékban. Több cég is látványosan lépett be a piacra, rekord nyereséget produkálva az IPO során. Néhányan felhagytak a nyilvános keresőmotorok piacával, és csak a vállalati szektorral dolgoznak, mint pl Északi fény.

A Google 1998-ban vette fel a kulcsszavak értékesítésének ötletét, amikor egy kis cég volt, amely keresőmotort működtet a goto.com oldalon. A lépés azt jelentette, hogy a keresőmotorok az egymással való versengésről az internet egyik legjövedelmezőbb üzleti vállalkozásává váltak. A keresőmotorok elkezdték eladni a keresési eredmények első helyeit az egyes cégeknek.

A Google keresőmotorja a 2000-es évek eleje óta előkelő helyen van. A cég magas pozíciót ért el a PageRank algoritmussal végzett jó keresési eredményeknek köszönhetően. Az algoritmust Sergey Brin és Larry Page, a Google alapítói "A keresőmotor anatómiája" című cikkében mutatták be a nyilvánosságnak. Ez az iteratív algoritmus a weboldalakat az adott weboldalra mutató hiperhivatkozások becsült száma alapján rangsorolja, feltételezve, hogy a „jó” és „fontos” oldalak több hivatkozást kapnak, mint mások. A Google felülete spártai stílusban készült, ahol nincs semmi felesleges, ellentétben sok versenytársával, akik beépítették a keresőt a webportálba. A Google kereső annyira népszerű lett, hogy megjelentek utánzói pl. Rejtélykereső(titkos kereső).

Keressen információkat oroszul

1996-ban az orosz morfológiát figyelembe vevő keresést hajtottak végre az Altavista keresőmotoron, és elindították az eredeti orosz Rambler és Aport keresőmotorokat. 1997. szeptember 23-án megnyílt a Yandex kereső. 2014. május 22-én a Rostelecom nyitotta meg a Szputnyik országos keresőt, amely 2015-ben béta tesztelés alatt áll. 2015. április 22-én új Szputnyik szolgáltatás indult. Gyermekek kifejezetten fokozott biztonságú gyermekek számára.

A klaszteranalízis és a metaadat-keresés módszerei nagy népszerűségre tettek szert. Az ilyen típusú nemzetközi gépek közül a leghíresebb volt "Clusty" cégek Vivisimo. 2005-ben a Moszkvai Állami Egyetem támogatásával Oroszországban elindult a Nigma kereső, amely támogatja az automatikus klaszterezést. 2006-ban megnyílt az orosz Quintura metagép, amely vizuális klaszterezést kínál címkefelhő formájában. Nigma vizuális klaszterezéssel is kísérletezett.

Hogyan működik a kereső

A keresőmotor fő összetevői: keresőrobot, indexelő, kereső.

A rendszerek általában szakaszosan működnek. Először a bejáró megkapja a tartalmat, majd az indexelő létrehoz egy kereshető indexet, végül a bejáró biztosítja az indexelt adatok keresésének funkcióját. A keresőmotor frissítéséhez ez az indexelési ciklus megismétlődik.

A keresőmotorok úgy működnek, hogy sok olyan weboldalról tárolnak információkat, amelyeket a HTML-oldalakról kapnak. Keresőrobot vagy "bejáró" (eng. Crawler) - olyan program, amely automatikusan követi az oldalon található összes hivatkozást, és kiemeli azokat. A bejáró hivatkozások vagy előre meghatározott címlista alapján olyan új dokumentumokat keres, amelyeket még nem ismer a kereső. A webhely tulajdonosa kizárhat bizonyos oldalakat a robots.txt segítségével, amellyel megakadályozhatja a webhely fájlok, oldalak vagy könyvtárak indexelését.

A keresőmotor elemzi az egyes oldalak tartalmát a további indexelés érdekében. A szavak kivonhatók címekből, oldalszövegekből vagy speciális mezőkből - metacímkékből. Az indexelő egy olyan modul, amely elemzi az oldalt, miután részekre bontja, saját lexikális és morfológiai algoritmusai segítségével. A weboldal minden eleme elkülönítve van és külön elemzi. A weblapok adatait egy index adatbázisban tárolják a későbbi kérésekben való felhasználás céljából. Az index lehetővé teszi, hogy gyorsan információt találjon a felhasználó kérésére. Számos keresőmotor, például a Google, tárolja az eredeti oldalt vagy annak egy részét, az úgynevezett gyorsítótárat, valamint a weboldallal kapcsolatos különféle információkat. Más rendszerek, például az AltaVista, minden talált oldal minden szavát tárolják. A gyorsítótár használata felgyorsítja az információk kinyerését a már meglátogatott oldalakról. A gyorsítótárazott oldalak mindig azt a szöveget tartalmazzák, amelyet a felhasználó a keresési lekérdezésben megadott. Ez akkor lehet hasznos, ha a weboldal frissítésre került, vagyis már nem tartalmazza a felhasználó kérésének szövegét, és a gyorsítótárban lévő oldal még régi. Ez a helyzet a kapcsolatok elvesztésével kapcsolatos (angol. linkrot) és a Google felhasználóbarát (használhatósági) megközelítése. Ez magában foglalja a rövid szövegrészek kiadását a lekérdezés szövegét tartalmazó gyorsítótárból. A legkisebb meglepetés elve érvényesül, a felhasználó általában elvárja, hogy a kapott oldalak szövegében a keresett szavakat látja ( felhasználói elvárások). A gyorsítótárazott oldalak használatával végzett keresések felgyorsítása mellett a gyorsítótárazott oldalak olyan információkat is tartalmazhatnak, amelyek máshol már nem elérhetők.

A keresőmotor az indexelőtől kapott kimeneti fájlokkal dolgozik. A keresőmotor elfogadja a felhasználói kéréseket, index segítségével feldolgozza azokat, és visszaadja a keresési eredményeket.

Amikor a felhasználó beír egy lekérdezést a keresőbe (általában kulcsszavak használatával), a rendszer ellenőrzi annak indexét, és visszaadja a legrelevánsabb weboldalak listáját (valamilyen kritérium szerint rendezve), általában egy rövid megjegyzéssel, amely tartalmazza a dokumentum címét és néha a szöveg egyes részeit. A keresőindex egy speciális technika szerint épül fel, weboldalakról kinyert információk alapján. 2007 óta a Google keresője lehetővé teszi az időalapú keresést, a keresett dokumentumok elkészítését (hívja a "Keresőeszközök" menüt és adja meg az időtartományt). A legtöbb keresőmotor támogatja a logikai AND, OR, NOT operátorok használatát a lekérdezésekben, ami lehetővé teszi a keresett kulcsszavak listájának finomítását vagy bővítését. Ebben az esetben a rendszer pontosan a beírt szavakat vagy kifejezéseket keresi. Egyes keresőmotorok lehetővé teszik hozzávetőleges keresés, ebben az esetben a felhasználók kiterjesztik a keresési területet a kulcsszavak távolságának megadásával . Vannak még fogalmi keresés, amely a keresőszavak és kifejezések weboldalak szövegeiben való használatának statisztikai elemzését használja. Ezek a rendszerek lehetővé teszik a lekérdezések természetes nyelven történő összeállítását. Ilyen keresőmotor például az ask com webhely.

A keresőmotor hasznossága a talált oldalak relevanciájától függ. Míg több millió weboldal tartalmazhat szót vagy kifejezést, egyesek relevánsabbak, népszerűbbek vagy hitelesebbek lehetnek, mint mások. A legtöbb keresőmotor rangsorolási módszereket használ, hogy a "legjobb" eredményeket a lista elejére hozza. A keresőmotorok döntik el, hogy mely oldalak relevánsabbak, és milyen sorrendben jelenjenek meg az eredmények különböző módokon. A keresési módszerek, mint maga az internet, idővel változnak. Így a keresőmotorok két fő típusa jelent meg: előre definiált és hierarchikusan rendezett kulcsszavak rendszerei, illetve olyan rendszerek, amelyekben szövegelemzés alapján fordított indexet generálnak.

A keresők többsége kereskedelmi vállalkozás, amely a reklámozásból profitál, egyes keresőkben térítés ellenében az adott kulcsszavakra a keresési eredmények között elsőbbséget vásárolhat. Azok a keresők, amelyek nem számítanak fel díjat a találati sorrendért, a kontextuális hirdetéseken keresnek, míg a reklámüzenetek a felhasználó kérésének felelnek meg. Az ilyen hirdetések a keresési eredmények listáját tartalmazó oldalon jelennek meg, és a keresőmotorok minden alkalommal keresnek, amikor a felhasználó a hirdetési üzenetekre kattint.

Keresőmotorok típusai

Négy típusú keresőmotor létezik: robotizált, embervezérelt, hibrid és metarendszerek.

keresőrobotokat használó rendszerek

Három részből állnak: egy bejáróból ("bot", "robot" vagy "pók"), egy indexből és egy keresőszoftverből. A bejáróra a hálózat megkerüléséhez és a weboldalak listájának létrehozásához van szükség. Az index a weboldalak másolatainak nagy archívuma. A szoftver célja a keresési eredmények értékelése. Tekintettel arra, hogy ebben a mechanizmusban a bejáró folyamatosan feltárja a hálózatot, az információk naprakészebbek. A legtöbb modern keresőmotor ilyen típusú rendszer.

ember által vezérelt rendszerek (erőforrás-katalógusok)

Ezek a keresőmotorok listákat kapnak a weboldalakról. A címtár tartalmazza a címet, a címet és a webhely rövid leírását. Az erőforrás-katalógus csak a webmesterek által beküldött oldalleírásokból keresi az eredményeket. A könyvtárak előnye, hogy minden erőforrást manuálisan ellenőriznek, így a tartalom minősége jobb lesz az első típusú rendszer által automatikusan kapott eredményekhez képest. De van egy hátránya is - ezeknek a katalógusoknak a frissítése manuálisan történik, és jelentősen elmaradhat a dolgok valós állapotától. Az oldalak rangsorolása nem változhat azonnal. Ilyen rendszerek például Yahoo könyvtár, dmoz és Galaxy.

hibrid rendszerek

Az olyan keresőmotorok, mint a Yahoo, a Google, az MSN, egyesítik a keresőrobotokat és az ember által irányított rendszereket használó rendszerek funkcióit.

meta-rendszerek

A metakeresők kombinálják és rangsorolják egyszerre több keresőmotor eredményeit. Ezek a keresőmotorok akkor voltak hasznosak, ha minden keresőmotornak egyedi indexe volt, és a keresőmotorok kevésbé voltak "okosak". Amióta a keresés sokat fejlődött, csökkent az igény rájuk. Példák: MetaCrawlerés MSN Search.

Keresőmotorok piaca

A Google a világ legnépszerűbb keresője 68,69%-os piaci részesedésével. A Bing a második helyet foglalja el, részesedése 12,26%.

A világ legnépszerűbb keresőmotorjai:

Keresőrendszer	Piaci részesedés 2014 júliusában	Piaci részesedés 2014 októberében	Piaci részesedés 2015 szeptemberében
Google	68,69 %	58,01 %	69,24%
Baidu	17,17 %	29,06 %	6,48%
bing	6,22 %	8,01 %	12,26%
Jehu!	6,74 %	4,01 %	9,19%
AOL	0,13 %	0,21 %	1,11%
Izgat	0,22 %	0,00 %	0,00 %
Kérdez	0,13 %	0,10 %	0,24%

Ázsia

A kelet-ázsiai országokban és Oroszországban a Google nem a legnépszerűbb keresőmotor. Kínában például népszerűbb kereső Soso?!.

Dél-Koreában a Naver szabadalmazott keresőportálját a Yahoo! 70%-a használja. Japán és a Yahoo! Tajvan a legnépszerűbb keresőmotorok Japánban, illetve Tajvanon.

Oroszország és orosz nyelvű keresők

A LiveInternet 2015. júniusi adatai szerint az orosz nyelvű keresési lekérdezések lefedettségéről:

Minden nyelven:
- Jehu! (0,1%) és a cég tulajdonában lévő keresőmotorok: Inktomi, AltaVista , Alltheweb
Angolul beszélő és nemzetközi:
- AskJeeves(Teoma mechanizmus)
Oroszul beszélő - a legtöbb "orosz nyelvű" keresőmotor számos nyelven indexel és keres szövegeket - ukrán, fehérorosz, angol, tatár és mások. Abban különböznek a „minden nyelvű” rendszerektől, amelyek sorban indexelnek minden dokumentumot, mivel elsősorban az orosz nyelv domináns tartományi zónáiban található erőforrásokat indexelik, vagy más módon az orosz nyelvű oldalakra korlátozzák robotjaikat.

Egyes keresőmotorok külső keresőalgoritmusokat használnak.

Kvantitatív Google keresőadatok

Folyamatosan növekszik az Internet-felhasználók és a keresőmotorok száma, valamint az e rendszerekkel szemben támasztott felhasználói követelmények. A szükséges információk keresésének felgyorsítása érdekében a nagy keresőmotorok nagyszámú szervert tartalmaznak. A szervereket általában szerverközpontokba (adatközpontokba) csoportosítják. A népszerű keresőmotorok szerverközpontjai szerte a világon szétszórva találhatók.

A Google 2012 októberében indította útjára a Where the Internet Lives projektet, ahol a felhasználóknak lehetőségük nyílik megismerkedni a cég adatközpontjaival.

A Google keresőmotorja a következőket tudja az adatközpontok munkájáról:

Az összes Google adatközpont teljes kapacitását 2011-ben 220 MW-ra becsülték.
Amikor a Google 2008-ban egy új, 6,5 millió m²-es, három épületből álló komplexum megnyitását tervezte Oregonban, a Harper's Magazine becslése szerint egy ilyen nagy komplexum több mint 100 MW villamos energiát fogyasztana, ami egy 300 000 lakosú város energiafogyasztásához hasonlítható. .
A Google szervereinek becsült száma 2012-ben 1 000 000.
A Google adatközpontokra fordított kiadásai 2006-ban 1,9 milliárd dollárt, 2007-ben pedig 2,4 milliárd dollárt tettek ki.

A Google által indexelt világháló mérete 2014 decemberében körülbelül 4,36 milliárd oldal.

Keresőmotorok, amelyek figyelembe veszik a vallási tilalmakat

Az internet globális elterjedése és az elektronikus eszközök növekvő népszerűsége az arab és muszlim világban, különösen a Közel-Kelet és az indiai szubkontinens országaiban hozzájárult az iszlám hagyományokat figyelembe vevő helyi keresőmotorok fejlődéséhez. Az ilyen keresőmotorok speciális szűrőket tartalmaznak, amelyek segítenek a felhasználóknak elkerülni a tiltott, például pornográfiát tartalmazó oldalak elérését, és csak olyan oldalak használatát teszik lehetővé, amelyek tartalma nem ellentétes az iszlám hittel. Nem sokkal a muszlim Ramadán hónap előtt, 2013 júliusában mutatkozott be a világ Halal guglizás- olyan rendszer, amely csak halal "helyes" linkeket ad a felhasználóknak azáltal, hogy szűri a más keresőmotoroktól, például a Google-tól és a Bingtől kapott keresési eredményeket. Két évvel korábban, 2011 szeptemberében indult el az I'mHalal kereső a Közel-Kelet felhasználóinak kiszolgálására. Ezt a keresőszolgáltatást azonban a tulajdonos szerint finanszírozás hiányában rövidesen be kellett zárni.

A beruházások hiánya és a technológia elterjedésének lassú üteme a muszlim világban hátráltatta a fejlődést és hátráltatta egy komoly iszlám keresőmotor sikerét. A muszlim életmódú webprojektekbe történő hatalmas befektetések kudarca, amelyek közül az egyik az volt Muxlim. Dollármilliókat kapott olyan befektetőktől, mint a Rite Internet Ventures, és most – az I'mHalal legfrissebb, leállás előtti bejegyzése szerint – azzal a kétes ötlettel áll elő, hogy „a következő Facebook vagy Google talán csak a közepén lesz. Kelet. ha támogatod ragyogó fiatalságunkat." Mindazonáltal az iszlám internetes szakértők évek óta foglalkoznak azzal, hogy meghatározzák, mi az, ami összhangban van vagy nem a saríával, és a webhelyeket "halal" vagy "haram" kategóriába sorolják. Az összes korábbi és jelenlegi iszlám keresőmotor csak egy speciálisan indexelt adathalmaz, vagy olyan nagy keresőmotorok, mint a Google, a Yahoo és a Bing, amelyek valamilyen szűrőrendszerrel akadályozzák meg, hogy a felhasználók hozzáférjenek a haraam webhelyekhez, például a meztelenséggel foglalkozó oldalakhoz. LMBT, szerencsejáték és minden más, ami iszlámellenesnek számít.

Más vallás-orientált keresőmotorok között gyakori a Jewogle, a Google zsidó változata és a SeekFind.org, egy keresztény webhely, amely szűrőket tartalmaz, hogy távol tartsa a felhasználókat a hitüket aláásó vagy gyengítő tartalmaktól.

Személyes találatok és szűrőbuborékok

Számos keresőmotor, például a Google és a Bing, algoritmusokat használ annak kitalálására, hogy a felhasználó milyen információkat szeretne látni a rendszerben végzett korábbi tevékenységei alapján. Ennek eredményeként a webhelyek csak olyan információkat jelenítenek meg, amelyek összhangban vannak a felhasználó múltbeli érdeklődésével. Ezt az effektust "szűrőbuboréknak" nevezik.

Mindez oda vezet, hogy a felhasználók sokkal kevesebb olyan információt kapnak, amely ellentmond a nézőpontjuknak, és intellektuálisan elszigetelődnek saját „információs buborékukban”. Így a "buborék-effektus" negatív következményekkel járhat a polgári véleményformálás szempontjából.

A keresőmotor elfogultsága

Bár a keresőmotorok úgy vannak programozva, hogy népszerűségük és relevanciájuk valamilyen kombinációja alapján rangsorolják a webhelyeket, a valóság az, hogy a kísérleti kutatások azt mutatják, hogy különböző politikai, gazdasági és társadalmi tényezők befolyásolják a SERP-ket.

Ez az elfogultság lehet a gazdasági és kereskedelmi folyamatok közvetlen eredménye: a keresőmotorokon hirdető cégek népszerűbbé válhatnak az adott keresőmotor organikus keresési eredményei között. A helyi törvényeknek nem megfelelő keresési eredmények eltávolítása a politikai folyamatok befolyásának példája. Például a Google nem jelenít meg néhány neonáci webhelyet Franciaországban és Németországban, ahol a holokauszt tagadása illegális.

Az elfogultság társadalmi folyamatok következménye is lehet, mivel a keresőmotor-algoritmusok gyakran úgy vannak kialakítva, hogy kizárják a formázatlan nézőpontokat a "népszerűbb" találatok javára. A nagy keresőmotorok indexelő algoritmusai az amerikai oldalakat helyezik előtérbe.

A keresőbomba az egyik példa a keresési eredmények politikai, társadalmi vagy kereskedelmi okokból történő manipulálására tett kísérletre.

Lásd még

Qwika
Elektronikus könyvtár#Könyvtárak és keresőrendszerek listája
Webfejlesztő eszköztár

Megjegyzések

Irodalom

Ashmanov I. S., Ivanov A.A. Weboldal promóció a keresőkben. - M. : Williams, 2007. - 304 p. - ISBN 978-5-8459-1155-1.
Baikov V.D. Internet. Információ keresése. Weboldal promóció. - Szentpétervár. : BHV-Petersburg, 2000. - 288 p. - ISBN 5-8206-0095-9.
Kolisnichenko D.N. Keresőmotorok és weboldalak reklámozása az interneten. - M.: Dialektika, 2007. - 272 p. - ISBN 978-5-8459-1269-5.

Lande D.V. Keressen tudást az interneten. - M. : Dialektika, 2005. - 272 p. - ISBN 5-8459-0764-0.

Lande D.V., Snarsky A. A., Bezsudnov I.V. Internet: Navigáció összetett hálózatokban: modellek és algoritmusok. - M.: Librokom (Szerkesztői URSS), 2009. - 264 p. - ISBN 978-5-397-00497-8.

Chu H., Rosenthal M.

A keresőmotorok megjelenésének története 1945 júliusában kezdődik, amikor Vannevar Bush amerikai tudós megírhatta a híres „Míg gondolkodunk” című cikket, amelyben meg tudta jósolni a személyi számítógépek megjelenését, és képes volt arra is. megfogalmazni a hipertext gondolatát. Vegye figyelembe, hogy Vanniver Bush maga is részt vett a ma használt keresőmotorok prototípusainak létrehozásában. Ekkor azonban, még 1938-ban, sikerült kifejlesztenie és szabadalmaztatnia egy olyan eszközt, amely gyorsan tud információt keresni a mikrofilmen.

Annak ellenére, hogy bár Vanniver Bush-t a keresési technológiák és az internet ötletének megalapítójának tekintik, más tudósok gyakorlatba ültették elképzeléseit. 1958-ban az Egyesült Államokban a Védelmi Minisztérium alatt létrehozták az ADIP-t (Advanced Research Projects Agency, ARPA, Advanced Research Projects Agency), amelyben 1963 és 1969 között a tudósok egy teljesen új koncepción dolgozhattak, amely lehetővé tette az információk számítógépes hálózaton keresztül továbbítható.

Eleinte katonai célokra tervezték ezt a titkosított adatok továbbítását lehetővé tevő kapcsolatot, de az információtovábbítás biztonsági szintje nagyon alacsonynak bizonyult, ezért a katonaságot arra kérték, hogy tagadják meg a fejlesztés folytatását.

A számítógépes hálózat létrehozásának gondolata azonban csak az 1980-as évek végén merült fel. Ebben több amerikai egyetem is segített, amelyek fejlesztéseik során hálózatok összekapcsolásával egyesíthették oktatási jellegű információs könyvtárukat.

Az 1990-es években drámai fejlődés következett be az internet terén. 1993 februárjától, amint Mark Andressen, az NCSA-tól (National Center for Supercomputing Applications, www.ncsa.uiuc.edu) befejezte a Mosaic hipertextet UNIX alatt megjelenítő program kezdeti verzióját, mert ő volt az, aki kényelmes grafikus felületet kapott, és a korunkban használt böngészők prototípusává tudott válni. Az internet kezdett egyre népszerűbb lenni.

Az 1990-es évek közepén a szükséges információk megtalálásához azt a címtárat kellett használni, amelyben a webhelyek találhatók. Akkoriban még nem volt sok ilyen címtár, és nem is tündökölt az oldalak bősége, hanem címsorok, témák szerint rendezték el az információkat bennük. Érdemes megjegyezni, hogy 1993-ban már három keresőrobot volt a weben. Ezek a fejlesztések nem kereskedelmi jellegűek voltak, és a nagy mennyiségű információ beáramlása után nem tudtak megbirkózni a munkával, így az internet rohamos fejlődése miatt eltűntek.

1995 óta a globális internet fő helyét a keresőmotorok foglalják el, amelyek később nagyon nagyokká váltak, nyugaton - Google, Yachoo, Alta Vista, Oroszországban pedig Yandex, Rambler, Aport.

Térjünk ki az oroszországi keresőmotorok fejlődésének történetére. Itt nem is olyan könnyű út várt keresőinkre. Voltak győzelmek és vereségek is.

A Yandex cég 1990-ben kezdett fejlődni, de csak 1997-ben vált az általunk nagyon jól ismert keresőmotorná.

Yandex Oroszország vitathatatlan vezetőjének számít, mivel a Yandex közönségének lefedettsége a hónapban a vezető szakértők becslése szerint az oroszországi szokásos internetes közönség körülbelül felét tette ki. Ezek a figurák az Aport és a Rambler potenciális közönsége felett állnak. A közelmúltban egy meglehetősen erőteljes Go Mail keresés született egy másik nagy elektronikus levelezési szolgáltatásból, de ebben az esetben a cég a Yandex algoritmust tudta használni, és emiatt a Mail rendszer oldalairól történő keresést a Yandexnek tulajdoníthatjuk. keresés. A legutóbbi botrány azonban arra kényszerítette a Mail Groupot, hogy eltávolodjon a Yandex keresésétől. A veszekedés pontos okait eddig senki sem tudja.

A Yandex keresés figyelembe veszi a címsorokat, valamint a szó kötelező jelenlétét a dokumentum törzsében. Előnyben részesítjük azokat a szavakat, amelyek kifejezések, egymáshoz közel helyezkednek el és ugyanabban a bekezdésben vannak. A Yandexben végzett keresés figyelembe veszi az orosz nyelv morfológiáját, ez a megkülönböztető jellemzője, vagyis a „fotó jellege” vagy „fotó jellege” kérés esetén mind azokat, mind más dokumentumokat kiadja, amelyek megfelelnek ezeknek a szavaknak. .

Turista az első Runet keresőszolgáltatás, amelyet 1997 őszén nyitott meg a Moszkvai régióbeli Puscsino város Mikrobiológiai Kutatóintézetének tudóscsoportja. A Ramblerben a keresést úgy építették fel, hogy indexelték az oldalon lévő fő szavakat, amelyek félkövéren voltak szedve (strong és b címkék), és ha gyakran szerepeltek a címsorokban (h1 címkék). A Yandexszel ellentétben a Rambler kereső figyelmen kívül hagyja a kulcsszavas címkéket, ezért szeretik tiszta keresésnek nevezni, ugyanakkor a keresés megfelelő tisztasága még nem volt észrevehető. Ez a probléma más keresőkben is felvillan. Jelenleg a Rambler keresési pozíciói nagyon visszaestek, és a szakértők és előrejelzők azt jósolják, hogy ezt a rendszert átképzik egy szokásos szórakoztató portálra. Ezt a rendszert csak a Blogun saját hirdetési hálózata teszi életbe.

Az Aport keresőmotort először 1996 februárjában mutatták be az Agama sajtótájékoztatón, az Orosz Klub megnyitása tiszteletére, akkor még nem volt nagyszabású keresőmotor az egész interneten. Az Aport és a többi kereső között az a különbség, hogy adott kulcsszavakra nem csak kulcsszavakban, hanem képfeliratokban (alt) és leírásban is tud keresni. De ez az újítás nem tartott sokáig. Más keresők is megismételték ugyanezt, és most az Aportnak nincs több, amivel meglepheti felhasználóit. 2011-re az Aport keresőt valószínűleg a keresőpiac nagyobb szereplői veszik át.

Keresés hátrányai

Jelenleg a keresőmotorok bármilyen módon továbbfejlesztik keresési technológiájukat. De sajnos egyikük sem büszkélkedhet tökéletes kereséssel, bármennyire is fejlett. Napjainkban a keresőmotorok fő hátrányai közé tartozhatnak az alulfejlett lekérdezés-általánosító rendszerek és az információforrások megválasztásától való óriási függőség. Elégtelen információtartalom esetén azt a keresési eredmények bőséges választéka mégis kompenzálni tudja valahogy. De emberi nyelven elmagyarázni a számítógépnek, amit az emberek meg akarnak találni, még nem fordították le a valóságra. Emiatt egyik keresőmotor sem nevezheti magát enciklopédiának. Az azonban már nem titok, hogy a jövő mindenképpen az informatív keresésben van, amelynek középpontjában az emberi fogalmak feldolgozása áll majd.