Якими були перші пошукові системи. Пошукова система 1 поисковая система

Історія того, як з'явилися пошукові системи, починається в липні 1945 року, коли вчений з Америки Веннівер Буш (Vannevar Bush) зміг написати славнозвісну статтю «Поки ми мислимо», в ній він зміг передбачити появу персональних комп'ютерів, а також зміг сформулювати ідею гіпертексту. Зауважимо, що Веннівер Буш і сам брав участь у створенні прототипів пошукових систем, якими ми користуємося в наші дні. Однак, тоді, в далекому 1938 році, він зміг розробити і запатентувати пристрій, яке могло швидко шукати інформацію на мікрофільмах.

Не дивлячись на те, що хоч Веннівера Буша вважають родоначальником технологій пошуку та ідеї Інтернету, але інші вчені реалізували його ідеї на практиці. У 1958 році в США при Міністерстві оборони було створено АПІП (Агентство Передових дослідницьких проектів, ARPA, Advanced Research Projects Agency), в ньому з 1963 по 1969 року вчені могли працювати над абсолютно новою концепцією, яка дозволяла проводити передачу інформації за допомогою комп'ютерної мережі.

Спочатку дане з'єднання, яке дозволяло передавати зашифровані дані, планували використовувати у військових цілях, але рівень безпеки для передачі інформації виявився дуже низький, тому військових попросили відмовитися від продовження розробок.

Однак, тільки до кінця 1980-х років ідея створення комп'ютерної мережі була заново відроджена. Допомогли цьому кілька університетів США, які в своїх розробках змогли об'єднати свою бібліотеку інформації, яка була освітньої, за допомогою з'єднання мережами.

У 1990-х роках почалося різке розвиток Інтернету. З лютого 1993 року, як тільки Марк Андресс (Mark Andressen) з НЦСП (Національний Центр Суперкомп'ютерних додатків США, NCSA, National Center for Supercomputing Applications, www.ncsa.uiuc.edu) зміг закінчити початкову версію програми, яка візуалізувати гіпертекст Mosaic під UNIX , адже саме у неї був зручний графічний інтерфейс і вона змогла стати прототипом браузерів, яких ми використовуємо в наш час. Інтернет став набирати популярність.

В середині 1990-х років для того, щоб знайти інформації, яка була потрібна, потрібно було скористатися каталогом, в якому розташовувалися сайти. На той момент цих каталогів було не багато, та й достатком сайтів вони не блищали, але в них інформація була впорядкованою за рубриками та тематиками. Варто відзначити, що в 1993 році три бота пошукових систем вже були в мережі. Дані розробки були некомерційними і після напливу великих кількість інформації не змогли впоратися з роботою, тому вони зникли через різке розвитку Інтернету.

З 1995 року головне місце в глобальному Інтернеті зайняли пошукові системи, які стали згодом вельми великими, на Заході - Google, Yachoo, Alta Vista, а в Росії - Yandex, Rambler, Aport.

Відвернемося на історію розвитку пошукових систем Росії. Тут не такий вже і легкий шлях чекав наші пошукові системи. Були і свої перемоги і поразки.

Компанії «Яндекс» почала розвиватися в 1990 році, але тільки в 1997 році стала пошуковою системою, яку ми прекрасно знаємо.

Яндекс вважається безумовним лідером в Росії, тому що охоплення аудиторії Яндекса за місяць за оцінками провідних фахівців склала приблизно половину регулярної аудиторії Інтернету в Росії. Ці цифри на голову перевершують потенційну аудиторію Апорта і Рамблера. Нещодавно з'явився на світло досить потужний пошук Go Mail від іншої великої електронної служби, яка займається поштою, проте в цьому випадку компанія змогла використати алгоритм Яндекса і через це пошук зі сторінок системи Mail ми можемо віднести до пошуку в Яндексі. Але останній скандал змусив Mail Group піти від пошуку Yandex. Точні причини сварки не знає ніхто до цих пір.

У пошуку Яндекса враховуються заголовки, а також обов'язкове знаходження слова в тілі документа. Перевага віддається тим словами, які є словосполученням, розташовуються близько один до одного і знаходяться в одному абзаці. Пошук в Яндексі відбувається з урахуванням морфології російської мови, це його відмінна риса, тобто в разі запиту «фото природа» або «фото природи» він буде видавати і ті і інші документи, які зустрічають дані слова.

Рамблер є першим пошуковим сервісом Рунета, відкритий восени 1997 року групою вчених з НДІ Мікробіології в місті Пущино Московської області. У Рамблере пошук був побудований за допомогою індексації головних слів на сторінці, які були виділені жирним шрифтом (тегами strong і b) і якщо вони частенько з'являлися в заголовках (тегах h1). На відміну від Яндекса пошуку Рамблера може ігнорувати теги keyword, через що його люблять називати чистим пошуком, але при цьому належної чистоти пошуку поки не було помітно. Ця проблема промельківала і в інших пошукових системах. На поточний момент пошукові позиції Rambler дуже впали і експерти і прогнозисти пророкують цій системі перекваліфікацію в звичайний розважальний портал. Єдине що змушує бути на плаву цю систему, так це власна рекламна мережа Блогун.

Пошукову машину «Апорт» вперше продемонстрували в лютому 1996 року під час прес-конференції «Агами» на честь відкриття «Російського клубу», в той час вона ще не була масштабною пошуковою системою по всьому Інтернету. Відмінність Апорта від інших пошукових систем в тому, що він може шукати задані ключові слова не тільки в keywords, але ще і в підписах до картинок (alt), і в описі (description). Але дане нововведення продовжилося недовго. Інші пошукові системи повторили те ж саме і Апорт тепер більше нічим дивувати своїх користувачів. На 2011 рік, пошукову систему Апорт швидше за все чекає поглинання від більших гравців пошукового ринку.

недоліки пошуку

На даний час пошукові системи будь-якими способами продовжують покращувати свої технології пошуку. Але, на жаль, досконалим пошуком жодна з них не може похвалитися, як би високо вони не були розвинені. У наші дні до головних недоліків пошукових систем можуть ставитися системи узагальнення запиту, які слабо розвинені і величезна залежність від вибору джерел інформації. У разі недостатньої інформативності, її ще можна хоч якось компенсувати великою кількістю вибору результатів пошуку. Але ось пояснити комп'ютера людською мовою, що ж хочуть знайти люди поки не вдається втілити в реальність. Через це жодна з пошукових систем не може назвати себе енциклопедією. Однак вже не секрет, що майбутнє безумовно за інформативним пошуком, який буде орієнтований на обробку людських понять.

Який пошуковик був першим в Рунеті? Яндекс, Апорт або Рамблер?

Найперші пошукові системи рунета (яких за словами одного із засновників «Рамблера» було 2 чи 3) дуже швидко канули в Лету. Серед них були морфологічні розширення до системи AltaVista, які не залишили нам своїх імен. Тому нам доведеться вибирати з тих хто залишився:

Рамблер

Створення «Рамблера» почалося в 1996 році, коли в російському сегменті Інтернету було всього кілька десятків сайтів. Розробка закінчилася до осені того ж року. Домен rambler.ru був зареєстрований 26 вересня, а 8 жовтня 1996, В день народження одного з творців, «Рамблер» був відкритий для користувачів.

Рамблер - найперший пошуковик в Рунеті з нині існуючих.

Пошуковик «Апорт» був розроблений в лютому 1996 року, але в той час він шукав лише по сайту russia.agama.com. Поступово число сайтів росло і до офіційного відкриття 11 листопада 1997 року «Апорт» шукав вже по 10000 сайтам. Таким чином, «Апорт» був одним з перших пошуковиків в Рунеті, але через обмежене коло пошуку можна визнати його найстарішим.

Яндекс

Фірма CompTek розробила «Яндекс» заснована в 1989 році. У 1993 році CompTek розробив «Yandex» - програму для пошуку по жорсткому диску. У 1996 в програму додали можливість пошуку в Мережі. У 1997 був написаний перший пошуковий робот, проіндексований Рунет і 23 вересня 1997 року відбулася офіційна презентація «Яндекса».

«Яндекс» від компанії CompTek не є найстарішим, але їх пошукові технології і дослідження в галузі лінгвістики і морфології є найстарішими в Росії.

В архітектуру пошукової системи зазвичай входять:

енциклопедичний YouTube

1 / 5

✪ Урок 3: Як працює пошукова система. Введення в SEO

✪ Пошукова система зсередини

✪ Shodan - чорний Google

✪ Пошукова система ЧЕБУРАШКА замінить Google і Яндекс в Росії

✪ Урок 1 - Як влаштована пошукова система

субтитри

Історія

Хронологія
рік	система	подія
1993	W3Catalog?!	запуск
	Aliweb	запуск
	JumpStation	запуск
1994	WebCrawler	запуск
	Infoseek	запуск
	Lycos	запуск
1995	AltaVista	запуск
	Daum	підстава
	Open Text Web Index	запуск
	Magellan	запуск
	Excite	запуск
	SAPO	запуск
	Yahoo!	запуск
1996	Dogpile	запуск
	Inktomi	підстава
	Рамблер	підстава
	HotBot	підстава
	Ask Jeeves	підстава
1997	Northern Light	запуск
1997	Яндекс	запуск
1998	Google	запуск
1999	AlltheWeb	запуск
	GenieKnows	підстава
	Naver	запуск
	Teoma	підстава
	Vivisimo	підстава
2000	Baidu	підстава
2000	Exalead	підстава
2003	Info.com	запуск
2004	Yahoo! Search	остаточний запуск
	A9.com	запуск
	Sogou	запуск
2005	MSN Search	остаточний запуск
	Ask.com	запуск
	Нігма	запуск
	GoodSearch	запуск
SearchMe	підстава
2006	wikiseek	підстава
	Quaero	підстава
	Live Search	запуск
	ChaCha	Запуск (бета)
	Guruji.com	Запуск (бета)
2007	wikiseek	запуск
	Sproose	запуск
	Wikia Search	запуск
	Blackle.com	запуск
2008	DuckDuckGo	запуск
	Tooby	запуск
	Picollator	запуск
	Viewzi	запуск
	Cuil	запуск
	Boogami	запуск
	LeapFish	Запуск (бета)
	Forestle	запуск
	VADLO	запуск
	Powerset	запуск
2009	Bing	запуск
	KAZ.KZ	запуск
	Yebol	Запуск (бета)
	Mugurdy	закриття
	Scout	запуск
2010	Cuil	закриття
	Blekko	Запуск (бета)
	Viewzi	закриття
2012	WAZZUB	запуск
2014	супутник	Запуск (бета)

На ранньому етапі розвитку мережі Інтернет Тім Бернерс-Лі підтримував список веб-серверів, розміщений на сайті ЦЕРН. Сайтів ставало все більше, і підтримувати вручну такий список ставало все складніше. На сайті NCSA був спеціальний розділ «Що нового!» (Англ. What "s New!), Де публікували посилання на нові сайти.

Першою комп'ютерною програмою для пошуку в Інтернеті була програма Арчі (Англ. Archie - архів без букви «в»). Вона була створена в 1990 році Аланом Емтеджем (Alan Emtage), Біллом Хіланом (Bill Heelan) і Дж. Пітером Дойчем (J. Peter Deutsch), студентами, які вивчають інформатику в університеті Макгілла в Монреалі. Програма скачував списки всіх файлів з усіх доступних анонімних FTP-серверів і будувала базу даних, в якій можна було виконувати пошук по іменах файлів. Однак, програма Арчі не індексувалась вміст цих файлів, так як обсяг даних був настільки малий, що все можна було легко знайти вручну.

Розвиток і поширення мережевого протоколу Gopher, придуманого в 1991 році Марком Маккехілом (Mark McCahill) в університеті Міннесоти, привело до створення двох нових пошукових програм, Veronica і Jughead. Як і Арчі, вони шукали імена файлів і заголовки, збережені в індексних системах Gopher. Veronica (англ. Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) Дозволяла виконувати пошук за ключовими словами більшості заголовків меню Gopher у всіх списках Gopher. Програма Jughead (англ. Jonzy "s Universal Gopher Hierarchy Excavation And Display) Отримувала інформацію про меню від певних Gopher-серверів. Хоча назва пошукача Арчі не мало відношення до циклу коміксів «Арчі», Проте Veronica і Jughead - персонажі цих коміксів.

До літа 1993 року ще не було жодної системи для пошуку в інтернеті, хоча вручну підтримувалися численні спеціалізовані каталоги. Оскар Нірштрасс (Oscar Nierstrasz) в Женевському університеті написав ряд сценаріїв на Perl, які періодично копіювали ці сторінки і переписували їх в стандартний формат. Це стало основою для W3Catalog?!, Першої примітивної пошукової системи мережі, запущеної 2 вересня 1993 року.

Ймовірно, першим пошуковим роботом, написаним на мові Perl, був «World Wide Web Wanderer» - бот Метью Грея (Matthew Gray) з в червні 1993 року. Цей робот створював пошуковий індекс «Wandex». Мета робота Wanderer полягала в тому, щоб виміряти розмір всесвітньої павутини і знайти всі веб-сторінки, що містять слова із запиту. У 1993 році з'явилася і друга пошукова система «Aliweb». Aliweb не використала пошукового робота, але замість цього чекала повідомлень від адміністраторів веб-сайтів про наявність на їх сайтах індексного файлу в певному форматі.

JumpStation, Створений в грудні 1993 року Джонатаном Флетчером, шукав веб-сторінки і будував їх індекси за допомогою пошукового робота, і використовував веб-форму в якості інтерфейсу для формулювання пошукових запитів. Це був перший інструмент пошуку в Інтернеті, який поєднував три найважливіші функції пошукової системи (перевірка, індексація і власне пошук). Через обмеженість ресурсів комп'ютерів того часу індексація і, отже, пошук були обмежені тільки назвами і заголовками веб-сторінок, знайдених пошуковим роботом.

Пошукові системи брали участь в «бульбашка доткомів» кінця 1990-х. Кілька компаній ефектно вийшли на ринок, отримавши рекордний прибуток під час їх первинного публічного розміщення. Деякі відмовилися від ринку загальнодоступних пошукових движків і стали працювати тільки з корпоративним сектором, наприклад, Northern Light.

Google взяв на озброєння ідею продажу ключових слів в 1998 році, тоді це була маленька компанія, яка забезпечувала роботу пошукової системи за адресою goto.com. Цей крок ознаменував для пошукових систем перехід від змагань один з одним до одного з найбільш вигідних комерційних підприємств в Інтернеті. Пошукові системи стали продавати перші місця в результатах пошуку окремим компаніям.

Пошукова система Google займає чільне становище з початку 2000-х. Компанія досягла високого становища завдяки хорошим результатам пошуку за допомогою алгоритму PageRank. Алгоритм був представлений громадськості в статті «The Anatomy of Search Engine», написаної Сергієм Бріном і Ларрі Пейджем, засновниками Google. Цей ітеративний алгоритм ранжує веб-сторінки, ґрунтуючись на оцінці кількості гіперпосилань на веб-сторінку в припущенні, що на «хороші» і «важливі» сторінки посилаються більше, ніж на інші. Інтерфейс Google витриманий в спартанському стилі, де немає нічого зайвого, на відміну від багатьох своїх конкурентів, які вбудовували пошукову систему в веб-портал. Пошукова система Google стала настільки популярною, що з'явилися наслідують їй системи, наприклад, Mystery Seeker(Таємний пошуковик).

Пошук інформації російською мовою

У 1996 році був реалізований пошук з урахуванням російської морфології на пошуковій машині Altavista і запущені оригінальні російські пошукові машини Рамблер і Апорт. 23 вересня 1997 року відкрита пошукова машина Яндекс. 22 травня 2014 року компанією Ростелеком була відкрита національна пошукова машина Супутник, яка на момент 2015 року перебуває в стадії бета-тестуванні. 22 квітня 2015 року було відкрито новий сервіс Супутник. Діти спеціально для дітей з підвищеною безпекою.

Велику популярність отримали методи кластерного аналізу та пошуку по метаданих. З міжнародних машин такого плану найбільшу популярність здобула «Clusty» компанії Vivisimo. У 2005 році в Росії за підтримки МГУ запущений пошуковик «Нігма», що підтримує автоматичну кластеризацію. У 2006 році відкрилася російська метамашіна Quintura, що пропонує візуальну кластеризацію у вигляді хмари тегів. «Нігма» теж експериментувала з візуальної кластеризацией.

Як працює пошукова система

Основні складові пошукової системи: пошуковий робот, індексатор, пошуковик.

Як правило, системи працюють поетапно. Спочатку пошуковий робот отримує контент, потім індексатор генерує доступний для пошуку індекс, і нарешті, пошуковик забезпечує функціональність для пошуку індексованих даних. Щоб оновити пошукову систему, цей цикл індексації виконується повторно.

Пошукові системи працюють, зберігаючи інформацію про багатьох веб-сторінках, які вони отримують з HTML сторінок. Пошуковий робот або «краулер» (англ. Crawler) - програма, яка автоматично проходить по всіх посиланнях, знайденим на сторінці, і виділяє їх. Краулер, грунтуючись на посиланнях або виходячи із заздалегідь заданого списку адрес, здійснює пошук нових документів, ще не відомих пошуковій системі. Власник сайту може виключити певні сторінки за допомогою robots.txt, використовуючи який можна заборонити індексацію файлів, сторінок або каталогів сайту.

Пошукова система аналізує вміст кожної сторінки для подальшого індексування. Слова можуть бути вилучені із заголовків, тексту сторінки або спеціальних полів - метатегов. Індексатор - це модуль, який аналізує сторінку, попередньо розбивши її на частини, застосовуючи власні лексичні та морфологічні алгоритми. Всі елементи веб-сторінки вичленяються і аналізуються окремо. Дані про веб-сторінках зберігаються в індексному базі даних для використання в повторних запитів. Індекс дозволяє швидко знаходити інформацію за запитом користувача. Ряд пошукових систем, подібних Google, зберігають вихідну сторінку цілком або її частину, так званий кеш, а також різну інформацію про веб-сторінці. Інші системи, подібні системі AltaVista, зберігають кожне слово кожної знайденої сторінки. Використання кешу допомагає прискорити вилучення інформації з уже відвіданих сторінок. Кешовані сторінки завжди містять той текст, який користувач задав в пошуковому запиті. Це може бути корисно в тому випадку, коли веб-сторінка оновилася, тобто вже не містить текст запиту користувача, а сторінка в кеші ще стара. Ця ситуація пов'язана з втратою посилань (англ. linkrot) І дружнім по відношенню до користувача (юзабіліті) підходом Google. Це передбачає видачу з кешу коротких фрагментів тексту, що містять текст запиту. Діє принцип найменшого подиву, користувач зазвичай очікує побачити шукані слова в текстах отриманих сторінок ( User expectations). Крім того, що використання кешованих сторінок прискорює пошук, сторінки в кеші можуть містити таку інформацію, яка вже ніде більше не буде доступною.

Пошуковик працює з вихідними файлами, отриманими від індексатора. Пошуковик приймає запити користувачів, обробляє їх за допомогою індексу і повертає результати пошуку.

Коли користувач вводить запит в пошукову систему (зазвичай за допомогою ключових слів), система перевіряє свій індекс і видає список найбільш підходящих веб-сторінок (відсортованого за якомусь критерію), зазвичай з короткою анотацією, що містить заголовок документа і іноді частини тексту. Пошуковий індекс будується за спеціальною методикою на основі інформації, витягнутої з веб-сторінок. З 2007 року пошуковик Google дозволяє шукати з урахуванням часу, створення шуканих документів (виклик меню «Інструменти пошуку» і вказівку тимчасового діапазону). Більшість пошукових систем підтримує використання в запитах булевих операторів І, АБО, НЕ, що дозволяє уточнити або розширити список шуканих ключових слів. При цьому система буде шукати слова чи фрази точно так, як було введено. У деяких пошукових системах є можливість наближеного пошуку, В цьому випадку користувачі розширюють область пошуку, вказуючи відстань до ключових слів. Є також концептуальний пошук, При якому використовується статистичний аналіз вживання шуканих слів і фраз в текстах веб-сторінок. Ці системи дозволяють складати запити на природній мові. Прикладом такої пошукової системи є сайт ask com.

Корисність пошукової системи залежить від релевантності знайдених нею сторінок. Хоч мільйони веб-сторінок і можуть включати якесь слово або фразу, але одні з них можуть бути більш релевантні, популярні або авторитетні, ніж інші. Більшість пошукових систем використовує методи ранжирування, щоб вивести в початок списку «кращі» результати. Пошукові системи вирішують, які сторінки більш релевантні, і в якому порядку повинні бути показані результати, по-різному. Методи пошуку, як і сам Інтернет з часом змінюються. Так з'явилися два основних типи пошукових систем: системи зумовлених і ієрархічно упорядкованих ключових слів і системи, в яких генерується інвертований індекс на основі аналізу тексту.

Більшість пошукових систем є комерційними підприємствами, які отримують прибуток за рахунок реклами, в деяких пошукових системах можна купити за окрему плату перші місця у видачі для заданих ключових слів. Ті пошукові системи, які не беруть грошей за порядок видачі результатів, заробляють на контекстній рекламі, при цьому рекламні повідомлення відповідають запиту користувача. Така реклама виводиться на сторінці зі списком результатів пошуку, і пошукові системи заробляють під час кожного кліка користувача на рекламні повідомлення.

Типи пошукових систем

Існує чотири типи пошукових систем: з пошуковими роботами, керовані людиною, гібридні і мета-системи.

системи, що використовують пошукові роботи

Складаються з трьох частин: краулер ( «бот», «робот» або «павук»), індекс і програмне забезпечення пошукової системи. Краулер потрібен для обходу мережі і створення списків веб-сторінок. Індекс - великий архів копій веб-сторінок. Мета програмного забезпечення - оцінювати результати пошуку. Завдяки тому, що пошуковий робот в цьому механізмі постійно досліджує мережу, інформація більшою мірою актуальна. Більшість сучасних пошукових систем є системами даного типу.

системи, керовані людиною (каталоги ресурсів)

Ці пошукові системи одержують списки веб-сторінок. Каталог містить адресу, заголовок і короткий опис сайту. Каталог ресурсів шукає результати тільки з описів сторінки, представлених йому веб-майстрами. Гідність каталогів в тому, що всі ресурси перевіряються вручну, отже, і якість контенту буде краще в порівнянні з результатами, отриманими системою першого типу автоматично. Але є і недолік - оновлення даних каталогів виконується вручну і може істотно відставати від реального стану справ. Ранжування сторінок не може миттєво змінюватися. Як приклади таких систем можна привести каталог Yahoo, Dmoz і Galaxy.

гібридні системи

Такі пошукові системи, як Yahoo, Google, MSN, поєднують в собі функції систем, що використовують пошукові роботи, і систем, керованих людиною.

мета-системи

Метапоісковая системи об'єднують і ранжирують результати відразу декількох пошукових систем. Ці пошукові системи були корисні, коли у кожної пошукової системи був унікальний індекс, і пошукові системи були менш «розумними». Оскільки зараз пошук набагато покращився, потреба в них зменшилася. приклади: MetaCrawler і MSN Search.

Ринок пошукових систем

Google - найпопулярніша пошукова система в світі з часткою на ринку 68,69%. Bing займає другу позицію, його частка 12,26%.

Найпопулярніші пошукові системи в світі:

Пошукова система	Частка ринку в липні 2014	Частка ринку в жовтні 2014	Частка ринку в вересні 2015
Google	68,69 %	58,01 %	69,24%
Baidu	17,17 %	29,06 %	6,48%
Bing	6,22 %	8,01 %	12,26%
Yahoo!	6,74 %	4,01 %	9,19%
AOL	0,13 %	0,21 %	1,11%
Excite	0,22 %	0,00 %	0,00 %
Ask	0,13 %	0,10 %	0,24%

Азія

У східно-азіатських країнах і в Росії Google - не найпопулярніша пошукова система. У Китаї, наприклад, більш популярна пошукова система Soso?!.

У Південній Кореї пошуковим порталом власної розробки Naver користується близько 70% жителів Yahoo! Japan і Yahoo! Taiwan - найпопулярніші системи для пошуку в Японії і Тайвані відповідно.

Росія і російськомовні пошукові системи

Згідно з даними LiveInternet в червні 2015 року про охопленні російськомовних пошукових запитів:

Всеязичние:
- Yahoo! (0,1%) і належать цій компанії пошукові машини: Inktomi, AltaVista, Alltheweb
Англомовні і міжнародні:
- AskJeeves (Механізм Teoma)
Російськомовні - більшість «російськомовних» пошукових систем індексують і шукають тексти на багатьох мовах - українською, білоруською, англійською, татарською та інших. Відрізняються ж вони від «всеязичних» систем, індексуючих всі документи підряд, тим, що, в основному, індексують ресурси, розташовані в доменних зонах, де домінує російська мова, або іншими способами обмежують своїх роботів російськомовними сайтами.

Деякі з пошукових систем використовують зовнішні алгоритми пошуку.

Кількісні дані пошукової системи Google

Число користувачів Інтернету і пошукових систем і вимог користувачів до цих систем постійно зростає. Для збільшень швидкості пошуку потрібної інформації великі пошукові системи містять велику кількість серверів. Сервера зазвичай групують в серверні центри (дата-центри). У популярних пошукових систем серверні центри розкидані по всьому світу.

У жовтні 2012 року Google запустила проект «Де живе Інтернет», де користувачам надається можливість познайомитися з центрами обробки даних цієї компанії.

Про роботу дата-центрів пошуковій системі Google відомо наступне:

Сумарна потужність всіх дата-центрів Google, станом на 2011 рік, оцінювалася в 220 МВт.
Коли в 2008 році Google планувала відкрити в Орегоні новий комплекс, що складається з трьох будівель загальною площею 6,5 млн м², в журналі Harper's Magazine підрахували, що такий великий комплекс споживає понад 100 МВт електроенергії, що можна порівняти зі споживанням енергії міста з населенням 300 000 людина.
Орієнтовна кількість серверів Google в 2012 році - 1 000 000.
Витрати Google на дата-центри склали в 2006 році - $ 1,9 млрд, а в 2007 році - $ 2,4 млрд.

Розмір всесвітньої павутини, проіндексованої Google на грудень 2014 року, становить приблизно 4,36 мільярда сторінок.

Пошукові системи, що враховують релігійні заборони

Глобальне поширення Інтернету і збільшення популярності електронних пристроїв в арабському і мусульманському світі, зокрема, в країнах Близького Сходу і Індійського субконтиненту, сприяло розвитку локальних пошукових систем, які враховують ісламські традиції. Такі пошукові системи містять спеціальні фільтри, які допомагають користувачам не потрапляти на заборонені сайти, наприклад, сайти з порнографією, і дозволяють їм користуватися тільки тими сайтами, вміст яких не суперечить ісламській вірі. Незадовго до мусульманського місяця Рамадан, в липні 2013 року, світові був представлений Halalgoogling - система, що видає користувачам тільки халяльні «правильні» посилання, фільтруючи результати пошуку, отримані від інших пошукових систем, таких як Google і Bing. Двома роками раніше, у вересні 2011 року, був запущений пошуковий движок I'mHalal, призначений для обслуговування користувачів Близького Сходу. Однак цей пошуковий сервіс довелося незабаром закрити, за повідомленням власника, через відсутність фінансування.

Відсутність інвестицій і повільний темп поширення технологій в мусульманському світі перешкоджали прогресу і заважали успіху серйозного ісламського пошукача. Очевидним є провал величезних інвестицій в веб-проекти мусульманського способу життя, одним з яких був Muxlim. Він отримав мільйони доларів від інвесторів, таких як Rite Internet Ventures, і тепер - відповідно до останнього повідомленням від I'mHalal перед його закриттям - виступає з сумнівною ідеєю про те, що «наступний Facebook або Google можуть з'явитися тільки в країнах Близького Сходу, якщо ви підтримаєте нашу блискучу молодь ». Проте ісламські експерти в області Інтернету протягом багатьох років займаються визначенням того, що відповідає чи не відповідає шаріату, і класифікують веб-сайти як «халяль» або «харам». Всі колишні та теперішні ісламські пошукові системи являють собою просто спеціальним чином проіндексований набір даних або це головні пошукові системи, такі як Google, Yahoo і Bing, з певною системою фільтрації, що використовується для того, щоб користувачі не могли отримати доступ до харам-сайтам, таким як сайти про наготі, ЛГБТ, азартних іграх і будь-яким іншим, тематика яких вважається антиісламської.

Серед інших релігійно-орієнтованих пошукових систем поширеними є Jewogle - єврейська версія Google і SeekFind.org - християнський сайт, що включає в себе фільтри, що оберігають користувачів від контенту, який може підірвати або послабити їх віру.

Персональні результати і бульбашки фільтрів

Багато пошукових систем, такі як Google і Bing, використовують алгоритми вибіркового вгадування того, яку інформацію користувач хотів би побачити, грунтуючись на його минулих діях в системі. В результаті, веб-сайти показують тільки ту інформацію, яка узгоджується з минулими інтересами користувача. Цей ефект отримав назву «міхур фільтрів».

Все це веде до того, що користувачі отримують набагато менше суперечить своїй точці зору інформації і стають інтелектуально ізольованими в своєму власному «інформаційному міхурі». Таким чином, «ефект міхура» може мати негативні наслідки для формування громадянського думки.

Упередженість пошукових систем

Незважаючи на те, що пошукові системи запрограмовані, щоб оцінювати веб-сайти на основі деякої комбінації їх популярності та релевантності, в реальності експериментальні дослідження вказують на те, що різні політичні, економічні та соціальні фактори впливають на пошукову видачу.

Така упередженість може бути прямим результатом економічних і комерційних процесів: компанії, які рекламуються в пошуковій системі, можуть стати більш популярними в результатах звичайного пошуку в ній. Видалення результатів пошуку, які не відповідають місцевим законам, є прикладом впливу політичних процесів. Наприклад, Google не буде відображати деякі неонацистські веб-сайти у Франції і Німеччині, де заперечення Голокосту незаконно.

Упередженість може також бути наслідком соціальних процесів, оскільки алгоритми пошукових систем часто розробляються, щоб виключити неформатні точки зору на користь більш «популярних» результатів. Алгоритми індексації головних пошукових систем віддають пріоритет американським сайтам.

Пошукова бомба - один із прикладів спроби управління результатами пошуку за політичними, соціальними або комерційних причин.

Див. також

Qwika
Електронна бібліотека # Списки бібліотек і пошукові системи
Панель інструментів веб-розробника

Примітки

література

Ашманов І. С., Іванов А. А. Просування сайту в пошукових системах. - М.: Вільямс, 2007. - 304 с. - ISBN 978-5-8459-1155-1.
Байков В.Д. Інтернет. Пошук інформації. Просування сайтів. - СПб. : БХВ-Петербург, 2000. - 288 с. - ISBN 5-8206-0095-9.
Колісниченко Д. Н. Пошукові системи і просування сайтів в Інтернеті. - М.: Діалектика, 2007. - 272 с. - ISBN 978-5-8459-1269-5.

Ланде Д. В. Пошук знань в Internet. - М.: Діалектика, 2005. - 272 с. - ISBN 5-8459-0764-0.

Ланде Д. В., Снарський А. А., безсудно І. В. Інтернетики: Навігація в складних мережах: моделі та алгоритми. - M .: Либроком (Editorial URSS), 2009. - 264 с. - ISBN 978-5-397-00497-8.

Chu H., Rosenthal M.

В Інтернет спеціальний веб сайт, на якому користувач по заданому запиту може отримати посилання на сайти, що мають такий запит. Пошукова система складається з трьох компонентів: 1 пошукового робота; 2 індексу системи; і 3 програми, ... ... Фінансовий словник

Сущ., Кол під синонімів: 3 іскалка (9) шукач (16) пошуковик (13) Словник синонімів AS ... Словник синонімів

пошукова система - пошуковик Сайт, за допомогою якого шукаються інші сайти. Пошук здійснюється шляхом введення ключових слів у віконце пошуку. На відміну від каталогів, навіть, якщо сайт не був попередньо зареєстрований, його можна знайти за допомогою пошукової системи. ... ... Довідник технічного перекладача

пошукова система - ieškos sistema statusas T sritis automatika atitikmenys: angl. searching system vok. Suchsystem, n rus. пошукова система, f pranc. système de recherche, m ... Automatikos terminų žodynas

Пошукова система - - (англ. Search engine, синоніми: іскалка, пошуковий сервер, пошукова машина) - Інструмент для пошуку інформації в Інтернеті. Як правило, робота пошукової машини складається з двох етапів. Спеціальна програма (пошуковий робот, автомат, агент, ... ... Енциклопедичний словник ЗМІ

Управління, система автоматичного управління (Див. Автоматичне управління), в якій керуючі впливу методом пошуку автоматично змінюються т. О., Щоб здійснювалося найкраще (в якомусь сенсі) управління об'єктом; при ... ... Велика Радянська Енциклопедія

Управлення система автоматичного управління, в до рій керуючі впливу методом пошуку автоматичного змінюються т. О., Щоб здійснювати оптимальне управління об'єктом; при цьому зміни хар до об'єкта або впливів зовн. середовища заздалегідь ... Великий енциклопедичний політехнічний словник

СМП 1 редназначен для пошуку рятувальників, які потрапили в критичні умови, пов'язані з загрозою для життя, а також пошуку десантувалися вантажів і різних об'єктів в умовах поганої видимості. До її складу входять: радіоблок пошуку активних ... ... Словник надзвичайних ситуацій

автоматизована інформаційно-пошукова система - 3.2.5 автоматизована інформаційно пошукова система: ІПС, реалізована на базі електронно обчислювальної техніки Джерело ... Словник-довідник термінів нормативно-технічної документації

Цей термін має також інші значення див. Апарат. Апарат ... Вікіпедія

книги

Екстремальні задачі теорії графів і Інтернет. Навчальний посібник, Райгородский Андрій Михайлович. Ця брошура присвячена вивченню різних екстремальних задач теорії графів, (хоча б часткове) вирішення яких може бути корисно при аналізі даних. Вона виникла на основі ...
Екстремальні задачі теорії графів і інтернет, Райгородский Ф.М. .. Ця брошура присвячена вивченню різних екстремальних задач теорії графів, (хоча б часткове) вирішення яких може бути корисно при аналізі даних. Вона виникла на основі ...

На початковій стадії розвитку Інтернету користувачі були привілейованою меншістю і обсяг доступної інформації відносно невеликий. У той період доступ до неї мали, в основному, працівники різних великих навчальних закладів та лабораторій, і отримані дані використовувалися в наукових цілях. У той час використання Мережі не мало такої актуальності, як зараз.

У 1990 році британський учений Тім Бернерс-Лі (який також є винахідником URI, URL, HTTP, World Wide Web) створив сайт info.cern.ch, Який є першим в світі доступним каталогом інтернет-сайтів. З цього моменту Інтернет почав набирати популярність не тільки серед наукових кіл, але і серед простих власників персональних комп'ютерів.

Таким чином, першим способом полегшення доступу до інформаційних ресурсів в Інтернеті стало формування каталогів сайтів. Посилання на ресурси в них були згруповані за тематикою.

Першим проектом такого роду прийнято вважати Yahoo, відкритий в квітні 1994 року. У зв'язку зі стрімким зростанням кількості сайтів в ньому, незабаром з'явилася можливість пошуку необхідної інформації за запитом. Звичайно ж, це ще не було повноцінної пошуковою системою. Пошук був обмежений тільки даними, які перебували в каталозі.

На ранніх етапах розвитку мережі інтернет каталоги посилань використовувалися дуже активно, але поступово втрачали свою популярність. Причина проста: навіть при наявності безлічі ресурсів в сучасних каталогах, вони все одно показують тільки малу частину наявної в мережі Інтернет інформації. Наприклад, найбільшим каталогом мережі є - DMOZ (Open Directory Project). Він містить інформацію про трохи більше п'яти мільйонів ресурсів, що незрівнянно з пошуковою базою Google, яка містить понад восьми мільярдів документів.

Найбільшим російськомовним каталогом є Яндекс-каталог. Він містить інформацію про трохи більше ста чотирьох тисячах ресурсів.

Хронологія розвитку пошукових систем

1945 рік - американський інженер Ванневар Буш опублікував записи ідеї, яка привела в подальшому до винаходу гіпертексту, і міркування про необхідність розробки системи швидкого отримання даних з таким чином, що зберігається (еквівалент сьогоднішніх пошукових систем). Введене їм поняття пристрої-розширювача пам'яті містило оригінальні ідеї, які, врешті-решт, втілилися в Інтернеті.

1960-і - Джерард Селтон і його група в Корнельському університеті розробили «дотепно систему вилучення інформації» (SMART information retrieval system). SMART - абревіатура від Salton's Magic Automatic Retriever of Text, тобто «Чарівний автоматичний ізвлекатель тексту Селтона». Джерард Селтон вважається батьком сучасної пошукової технології.

1987-1989 - розроблена Archie - пошукова система для індексації FTP архівів. Archie вдавав із себе сценарій, що автоматизує впровадження в листинги на ftp-серверах, які потім переносилися в локальні файли, а вже потім в локальних файлах здійснювався швидкий пошук необхідної інформації. Пошук грунтувався на стандартній grep-команді Unix, а доступ користувача до даних здійснювався на основі telnet.

У наступній версії дані були розбиті на окремі бази, одна з яких містила тільки текстові назви файлів; а інша - записи з посиланнями на ієрархічні директорії тисячі хостів; і ще одна, що з'єднує перші дві. Ця версія Archie була ефективніше попередньої, так як пошук проводився тільки по іменах файлів, виключаючи безліч існуючих раніше повторів.

Пошукова система ставала дедалі популярнішим, і розробники задумалися, як прискорити її роботу. Згадана вище база даних була замінена на іншу, засновану на теорії стиснутого дерева. Нова версія, по суті, створила повнотекстовий базу даних замість імен файлів і була значно швидше, ніж раніше. На додаток, другорядні зміни дозволили системі Archie індексувати web-сторінки. На жаль, з різних причин, робота над Archie незабаром припинилася.

У 1993 році була створена перша в світі пошукова система для Всесвітньої мережі Wandex. В її основу було закладено World Wide Web Wanderer бот, розроблений Метью Греєм з Массачусетського технологічного інституту.

1993 рік - Мартін Костер створює Aliweb - одну з перших пошукових систем по World Wide Web. Власники сайтів повинні були самі їх додавати в індекс Aliweb, щоб вони з'являлися в пошуку. Оскільки занадто мало вебмайстрів це робили, Aliweb не став популярним

20 квітня 1994 р - Брайан Пінкертон з університету Вашингтона випустив WebCrawler - першого бота, який індексував сторінки повністю. Основною відмінністю пошукової системи від своїх попередників є надання можливості користувачам здійснювати пошук по будь-яким ключовим словом на будь-який веб-сторінці. Сьогодні ця технологія є стандартом пошуку будь-якої пошукової системи. Пошукова система «WebCrawler» стала першою системою, про яку було відомо широкому колу користувачів. На жаль пропускна здатність була невисокою і в денний час система часто була недоступною.

20 липня 1994 р - відкрився Lycos - серйозна розробка в технології пошуку, створена в університеті Карнегі Мелон. Майкл Малдін був відповідальний за цю пошукову систему і до сих пір залишається провідним фахівцем в Lycos Inc. Lycos відкрився з каталогом в 54,000 документів. І на додаток до цього результати, які він надавав, були ранжируваних, крім того він враховував приставки і приблизне збіг. Але головною відмінністю Lycos був постійно поповнюваний каталог: до листопада 1996 було проіндексовано 60 мільйонів документів - більше, ніж у будь-якій іншій пошукової системи того часу.

Січень 1994 р - був заснований Infoseek. Він не був по-справжньому інноваційним, але мав ряд корисних доповнень. Одним з таких популярних доповнень була можливість додавання своєї сторінки в реальному часі.

1995 рік - запустилася AltaVista. З'явившись, пошукова система AltaVista швидко отримала визнання користувачів і стала лідером серед собі подібних. У системи була практично необмежена на той час пропускна здатність, вона була першою пошуковою системою, в якій було можливо формулювати запити на природній мові, а також формулювати складні запити. Користувачам було дозволено додавати або видаляти їх власні URL протягом 24 годин. Також AltaVista пропонувала багато порад і рекомендацій з пошуку. Основною заслугою системи AltaVista вважається забезпечення підтримки безлічі мов, в тому числі китайського, японського та корейського. Дійсно, в 1997 році жодна пошукова машина в Мережі не працювала з декількома мовами, тим більше з рідкісними.

1996 рік - пошукова машина AltaVista запустила морфологічний розширення для російської мови. У цьому ж році були запущені перші вітчизняні пошукові системи - Rambler.ru і Aport.ru. Поява перших вітчизняних пошукових систем ознаменувало новий етап розвитку Рунета, дозволяючи російськомовним користувачам здійснювати запит на рідній мові, а також оперативно реагувати на зміни, що відбуваються всередині Мережі.

20 травня 1996 р - з'явилася корпорація Inktomi разом зі своїм пошуковиком Hotbot. Його творцями були дві команди з каліфорнійського університету. Коли сайт з'явився, то він швидко став популярним. У жовтні 2001 Денні Салліван написав статтю під назвою «База даних спам сайтів Inktomi відкрита для публічного користування», в якій розповідалося про те, як Inktomi випадково зробив свою базу даних спам сайтів, яка на той час налічувала вже близько 1 мільйона URL, доступною для загального використання.

1997 рік - в західних країнах настає переломний момент у розвитку пошукових систем, коли С. Брін і Л. Пейдж з Стенфордського університету заснували Google (Первинна назва проекту BackRub). Вони розробили власну пошукову машину, яка дала користувачам можливість здійснювати якісний пошук з урахуванням морфології, помилок при написанні слів, а також підвищити релевантність в результатах видачі запитів.

23 вересня 1997 року - анонсований Yandex, Який швидко став найпопулярнішою у російськомовних користувачів Інтернету системою пошуку. З запуском в пошукової системи Яндекс вітчизняні пошукові машини почали конкурувати між собою, поліпшуючи систему пошуку і індексації сайтів, видачі результатів, а також пропонуючи нові сервіси та послуги

Таким чином, розвиток пошукових систем і їх становлення можна охарактеризувати перерахованими вище етапами.

На сьогоднішній день на світовому ринку влаштувалися три лідери - Google, Yahoo і Bing. Вони мають свої власні бази, і свої алгоритми пошуку. Багато інші пошукові системи використовують результати цих трьох основних пошукових систем. Наприклад, AOL використовує базу даних Google в той час як AltaVista, Lycos і AllTheWeb використовують базу даних Yahoo Всі інші пошукові системи в різних комбінаціях, використовують результати (видачу) перерахованих систем.

Якщо ж провести аналогічний аналіз пошукових систем, популярних в країнах СНД, то ми побачимо, що mail.ru транслює пошук Google, при цьому накладаючи свої нові напрацювання, Rambler, в свою чергу, транслює Яндекс. Тому весь ринок рунета можна розділити між цими двома гігантами.

Саме тому, в країнах СНД просування сайту, як правило, здійснюється тільки в цих двох ПС.