Internet Windows Android
Kengaytirish

Qaysi sahifalarni indekslashdan va qanday yopish kerak. Robotlar meta tegida sahifalar indekslanishining oldini olish

Yaqinda u men bilan kuzatuvni baham ko'rdi, bizni tekshirish uchun kelgan ko'plab saytlar ko'pincha bir xil xatolarga yo'l qo'yadi. Bundan tashqari, bu xatolarni har doim ham ahamiyatsiz deb bo'lmaydi - hatto ilg'or veb -ustalar ham ularni qilishadi. Shunday qilib, bunday xatolarni kuzatish va tuzatish bo'yicha ko'rsatmalar bilan bir qator maqolalar yozish fikri paydo bo'ldi. Birinchi qator - sayt indeksatsiyasini sozlash bo'yicha qo'llanma. Men so'zni muallifga beraman.

Saytni yaxshi indekslash va sahifalar reytingini yaxshilash uchun qidiruv tizimining asosiy reklama qilinadigan sahifalarini chetlab o'tishi va xizmatlarning ko'pligi va yordamchi ma'lumotlarning adashib qolmasdan sahifalarning o'zida asosiy tarkibni aniq ajratib ko'rsatishi zarur.
Bizga tahlil qilish uchun kelgan veb -saytlar ikki xil xatolarga ega:

1. Saytni targ'ib qilganda, ularning egalari qidiruv boti nimani ko'rishi va indeksga qo'shishi haqida o'ylamaydilar. Bunday holda, indeksda reklama qilingan sahifalarga qaraganda ko'proq axlat sahifalari bo'lsa va sahifalarning o'zi ortiqcha yuklangan bo'lsa, vaziyat yuzaga kelishi mumkin.

2. Aksincha, egalari saytni tozalash uchun juda g'ayratli edilar. Keraksiz ma'lumotlar bilan bir qatorda, sahifalarni targ'ib qilish va baholash uchun muhim ma'lumotlarni yashirish mumkin.

Bugun biz qidiruv robotlaridan nimani yashirish kerakligini va buni qanday qilish kerakligini ko'rib chiqmoqchimiz. Sahifalar mazmunidan boshlaylik.

Tarkib

Saytdagi kontentni yopish bilan bog'liq muammolar:

Sahifa faqat matnli ko'rsatkichlar bilan emas, balki qidiruv robotlari tomonidan har tomonlama baholanadi. Turli bloklarni yopish orqali olib tashlanadi, foydalilik va reytingni baholash uchun muhim bo'lgan ma'lumotlar ko'pincha o'chiriladi.

Mana, eng keng tarqalgan xatolarga misol:
- sayt sarlavhasi yashiringan. U odatda aloqa ma'lumotlarini, havolalarni o'z ichiga oladi. Agar sayt sarlavhasi yopilgan bo'lsa, qidiruv tizimlari tashrif buyuruvchilarga g'amxo'rlik qilganingizni va joylashtirganingizni bilmasligi mumkin muhim ma'lumotlar taniqli joyda;

- filtrlar, qidirish shakli, saralash indeksatsiyadan yashiriladi. Internet -do'konda bunday imkoniyatlarning mavjudligi muhim tijorat ko'rsatkichidir, uni yashirish emas, balki ko'rsatish yaxshiroqdir.
- to'lov va etkazib berish haqidagi ma'lumotlar yashiringan. Bu mahsulot kartalarining o'ziga xosligini oshirish uchun qilingan. Lekin bu ham yuqori sifatli mahsulot kartasida bo'lishi kerak bo'lgan ma'lumotlar.
- menyu sahifalarda "kesib tashlangan", bu saytda navigatsiya qulayligini baholashga putur etkazadi.

Nima uchun kontentning bir qismi saytda yopilgan?
Odatda bir nechta maqsadlar mavjud:
- indeksdan yordamchi ma'lumotlar, xizmat bloklari, menyuni olib tashlash orqali sahifadagi asosiy tarkibga e'tibor qaratish;
- saytdagi takroriy bloklarni olib tashlash orqali sahifani yanada o'ziga xos va foydali qilish;
- "qo'shimcha" matnni olib tashlash, sahifaning matnga aloqadorligini oshirish.

Bularning barchasiga tarkibning bir qismini yashirmasdan erishish mumkin!
Sizda juda katta menyu bormi?
Sahifalarda faqat bo'limga bevosita aloqador bo'lgan narsalarni ko'rsatish.

Filtrlarda ko'p tanlov bormi?
Asosiy kodda faqat mashhur bo'lganlarni ko'rsatish. Qolgan variantlarni faqat foydalanuvchi "barchasini ko'rsatish" tugmasini bosganida yuklang. Ha, bu erda skriptlar ishlatiladi, lekin hech qanday aldash yo'q - skript foydalanuvchi talabiga binoan ishga tushiriladi. Qidiruv tizimi barcha elementlarni topa oladi, lekin baholaganda ular sahifaning asosiy tarkibi bilan bir xil qiymatga ega bo'lmaydi.

Sahifada katta blok yangiliklar bilanmi?
Agar foydalanuvchilar kamdan -kam havolalarni kuzatsa yoki sahifada asosiy tarkib kam bo'lsa, ularning sonini kamaytiring, faqat sarlavhalarni ko'rsating yoki yangiliklar blokini olib tashlang.

Qidiruv robotlari, idealdan uzoq bo'lsa -da, doimo takomillashib bormoqda. Allaqachon Google indekslashdan skriptlarni yashirishni Google qidiruv konsoli panelida xato sifatida ko'rsatadi ("Bloklangan manbalar" yorlig'i). Kontentning bir qismini robotlarga ko'rsatmaslik haqiqatan ham foydali bo'lishi mumkin, lekin bu optimallashtirish usuli emas, balki vaqtincha "tayoqchalar" bo'lib, ulardan faqat o'ta zarur hollarda foydalanish kerak.

Biz tavsiya qilamiz:
- yashirilgan kontentga "tayoqcha" sifatida qarang va uni faqat o'ta o'ta og'ir vaziyatlarda ishlating, sahifani o'zi o'zgartirishga harakat qiling;
- kontentning bir qismini sahifadan olib tashlash, nafaqat matn ko'rsatkichlariga e'tibor qaratish, balki ta'sir ko'rsatadigan qulaylik va ma'lumotlarni baholash;
- tarkibni yashirishdan oldin, bir nechta test sahifalarida tajriba o'tkazing. Qidiruv botlari sahifalarni qanday tahlil qilishni biladi va sizning aloqangiz kamayishi haqidagi qo'rquvingiz befoyda bo'lishi mumkin.

Keling, kontentni yashirish usullarini ko'rib chiqaylik:

Noindex yorlig'i

Bu usul bir qancha kamchiliklarga ega. Birinchidan, bu teg faqat Yandex tomonidan hisobga olinadi, shuning uchun Google'dan matnni yashirish befoyda. Bunga qo'shimcha ravishda, teg qidiruv natijalarida faqat matnni indeksatsiya qilish va ko'rsatishni taqiqlashini tushunish kerak. Qolgan kontentlar, masalan havolalar, qamrab olinmaydi.

Yandex qo'llab -quvvatlashi noindex qanday ishlashini umuman qamrab olmaydi. Rasmiy blogdagi munozaralardan birida biroz ko'proq ma'lumot bor.

Foydalanuvchi savoli:

"Harakat mexanikasi va teglar reytingiga ta'siri to'liq tushunilmagan. matn... Keyin, men nima uchun ular shunchalik hayron bo'lishlarini tushuntiraman. Va hozir - 2 ta faraz bor, men haqiqatni topmoqchiman.

No 1 Noindex sahifaning reytingiga / ahamiyatiga umuman ta'sir qilmaydi

Bu taxminga ko'ra: u qiladigan yagona narsa - bu tarkibning bir qismini qidiruv natijalarida ko'rinishini bloklash. Bunday holda, butun sahifa bir butun sifatida ko'rib chiqiladi, shu jumladan yopiq bloklar, aloqadorlik va tegishli parametrlar (o'ziga xoslik; muvofiqlik va h.k.), chunki u kodning barcha tarkibiga, hatto yopiqligiga qarab hisoblanadi.

# 2 Noindex reyting va ahamiyatiga ta'sir qiladi, chunki tegda yopilgan kontent umuman baholanmaydi. Shunga ko'ra, buning aksi to'g'ri. Sahifa robotlar uchun ochiq bo'lgan tarkibga ko'ra joylashtiriladi. "

Qachon teg foydali bo'lishi mumkin:
- agar sahifa Yandex optimallashtirilgan qidiruv natijalarida optimallashtirilganligi sababli pasaytirilsa, lekin ayni paytda Google-dagi muhim iboralar bo'yicha TOP-o'rinlarni egallaganiga shubha bo'lsa. Siz tushunishingiz kerak, bu tezkor va vaqtinchalik echim. Agar butun sayt "Baden-Baden" ga kirsa, noindex, Yandex vakillari bir necha bor tasdiqlaganidek, yordam bermaydi;
- korporativ yoki qonuniy qoidalarga muvofiq siz sahifada ko'rsatishi kerak bo'lgan umumiy mulkiy ma'lumotlarni yashirish;
- agar keraksiz kontent mavjud bo'lsa, Yandex -dagi parchalarni tuzatish.

AJAX yordamida tarkibni yashirish

Bu universal usul... Yandex va Google -dan tarkibni yashirish imkonini beradi. Agar siz sahifani aloqadorlikni kamaytiradigan tarkibdan tozalashni xohlasangiz, undan foydalanish yaxshiroqdir. PS vakillari, albatta, bu usulni ma'qullamaydi va qidiruv robotlariga foydalanuvchilar bilan bir xil tarkibni ko'rishni tavsiya qiladi.
AJAX -dan foydalanish texnologiyasi keng tarqalgan va agar siz ochiq kiyim bilan shug'ullanmasangiz, undan foydalanish uchun sanktsiyalar xavfi yo'q. Ushbu usulning kamchiliklari shundaki, siz hali ham skriptlarga kirishni blokirovka qilishingiz kerak, garchi Yandex va Google buni tavsiya qilmasa.

Sayt sahifalari

Muvaffaqiyatli reklama uchun sahifalardagi keraksiz ma'lumotlardan qutulishgina emas, balki tozalash ham muhim qidiruv indeksi keraksiz axlat sahifalaridan sayt.
Birinchidan, bu saytning asosiy reklama qilingan sahifalarini indekslashni tezlashtiradi. Ikkinchidan, indeksning mavjudligi katta raqam keraksiz sahifalar saytning reytingi va targ'ibotiga salbiy ta'sir qiladi.

Keling, darhol yashirish tavsiya etilgan sahifalarni sanab o'tamiz:

- ilovalarni, foydalanuvchilarning savatlarini ro'yxatga olish sahifalari;
- saytni qidirish natijalari;
- foydalanuvchilarning shaxsiy ma'lumotlari;
- mahsulotni taqqoslash natijalari sahifalari va shunga o'xshash yordamchi modullar;
- qidiruv filtrlari va saralash orqali yaratilgan sahifalar;
- saytning ma'muriy qismi sahifalari;
- bosma versiyalar.

Keling, sahifalarni indeksatsiyadan yopish usullarini ko'rib chiqaylik.

Robots.txt -da yoping

Bu eng yaxshi usul emas.

Birinchidan, robotlar fayli dublikatlar bilan kurashish va saytlarni keraksiz sahifalardan tozalash uchun mo'ljallanmagan. Ushbu maqsadlar uchun boshqa usullardan foydalanish yaxshidir.

Ikkinchidan, robotlar fayli sahifa indekslanmasligiga kafolat emas.

Google bu haqda o'z yordamida shunday deydi:

Noindex meta yorlig'i

Sahifalar indeksdan chiqarilishini ta'minlash uchun ushbu meta tegdan foydalanish yaxshidir.

Quyida ikkala qidiruv tizimi ham tushunadigan meta tegining varianti keltirilgan:

Muhim nuqta!

Googlebot noindex meta tegini ko'rishi uchun siz robots.txt fayli yopilgan sahifalarga kirishni ochishingiz kerak. Agar bu bajarilmasa, robot shunchaki bu sahifalarga kirmasligi mumkin.

X-robotlar-tag sarlavhalari

Bu usulning muhim afzalligi shundaki, taqiqni faqat sahifa kodida emas, balki root .htaccess fayli orqali ham joylashtirish mumkin.

Bu usul Rossiya Internetida unchalik keng tarqalgan emas. Bizning fikrimizcha, bu holatning asosiy sababi Yandex bu usuldan foydalanishidir uzoq vaqt qo'llab -quvvatlamadi.
Yandex xodimlari bu yil bu usul hozirda qo'llab -quvvatlanishini yozishdi.

Qo'llab -quvvatlash javobini batafsil deb bo'lmaydi))). X-Robots-Tag yordamida indekslashni taqiqlashni davom ettirishdan oldin, bu usul Yandex uchun ishlayotganiga ishonch hosil qilish yaxshiroqdir. Biz hali bu mavzu bo'yicha tajribalarimizni o'rnatmaganmiz, lekin, ehtimol, biz buni yaqin kelajakda qilamiz.

Parol himoyasi

Agar siz butun saytni, masalan, sinov versiyasini yashirishingiz kerak bo'lsa, biz ham ushbu usuldan foydalanishni tavsiya etamiz. Ehtimol, yagona kamchilik shundaki, agar siz parol ostida yashirilgan domenni skanerlashingiz kerak bo'lsa, bu qiyin bo'lishi mumkin.

AJAX yordamida keraksiz sahifalarni yo'q qiling

Gap faqat filtrlar, saralash va h.k.lar yordamida yaratilgan sahifalarni indekslashni taqiqlashda emas, balki saytda bunday sahifalarni umuman yaratishda emas.

Masalan, agar foydalanuvchi qidiruv filtrida siz alohida sahifa yaratmagan parametrlar to'plamini tanlagan bo'lsa, sahifada ko'rsatilgan mahsulotlarning o'zgarishi URLning o'zi o'zgartirilmasdan sodir bo'ladi.

Bu usulning qiyinligi shundaki, uni odatda hamma holatlarga birdaniga qo'llash mumkin emas. Yaratilgan sahifalarning bir qismi reklama uchun ishlatiladi.

Masalan, sahifalarni filtrlash. "Sovutgich + Samsung + oq" uchun bizga sahifa kerak, lekin "muzlatgich + Samsung + oq + ikki kamerali + sovuqsiz" uchun bizda yo'q.

Shuning uchun, siz istisnolarni yaratishni o'z ichiga oladigan vositani yasashingiz kerak. Bu dasturchilar vazifasini murakkablashtiradi.

Qidiruv algoritmlaridan indekslashni taqiqlash usullaridan foydalaning

Google qidiruv konsolidagi URL parametrlari

Ushbu vosita sizga hodisani qanday aniqlashni aniqlashga imkon beradi Sahifalar URL manzili yangi parametrlar.

Robots.txt-da Clean-param ko'rsatmasi

Yandex-da shunga o'xshash URL parametrlarini taqiqlash Clean-param ko'rsatmasi yordamida o'rnatilishi mumkin.
Siz bu haqda o'qishingiz mumkin.

Saytdagi axlat sahifalarining oldini olish sifatida kanonik manzillar
Bu meta teg saytdagi dublikatlar va keraksiz sahifalarga qarshi kurashish uchun maxsus yaratilgan. Indeksda takroriy va axlat sahifalari paydo bo'lishining oldini olish uchun uni butun sayt bo'ylab yozishni tavsiya qilamiz.

Yandex va Google indekslaridan sahifalarni joyidan o'chirish vositalari

Agar siz ma'lumotni indeksdan zudlik bilan olib tashlashingiz kerak bo'lsa, qidiruv ishlarida sizning taqiqingiz ko'rinishini kutmasdan vaziyat yuzaga kelgan bo'lsa, siz Yandex.Webmaster paneli va Google qidiruv konsolidan foydalanishingiz mumkin.

Yandex -da bu "URLni o'chirish":

Google qidiruv konsolida "URLni o'chirish":

Ichki havolalar

Asosiy targ'ib qilingan sahifalarga ichki og'irliklarni qayta tarqatish uchun ichki havolalar indeksatsiyadan yopiladi. Lekin gap shundaki:
- bunday qayta taqsimlash yomon ta'sir qilishi mumkin umumiy aloqalar sahifalar o'rtasida;
-shablon uchidan oxirigacha bo'lgan havolalar odatda kamroq og'irlikka ega yoki umuman hisoblanmaydi.

Havolalarni yashirish uchun ishlatiladigan variantlarni ko'rib chiqing:

Noindex yorlig'i

Bu teg havolalarni yashirish uchun foydasiz. Bu faqat matnga tegishli.

Rel = "nofollow" atributi

Hozirgi vaqtda atribut sahifadagi vaznni tejashga ruxsat bermaydi. Rel = "nofollow" dan foydalanish shunchaki vazn yo'qotadi. O'z -o'zidan, ichki havolalar uchun tegdan foydalanish juda mantiqiy ko'rinmaydi.

Skriptlar bilan havolalarni yashirish

Bu aslida qidiruv tizimlaridan havolalarni yashirishning yagona ishchi usuli. Siz Ajax -dan foydalanishingiz va sahifani yuklaganingizdan so'ng havola bloklarini yuklashingiz yoki tegni skript bilan almashtirish orqali havolalar qo'shishingiz mumkin ustida ... Shuni yodda tutish kerakki, qidirish algoritmlari skriptlarni taniy oladi.

Tarkibda bo'lgani kabi, bu ham ba'zan muammoni hal qila oladigan tayoq. Agar siz yashirin havola blokidan ijobiy ta'sir olishingizga ishonchingiz komil bo'lmasa, bunday usullardan foydalanmaslik yaxshiroqdir.

Xulosa

Sahifadan katta hajmli bloklarni olib tashlash, albatta, reytingga ijobiy ta'sir ko'rsatishi mumkin. Buni sahifani qisqartirish va faqat tashrif buyuruvchilarga kerak bo'lgan tarkibni ko'rsatish orqali qilish yaxshidir. Tarkibni qidiruv tizimidan yashirish-bu tayoq, uni faqat boshqa yo'llar bilan uchidan oxirigacha blokirovkalarni kamaytirish mumkin bo'lmagan hollarda ishlatish kerak.

Sahifadan ba'zi tarkibni olib tashlaganingizda, reyting uchun nafaqat matn mezonlari, balki ma'lumotlarning to'liqligi va tijorat omillari ham muhimligini unutmang.

Vaziyat ichki havolalar bilan bir xil. Ha, ba'zida bu foydali bo'lishi mumkin, lekin saytdagi havola massasini sun'iy ravishda qayta taqsimlash bahsli usuldir. Ishonchingiz komil bo'lmagan havolalarni olib tashlash ancha xavfsiz va ishonchli.

Sayt sahifalari bilan hamma narsa aniqroq. Keraksiz sahifalar indeksda qolmasligini ta'minlash muhim. Buning uchun biz ushbu maqolada to'plagan va tasvirlab bergan ko'plab usullar mavjud.

Siz har doim optimallashtirishning texnik jihatlari bo'yicha maslahatlarimizni qabul qilishingiz yoki o'z ichiga kalit kalitli aktsiyaga buyurtma berishingiz mumkin.

Ko'pgina robotlar yaxshi ishlab chiqilgan va sayt egalariga hech qanday muammo tug'dirmaydi. Ammo, agar botni havaskor yozsa yoki "nimadir noto'g'ri ketdi", demak, u saytni chetlab o'tadigan katta yukni keltirib chiqarishi mumkin. Aytgancha, o'rgimchaklar serverga viruslar singari kirmaydi - ular shunchaki kerakli sahifalarni masofadan turib so'rashadi (aslida ular brauzerlarga o'xshash, lekin sahifalarni ko'rish funktsiyasiz).

Robots.txt - foydalanuvchi -agent ko'rsatmasi va qidiruv tizimi botlari

Robots.tht to'liq murakkab bo'lmagan sintaksisga ega, u juda batafsil tasvirlangan, masalan Yandex yordam va Google yordami... Odatda, quyida tavsiflangan ko'rsatmalar qaysi qidiruv botiga tegishli ekanligini ko'rsatadi: bot nomi (" Foydalanuvchi-agent") ruxsat (") Ruxsat bering") va taqiqlash" ( Ruxsat bermang"), shuningdek qidiruv tizimlariga xarita fayli qaerda joylashganligini ko'rsatish uchun" Sayt xaritasi "faol ishlatilgan.

Standart ancha oldin yaratilgan va keyinroq biror narsa qo'shilgan. Ko'rsatmalar va dizayn qoidalari mavjud bo'lib, ularni faqat ba'zi qidiruv tizimlarining robotlari tushunishadi. Runetda faqat Yandex va Google qiziqish uyg'otadi, ya'ni aynan robots.txt -ni tuzishda ularning yordami bilan batafsil tanishib chiqish kerak (men havolalarni oldingi paragrafda berganman).

Masalan, ilgari Yandex qidiruv tizimida sizning veb -loyihangiz "Xost" maxsus yo'riqnomasida asosiysi ekanligini ko'rsatish foydali edi, uni faqat shu qidiruv tizimi tushunadi (shuningdek, Mail.ru, chunki ularda qidiruv mavjud. Yandex). To'g'ri, 2018 yil boshida Yandex hali ham Xostni bekor qildi va endi uning vazifasi boshqa qidiruv tizimlari singari 301 qayta yo'naltirish orqali amalga oshiriladi.

Agar sizning manbangizda ko'zgular bo'lmasa ham, imlo variantlaridan qaysi biri asosiy ekanligini ko'rsatish foydali bo'ladi.

Endi bu faylning sintaksisi haqida bir oz gaplashamiz. Robots.txt ko'rsatmalari quyidagicha:

<поле>:<пробел><значение><пробел> <поле>:<пробел><значение><пробел>

To'g'ri kod o'z ichiga olishi kerak hech bo'lmaganda bitta "Ruxsat bermaslik" ko'rsatmasi har bir "Foydalanuvchi-agent" yozuvidan keyin. Bo'sh fayl butun saytni indekslashga ruxsat beradi.

Foydalanuvchi-agent

Foydalanuvchi-agent ko'rsatmasi qidiruv botining nomini o'z ichiga olishi kerak. Undan foydalanib, siz har bir qidiruv tizimi uchun xatti -harakatlar qoidalarini sozlashingiz mumkin (masalan, ma'lum bir papkani faqat Yandex uchun indekslashni taqiqlash). Resursingizga kirgan barcha botlarga "Foydalanuvchi-agent" yozish misoli shunday ko'rinadi:

Foydalanuvchi-agent: *

Agar siz "User-agent" da ma'lum shartlarni faqat bitta bot uchun, masalan, Yandex uchun o'rnatmoqchi bo'lsangiz, quyidagicha yozishingiz kerak:

Foydalanuvchi-agent: Yandex

Qidiruv mexanizmi robotlarining nomi va ularning robots.txt faylidagi o'rni

Har bir qidiruv tizimining boti o'z nomiga ega (masalan, rambler uchun bu StackRambler). Bu erda men eng mashhurlarini sanab o'taman:

Google http://www.google.com Googlebot Yandex http://www.ya.ru Yandex Bing http://www.bing.com/ bingbot

Ba'zida asosiy qidiruv tizimlari, asosiy botlardan tashqari, shuningdek, bloglar, yangiliklar, rasmlar va boshqalarni indekslash uchun alohida nusxalar mavjud. Siz botlarning turlari (Yandex uchun) va (Google uchun) haqida ko'p ma'lumot topishingiz mumkin.

Bu holatda qanday bo'lish kerak? Agar siz Google robotlarining barcha turlariga mos keladigan indekslashni taqiqlash qoidasini yozishingiz kerak bo'lsa, Googlebot nomidan foydalaning va ushbu qidiruv tizimining boshqa barcha o'rgimchalari ham bo'ysunadi. Biroq, masalan, Googlebot-Image-ni User-agent sifatida ko'rsatish orqali tasvirlarni indekslashni taqiqlashingiz mumkin. Endi bu juda aniq emas, lekin misollar bilan, menimcha, bu osonroq bo'ladi.

Robots.tht da Disallow va Allow direktivalarini ishlatishga misollar

Men bir nechta oddiy narsalarni beraman ko'rsatmalardan foydalanish misollari uning harakatlarini tushuntirish bilan.

  1. Quyidagi kod barcha botlarga (Foydalanuvchi-agentda yulduzcha bilan ko'rsatilgan) barcha tarkibni istisnosiz indekslash imkonini beradi. Bu berilgan bo'sh ko'rsatma Ruxsat bermang... Foydalanuvchi-agent: * Ruxsat bermang:
  2. Quyidagi kod, aksincha, barcha qidiruv tizimlariga ushbu manbaning sahifalarini indeksga qo'shishni butunlay taqiqlaydi. Qiymat maydonida "/" belgisi bilan "Ruxsat bermaslik" ni o'rnatadi. Foydalanuvchi-agent: * Ruxsat bermang: /
  3. Bunday holda, barcha botlarga / image / katalogining tarkibini ko'rish taqiqlanadi (http://mysite.ru/image/-bu katalogga mutlaq yo'l) Foydalanuvchi-agent: * Ruxsat bermang: / image /
  4. Bitta faylni blokirovka qilish uchun uning mutlaq yo'lini ro'yxatdan o'tkazish kifoya (o'qish): User-agent: * Ruxsat bermang: /katalog1//katalog2/private_file.html

    Bir oz oldinga yugurib, aytamanki, to'liq yo'lni yozmaslik uchun yulduzcha (*) belgisini ishlatish osonroq:

    Ruxsat bermang: /*xususiy_fayl.html

  5. Quyidagi misolda "tasvir" katalogi, shuningdek "tasvir" belgilaridan boshlanadigan barcha fayllar va kataloglar, ya'ni fayllar: "image.htm", "images.htm", kataloglar: "image", "images1", "image34" va boshqalar): Foydalanuvchi-agent: * Ruxsat bermaslik: / image Gap shundaki, sukut bo'yicha, yozuv oxirida har qanday belgi o'rnini bosuvchi yulduzcha nazarda tutiladi, shu jumladan ularning yo'qligi. Bu haqda quyida o'qing.
  6. Yordamida Ko'rsatmalarga ruxsat bering kirishga ruxsat beramiz. Qo'shimchalar Yaxshi taqiqlangan. Masalan, bu shart bilan biz Yandex qidiruv robotiga manzili / cgi-bin: User-agent: Yandex Allow: / cgi-bin Disallow: / bilan boshlanadigan veb-sahifalardan tashqari hamma narsani yuklab olishni (indekslashni) taqiqlaymiz.

    Ruxsat berish va taqiqlash kombinatsiyasini ishlatishning aniq namunasi:

    Foydalanuvchi-agent: * Ruxsat bermang: / katalog Ruxsat bering: / katalog / avto

  7. Ruxsat berish-taqiqlash direktivalari yo'llarini tavsiflashda siz simvollardan foydalanishingiz mumkin "*" va "$", shunday qilib, ba'zi mantiqiy ifodalarni o'rnatish.
    1. Belgi "*"(Yulduz) har qanday (shu jumladan bo'sh) belgilar ketma -ketligini bildiradi. Quyidagi misol barcha qidiruv tizimlariga ".php" kengaytmasi bo'lgan fayllarni indekslashni taqiqlaydi: User-agent: * Disallow: * .php $
    2. Oxirida nima uchun kerak $ (dollar) belgisi? Gap shundaki, robots.txt faylining mantig'iga ko'ra, har bir ko'rsatma oxirida standart yulduzcha qo'shiladi (u yo'q, lekin u erda bo'lganga o'xshaydi). Masalan, biz yozamiz: Ruxsat bermang: / tasvirlar

      Bu shuni anglatadiki, bu bir xil:

      Ruxsat bermang: / rasmlar *

      Bular. bu qoida, manzili / tasvir bilan boshlanadigan barcha fayllarni (veb -sahifalar, rasmlar va boshqa turdagi fayllarni) indekslashni taqiqlaydi, so'ngra biror narsa kuzatiladi (yuqoridagi misolga qarang). Shunday qilib, $ belgisi faqat standart (ajratilmagan) oxirgi yulduzchani bekor qiladi. Misol uchun:

      Ruxsat bermang: / rasmlar $

      Faqat /images.html yoki /images/primer.html emas, balki /images faylini indekslashni taqiqlaydi. Xo'sh, birinchi misolda, biz faqat .php bilan tugaydigan fayllarni indekslashni taqiqladik (bunday kengaytma bilan), ortiqcha narsalarni ushlamaslik uchun:

      Ruxsat bermang: * .php $

  • Ko'pgina dvigatellarda foydalanuvchilar (odamlar o'qiy oladigan urllar), tizim tomonidan yaratilgan urllarda "?" manzilda. Siz buni ishlatishingiz va robots.txt-da shunday qoidani yozishingiz mumkin: User-agent: * Disallow: / *?

    Savol belgisidan keyingi yulduzcha o'zini ko'rsatib turibdi, lekin biz biroz yuqorida bilib olganimizdek, bu allaqachon oxirida aytilgan. Shunday qilib, biz qidiruv sahifalarini va boshqalarni indekslashni taqiqlaymiz xizmat sahifalari qidiruv robotiga yetib bora oladigan dvigatel tomonidan yaratilgan. Bu ortiqcha bo'lmaydi, chunki savol belgisi ko'pincha CMS tomonidan seans identifikatori sifatida ishlatiladi, bu esa indeksdagi sahifalarning takrorlanishiga olib kelishi mumkin.

  • Sayt xaritasi va Xost ko'rsatmalari (Yandex uchun) Robots.txt

    Sayt oynalari bilan bog'liq noxush muammolarning oldini olish uchun, ilgari Yandex botini asosiy oynaga qaratgan robots.txt -ga Xost ko'rsatmasini qo'shish tavsiya qilingan edi.

    Xost ko'rsatmasi - Yandex saytining asosiy oynasini belgilaydi

    Masalan, oldin, agar siz hali xavfsiz protokoliga o'tmagan, Xostda to'liq URLni ko'rsatish shart emas edi, lekin Domen nomi(http: // holda, ya'ni ru). Agar siz allaqachon https -ga o'tgan bo'lsangiz, to'liq URL manzilini ko'rsatishingiz kerak bo'ladi (masalan, https://myhost.ru).

    Ikki nusxadagi kontent bilan ishlash uchun ajoyib vosita - Canonical -da boshqa URL ro'yxatdan o'tgan bo'lsa, qidiruv tizimi sahifani indekslamaydi. Masalan, mening blogimning bunday sahifasi uchun (sahifali sahifa) Canonical https: // saytiga ishora qiladi va nomlarning takrorlanishi bilan bog'liq muammolar bo'lmasligi kerak.

    Lekin men chalg'ib ketdim ...

    Agar sizning loyihangiz har qanday dvigatelga asoslangan bo'lsa, unda tarkibning takrorlanishi sodir bo'ladi yuqori ehtimollik bilan, ya'ni siz robots.txt va, ayniqsa, meta tegdagi taqiq yordamida bu bilan shug'ullanishingiz kerak, chunki birinchi holatda, Google taqiqni e'tiborsiz qoldirishi mumkin, lekin bu mumkin emas. meta teg haqida la'nat bering (shunday tarbiyalangan).

    Masalan, ichida WordPress sahifalari juda o'xshash tarkibga ega bo'lsa, qidiruv tizimlari indeksiga kirishi mumkin, agar indeksatsiya turkumlar, teglar arxivi va vaqtinchalik arxivlar uchun ruxsat berilgan bo'lsa. Ammo, agar siz yuqorida tavsiflangan Robots meta -tegidan foydalanib, siz teglar arxivi va vaqtinchalik arxiv uchun taqiq yaratgan bo'lsangiz (siz teglarni qoldirishingiz mumkin, lekin toifalar tarkibini indekslashni taqiqlasangiz), unda kontentning takrorlanishi bo'lmaydi. Buni qanday qilish yuqorida ko'rsatilgan havolada tasvirlangan (OlInSeoPak plagini uchun)

    Xulosa qilib aytamanki, Robotlar fayli saytning barcha kataloglariga yoki nomidagi fayllar va papkalarga kirishni taqiqlash bo'yicha global qoidalarni o'rnatish uchun mo'ljallangan (niqob bilan). Yuqorida siz bunday taqiqlarni o'rnatish misollarini ko'rishingiz mumkin.

    Keling, turli dvigatellar uchun mo'ljallangan robotning aniq misollarini ko'rib chiqaylik - Joomla, WordPress va SMF. Tabiiyki, har xil CMS uchun yaratilgan uchta variant ham bir -biridan sezilarli darajada farq qiladi. To'g'ri, ularning hammasida bitta bo'ladi umumiy nuqta va bu moment Yandex qidiruv tizimi bilan bog'liq.

    Chunki runetda Yandex juda katta vaznga ega, keyin siz uning ishining barcha nuanslarini hisobga olishingiz kerak va bu erda biz Xost ko'rsatmasi yordam beradi... Bu aniq qidiruv tizimini saytingizning asosiy oynasiga yo'naltiradi.

    Uning uchun faqat Yandex (User-agent: Yandex) uchun mo'ljallangan alohida User-agent blogidan foydalanish tavsiya etiladi. Buning sababi shundaki, boshqa qidiruv tizimlari Xostni tushunmasligi mumkin va shunga ko'ra, uni barcha qidiruv tizimlari uchun mo'ljallangan User-agent yozuviga kiritish (User-agent: *) salbiy oqibatlarga va noto'g'ri indekslanishga olib kelishi mumkin.

    Haqiqiy vaziyat nima ekanligini aytish qiyin, chunki qidirish algoritmlari o'z -o'zidan bir narsa, shuning uchun uni maslahat sifatida bajarish yaxshiroqdir. Ammo bu holda, User-agent: Yandex direktivasida User-agent: * o'rnatgan barcha qoidalarni takrorlashga to'g'ri keladi. Agar siz User-agent: Yandex-ni bo'sh Disallow: bilan qoldirsangiz, bu holda siz Yandex-ga xohlagan joyga borishga va hamma narsani indeksga tortishga ruxsat berasiz.

    WordPress uchun robotlar

    Ishlab chiquvchilar tomonidan tavsiya etilgan faylga misol keltirmayman. Siz buni o'zingiz ko'rishingiz mumkin. Ko'pgina bloggerlar Yandex dvigatelining mazmuni orqali yurishlarida Yandex va Google botlarini umuman cheklamaydilar. Ko'pincha bloglarda siz avtomatik ravishda plagin bilan to'ldirilgan robotlarni topishingiz mumkin.

    Ammo, mening fikrimcha, baribir, donni somondan elakdan o'tkazishdek qiyin ishda qidiruvga yordam berish kerak. Birinchidan, bu axlatni indekslash uchun Yandex va Google botlariga ko'p vaqt kerak bo'ladi va yangi maqolalaringiz bilan veb -sahifalarni indeksga qo'shish uchun vaqt qolmasligi mumkin. Ikkinchidan, botlarning dvigatelga keraksiz fayllarni ko'rib chiqishi sizning serveringizning serveriga qo'shimcha yukni keltirib chiqaradi, bu yaxshi emas.

    Siz bu faylning mening versiyasini o'zingiz ko'rishingiz mumkin. Bu eski, u anchadan buyon o'zgarmadi, lekin men "buzilmagan narsani tuzatma" tamoyiliga amal qilishga harakat qilaman va siz qaror qabul qilishingiz kerak: undan foydalaning, o'zingizniki yoki kimnidir josuslik qiling boshqa Menda sahifalar soniga qadar sahifalashtirish bilan indeksatsiyalash taqiqlangan edi (Ruxsat bermang: * / page /), lekin yaqinda men yuqorida yozgan Kanonikaga tayanib uni olib tashladim.

    Umuman olganda, yagona to'g'ri fayl WordPress uchun, ehtimol, mavjud emas. Albatta, undagi har qanday old shartlarni amalga oshirish mumkin, lekin kim aytdi, ular to'g'ri bo'ladi. Internetda ideal robots.txt uchun ko'plab variantlar mavjud.

    Men ikkita cheklovni beraman:

    1. Siz batafsil tushuntirishlar bilan mega faylni topishingiz mumkin ( # belgisi haqiqiy faylda olib tashlanishi yaxshiroq bo'lgan izohlarni ajratadi): User-agent: * # Yandex va Google-dan tashqari robotlar uchun umumiy qoidalar, # yildan buyon ular uchun qoidalar quyida joylashgan: Ruxsat bermang: # asosiy ruxsatnomadagi barcha so'rov parametrlari: / wp- # barcha WP fayllari: / wp-json /, / wp-o'z ichiga oladi, / wp-kontent / plaginlari Ruxsat bermang: / wp / # agar pastki katalog mavjud bo'lsa / wp / bu erda CMS o'rnatilgan (agar bo'lmasa, # qoida o'chirilishi mumkin) Ruxsat bermang: *? s = # qidirish Taqiqlanmagan: * & s = # qidirish Ruxsat berilmagan: / qidirish / # qidirish taqiqlangan: / muallif / # muallif arxivi Ruxsat bermang: / foydalanuvchilar / # mualliflar arxivi Ruxsat bermaslik: * / trackback # trackbacks, maqolaga ochiq # havola paydo bo'lishi haqidagi izohlardagi bildirishnomalar Ruxsat bermaslik: * / feed # barcha tasmalarga ruxsat bermaslik: * / rss # rss feediga ruxsat bermaslik: * / embed # barcha qo'shimchalarga ruxsat bermaslik: * / wlwmanifest.xml # xml manifest fayli Windows Live Yozuvchi (agar ishlatilmasa, # qoida o'chirilishi mumkin) Ruxsat bermang: /xmlrpc.php # WordPress API fayliga ruxsat bermang: * utm = # utm tegli havolalarga ruxsat bermang: * openstat = # ochiqstat tegli havolalarga ruxsat bering: * / yuklashlar # ochiq yuklangan papka User-agent: Google uchun GoogleBot # qoidalari (takroriy izohlar yo'q) Ruxsat bermang: / cgi-bin Ruxsat bermang: /? Ruxsat bermaslik: / wp- Ruxsat bermaslik: / wp / Ruxsat bermaslik: *? S = Ruxsat bermaslik: * & s = Ruxsat bermaslik: / qidirish / Ruxsat bermaslik: / muallif / Ruxsat bermaslik: / foydalanuvchilar / Ruxsat bermaslik: * / trekka ruxsat bermaslik: * / tasmaga ruxsat bermaslik: * / rss Disallow: * / embed Disallow: * / wlwmanifest.xml Disallow: /xmlrpc.php Disallow: * utm = Disallow: * openstat = Allow: * / uploads Allow: /*/*.js # wp ichidagi ochiq js skriptlari. - ( /* / - ustuvorlik uchun) Ruxsat bering: /*/*.css # ichida CSS fayllarini oching . Ruxsat bering: /wp-*.jpg # plaginlardagi rasmlar, kesh papkasi va boshqalar. Ruxsat bering: /wp-*.jpeg # plaginlardagi rasmlar, kesh papkasi va boshqalar. Ruxsat bering: /wp-*.gif # plaginlardagi rasmlar, kesh papkasi va boshqalar. Ruxsat bering: /wp-admin/admin-ajax.php # JS va CSS-ni bloklamaslik uchun plaginlar tomonidan ishlatiladi Foydalanuvchi-agent: Yandex uchun Yandex # qoidalari (takroriy izohlar yo'q) Ruxsat bermang: /cgi-bin Ruxsat bermang: /? Ruxsat bermaslik: / wp- Ruxsat bermaslik: / wp / Ruxsat bermaslik: *? S = Ruxsat bermaslik: * & s = Ruxsat bermaslik: / qidirish / Ruxsat bermaslik: / muallif / Ruxsat bermaslik: / foydalanuvchilar / Ruxsat bermaslik: * / trekka ruxsat bermaslik: * / tasmaga ruxsat bermaslik: * /rss Disallow:* /embed Disallow:* /wlwmanifest.xml Disallow: /xmlrpc.php Allow:* /uploads ruxsat: /*/*.js ruxsat: /*/*.css ruxsat: /wp-*.png ruxsat : /wp-*.jpg Ruxsat berish: /wp-*.jpeg Ruxsat berish: /wp-*.gif Ruxsat berish: /wp-admin/admin-ajax.php Clean-Param: utm_source & utm_medium & utm_campaign # Yandex yopilmaslikni tavsiya qiladi # indekslashdan, lekin teglar parametrlarini o'chirish uchun, # Google Clean-Param qoidalarini qo'llab-quvvatlamaydi: openstat # shunga o'xshash # Sayt xaritasining bir yoki bir nechta faylini ko'rsating (har bir foydalanuvchi-agent uchun takrorlash shart emas #). Google XML sayt xaritasi Quyidagi misolda bo'lgani kabi 2 ta sayt xaritasini yaratadi. Sayt xaritasi: http://site.ru/sitemap.xml Sayt xaritasi: http://site.ru/sitemap.xml.gz # Quyidagi misolda bo'lgani kabi saytning asosiy oynasini ko'rsating (WWW bilan/WWW holda, agar HTTPS # keyin protokol yozing, agar siz portni belgilashingiz kerak bo'lsa, biz ko'rsatamiz). Xost buyrug'i # Yandex va Mail.RU tomonidan tushuniladi, Google hisobga olinmaydi. Xost: www.site.ru
    2. Ammo siz minimalizmga misol keltira olasiz: Foydalanuvchi-agent: * Ruxsat bermang: /wp-admin /Ruxsat bering: /wp-admin/admin-ajax.php Xost: https://site.ru Sayt xaritasi: https: // sayt. ru / sayt xaritasi.xml

    Haqiqat, ehtimol, o'rtada. Shuningdek, "qo'shimcha" sahifalar uchun Robotlar meta tegini qo'shishni unutmang, masalan, ajoyib plagin yordamida -. U sizga Canonical -ni sozlashda ham yordam beradi.

    Joomla uchun to'g'ri robotlar.txt

    Foydalanuvchi-agenti: * Ruxsat bermang: / administrator / Disallow: / bin / Disallow: / cache / Disallow: / cli / Disallow: / komponentlar / Disallow: / include / Disallow: / install / Disallow: / language / Disallow: / layouts / Ruxsat bermang: / kutubxonalar / Ruxsat bermaslik: / jurnallar / Ruxsat bermaslik: / modullar / Ruxsat bermaslik: / plaginlar / Ruxsat bermaslik: / tmp /

    Aslida, bu erda deyarli hamma narsa hisobga olinadi va u yaxshi ishlaydi. Yagona narsa-bu alohida foydalanuvchi-agentini qo'shish: Yandex qoidasi-Yandex uchun asosiy oynani belgilaydigan Xost ko'rsatmasini kiritish, shuningdek Sayt xaritasi faylining yo'lini ko'rsatish.

    Shuning uchun, oxirgi shaklda, mening fikrimcha, Joomla uchun to'g'ri robotlar shunday bo'lishi kerak:

    Foydalanuvchi-agenti: Yandex-ni taqiqlash: / administrator / Ruxsat bermaslik: / kesh / Ruxsat bermaslik: / o'z ichiga oladi / Ruxsat bermaslik: / o'rnatish / Ruxsat bermaslik: / til / Ruxsat bermaslik: / kutubxonalar / Ruxsat bermaslik: / modullar / Ruxsat bermaslik: / plaginlar / Taqiqlash: / tmp / Ruxsat bermang: / layouts / Disallow: / cli / Disallow: / bin / Disallow: / logs / Disallow: / komponentlar / Disallow: / komponent / Disallow: / komponent / teglar * Disallow: / * mailto / Disallow: /*.pdf Ruxsat bermaslik : /*% Ruxsat bermang: /index.php Xost: vash_sait.ru (yoki www.vash_sait.ru) Foydalanuvchi-agent:*Ruxsat bering: /*.css?*$ Ruxsat bering: /*.js?*$ Ruxsat bering: /* .jpg?*$ Ruxsat berish: /*.png? : / plugins / Disallow: / tmp / Disallow: / layouts / Disallow: / cli / Disallow: / bin / Disallow: / logs / Disallow: / komponentlar / Disallow: / komponent / Disallow: / * mailto / Disallow: / *. pdf Ruxsat bermaslik: / *% ruxsat bermaslik: /index.php sayt xaritasi: http: // xaritangizga yo'l XML formati

    Ha, ikkinchi variantda ko'rsatmalar borligini ham unutmang Uslublar, skriptlar va tasvirlarni indekslashga ruxsat berish... Bu Google uchun maxsus yozilgan, chunki uning Googlebot ba'zida robotga bu fayllarni indeksatsiya qilish taqiqlanganligi haqida qasam ichadi, masalan, ishlatilgan mavzusi bo'lgan papkadan. U hatto buning uchun o'z reytingini tushirish bilan tahdid qilmoqda.

    Shuning uchun, oldindan, biz ruxsat berish yordamida hamma narsani indekslashga ruxsat beramiz. Aytgancha, xuddi shu narsa WordPress uchun namunaviy faylda bo'lgan.

    Omad sizga! Tez orada blog sayti sahifalarida ko'rishguncha

    ga o'tib, ko'proq videolarni ko'rishingiz mumkin
    ");">

    Sizni qiziqtirishi mumkin

    Www bilan va bo'lmagan domenlar - ularning paydo bo'lish tarixi, ularni yopishtirish uchun 301 ta qayta yo'naltirishlardan foydalanish
    Ko'zgular, takroriy sahifalar va url manzillari - saytingizning auditi yoki uning SEO targ'ibotining buzilishiga nima sabab bo'lishi mumkin

    CMS Joomla -ning bitta kamchiliklari bor, bu dublikat sahifa manzillari. Dublikatlar - bitta maqola ikkita manzilda mavjud bo'lganda.

    Misol uchun:

    Qo'shimcha ma'lumotni va Joomla -dagi takrorlangan sahifalarni indekslashdan qanday olib tashlashni o'qing.

    CMS Joomla -ning bitta kamchiliklari bor, bu dublikat sahifa manzillari. Dublikatlar - bitta maqola ikkita manzilda mavjud bo'lganda. Misol uchun:

    http: //site/dizayn/ikonki-sotsial-noy-seti-vkonrtakte.html

    index.php? option = com_content & view = article & id = 99: vkontakteicons & catid = 5: design & Itemid = 5

    Dublikat sahifalar qanday paydo bo'ladi? Juda oddiy, yuqoridagi misolda biz bitta materialga ikkita havolani ko'ramiz. Birinchi havola JoomSEF komponenti tomonidan yaratilgan, chiroyli va odam o'qiy oladigan (CNC havolasi) bo'lib, u saytdagi barcha havolalarni shunday chiroyli va o'qiladigan shaklga aylantiradi. Ikkinchi havola - bu Joomla -ning ichki tizim havolasi, va agar Artio JoomSef komponentasi o'rnatilmagan bo'lsa, saytdagi barcha havolalar ikkinchisiga o'xshab ketadi - tushunarsiz va chirkin. Endi bu qanchalik qo'rqinchli va dublikatlar bilan qanday kurashish kerakligi haqida.

    Sayt uchun dublikatlar qanchalik zararli. Men buni juda katta kamchilik deb aytmagan bo'lardim, chunki mening fikrimcha, qidiruv tizimlari saytni bunday dublikatlar uchun qat'iyan taqiqlamasligi va pessimizatsiya qilmasligi kerak, chunki bu dublikatlar ataylab qilingan emas, balki CMS tizimining bir qismidir. Bundan tashqari, shuni ta'kidlaymanki, bu millionlab saytlar yaratilgan juda mashhur tizim, ya'ni qidiruv tizimlari bu "xususiyat" ni tushunishni o'rgandilar. Ammo baribir, agar imkoniyat va xohish bo'lsa, unda bunday narsalarni katta akaning ko'zidan yashirish yaxshiroqdir.

    Joomla va boshqa sms dublikatlari bilan qanday ishlash kerak

    1) robots.txt -da taqiqlangan bitta sahifadan ikkita rasm

    Masalan, bitta sahifaning quyidagi ikkita manzili qidiruv tizimining indeksiga kiritilgan:

    http://site.ru/page.html?replytocom=371
    http://site.ru/page.html?iframe=true&width=900&height=450

    Robots.txt -dagi bunday dublikatlarni yopish uchun quyidagilarni qo'shish kerak:

    Ruxsat bermang: / *? *
    Ruxsat bermang: / *?

    Bu harakat bilan biz "?" Belgisi bilan saytning barcha havolalarini indeksatsiyadan yopdik. Bu parametr CNC ishi yoqilgan saytlar uchun javob beradi va oddiy havolalarda savol belgisi yo'q - "?"

    2. rel = "canonical" tegidan foydalaning

    Aytaylik, bitta sahifada har xil manzilga ega ikkita havola bor. Google qidiruv tizimlari va Yahoo sahifadagi qaysi URL asosiy ekanligini belgilashi mumkin. Buning uchun tegda rel = "canonical" tegini qo'shishingiz kerak. Yandex bu variantni qo'llab -quvvatlamaydi.

    Joomla uchun rel = "canonical" tegini o'rnatish uchun men ikkita kengaytmani topdim 1) plg_canonical_v1.2; va 2) 098_mod_canonical_1.1.0. Siz ularni sinab ko'rishingiz mumkin. Lekin men boshqacha yo'l tutgan bo'lardim va yuqoridagi misolda ko'rsatilgandek, savol belgisi bo'lgan barcha havolalarni indekslashni taqiqlagan bo'lardim.

    3. Robots.txt -da indekslashni taqiqlash Joomla dublikatlari (index.php tugagan sahifalar) va boshqa keraksiz sahifalar.

    Joomla -dagi barcha dublikat sahifalar index.php bilan boshlanganligi sababli, ularning hammasini robots.txt - Disallow: /index.php -da bitta satr bilan indekslanishiga to'sqinlik qilishingiz mumkin. Bundan tashqari, bu bilan biz dublni taqiqlaymiz bosh sahifa"http://site.ru/" va "http://site.ru/index.php" saytlarida mavjud bo'lganda.

    4. 301 ta qayta yo'naltirishlar (qayta yo'naltirishlar) yordamida www bilan va www bo'lmagan domenni yopishtirish.

    Domenni www va unday yopishtirish uchun siz qayta yo'naltirish qilishingiz kerak - 301 ta qayta yo'naltirish. Buning uchun .htaccess fayliga yozing:

    Dvigatelni qayta yozing

    Agar siz aksincha http://site.ru saytidan www.site.ru saytiga yo'naltirishingiz kerak bo'lsa, yozuv shunday bo'ladi:

    Dvigatel yoqilgan
    RewriteCond% (HTTP_HOST) ^ site.ru
    RewriteRule (. *) Http://www.site.ru/$1

    5. Xost ko'rsatmasi Yandex uchun www bilan yoki bo'lmasdan asosiy domenni belgilaydi.

    O'z veb -saytini yaratgan veb -ustalar uchun, men ushbu xatboshida tasvirlangan qadamlarni bajarishga shoshilmang, avval robots.txt -ni to'g'ri tuzishingiz va Xost ko'rsatmasini yozishingiz kerak, bu asosiy domenni nazarda tutadi. Yandex.

    Bu shunday ko'rinadi:

    Foydalanuvchi-agent: Yandex
    Xost: site.ru

    Xost ko'rsatmasi faqat Yandex tomonidan tushuniladi. Google buni tushunmaydi.

    6. Joomla dublikat sahifalari .htaccess faylida bir -biriga yopishtirilgan.

    Ko'pincha, joomla saytining asosiy sahifasi http://site.ru/index.html yoki http://site.ru/index.php, http: //site.ru.html saytlarida mavjud. , bu asosiy sahifalarning dublikatlari (http://site.ru), albatta siz ularni robots.txt -da yopish orqali ulardan qutulishingiz mumkin, lekin buni .htaccess yordamida qilish yaxshidir. Buning uchun ushbu faylga quyidagilarni qo'shing:


    Agar index.php dublikatidan qutulish kerak bo'lsa, ushbu koddan foydalaning, o'z domeningizni http: // saytingiz.ru /o'rniga kodga qo'yishni unutmang.

    Muvaffaqiyatli yoki yo'qligini tekshirish uchun brauzerga ikki nusxadagi manzilni kiriting (http://site.ru/index.rhp), agar u ishlayotgan bo'lsa, siz http://site.ru sahifasiga yo'naltirilasiz. va bu qidiruv botlari bilan ham sodir bo'ladi va ular bu narsalarni ko'rmaydilar.

    Shunga o'xshab, biz Joomla dublikatlarini boshqa prefikslar bilan sizning asosiy sahifangiz URI -ga yopishtiramiz, faqat yuqorida bergan kodni tahrir qiling.

    7. Robots.txt -da sayt xaritasini ko'rsating

    Bu dublikatlarga taalluqli bo'lmasa -da, bunday harakat allaqachon boshlangani uchun, men robots.txt faylida sayt xaritasiga yo'lni ko'rsatishni tavsiya qilaman. xml formati qidiruv tizimlari uchun:

    Sayt xaritasi: http://domain.ru/sitemap.xml.gz
    Sayt xaritasi: http: //domain.ru/sitemap.xml

    Natija

    Yuqoridagilarni umumlashtirish uchun, Joomla uchun men bu satrlarni robots.txt da yozardim:

    Ruxsat bermang: /index.php

    Yandex uchun asosiy xostni ko'rsating

    Foydalanuvchi-agent: Yandex
    Xost: site.ru

    Va bu .htaccess -dagi satrlar

    # Domenni www va unday yopishtirish

    Dvigatelni qayta yozing
    RewriteCond% (HTTP_HOST) ^ www.site.ru
    RewriteRule ^ (. *) $ Http://site.ru/$1

    # Ikki nusxadagi sahifalarni yopishtirish

    RewriteCond% (THE_REQUEST) ^ (3.9) /index.php HTTP /
    RewriteRule ^ index.php $ http: // your site.ru /

    Agar siz dublikatlarni yo'q qilishning boshqa usullaridan foydalansangiz, yuqorida aytilganlarni qanday yaxshilashni bilasiz, yoki sizda bu mavzuda biror narsa deyish mumkin - yozing, men izohlarda kutaman.

    Ba'zi sahifalarni indekslashni qanday oldini olish mumkin?

    Indeksatsiyaga ruxsat va taqiqlarni hamma qabul qiladi qidiruv tizimlari fayldan robots.txt serverning asosiy katalogida joylashgan. Bir qator sahifalarni indeksatsiyalash taqiqlanishi, masalan, maxfiylik yoki bir xil hujjatlarni turli kodlashlarda indekslamaslik uchun paydo bo'lishi mumkin. Sizning serveringiz qanchalik kichik bo'lsa, robot tezroq uni chetlab o'tadi. Shuning uchun, robots.txt faylida indekslash uchun mantiqiy bo'lmagan barcha hujjatlarni taqiqlang (masalan, statistika fayllari yoki katalogdagi fayllar ro'yxati). CGI yoki ISAPI skriptlariga alohida e'tibor bering - bizning robot boshqa hujjatlar bilan birga ularni indekslaydi.

    Eng sodda shaklda (skriptlar katalogidan tashqari hamma narsaga ruxsat berilgan) robots.txt fayli shunday ko'rinadi:

    Foydalanuvchi-agent: *
    Ruxsat bermang: / cgi-bin /

    Fayl tavsifining batafsil tavsifini sahifada topishingiz mumkin: "".

    Robots.txt yozishda quyidagi keng tarqalgan xatolarga e'tibor bering:

    1. User-Agent maydoniga ega bo'lgan satr majburiy bo'lib, maydon bilan qatorlardan oldin bo'lishi kerak Ruxsat bermang... Masalan, quyidagi robots.txt fayli hech narsani taqiqlamaydi:

    Ruxsat bermang: / cgi-bin
    Ruxsat bermang: / forum

    2. robots.txt faylidagi bo'sh satrlar muhim, ular turli robotlar uchun yozuvlarni ajratib turadi. Masalan, robots.txt faylining keyingi qismida chiziq Ruxsat bermang: / forum e'tiborga olinmaydi, chunki uning oldida maydon bilan chiziq yo'q Foydalanuvchi-agent.

    Foydalanuvchi-agent: *
    Ruxsat bermang: / cgi-bin
    Ruxsat bermang: / forum

    3. Dala bilan chiziq Ruxsat bermang faqat bitta prefiks bilan hujjatlarni indekslashni taqiqlashi mumkin. Bir nechta prefikslarni taqiqlash uchun siz bir nechta qatorlarni yozishingiz kerak. Masalan, quyida ko'rsatilgan fayl "" dan boshlanadigan hujjatlarni indekslashni taqiqlaydi. / cgi-bin / forum"Ehtimol, ular mavjud emas (va prefiksli hujjatlar emas) / cgi-bin va / forum).

    Foydalanuvchi-agent: *
    Ruxsat bermang: / cgi-bin / forum

    4. Maydoni bor qatorlarda Ruxsat bermang mutlaq emas, nisbiy prefikslar yoziladi. Ya'ni, fayl

    Foydalanuvchi-agent: *
    Ruxsat bermang: www.myhost.ru/cgi-bin

    masalan, hujjatni indekslashni taqiqlaydi http://www.myhost.ru/www.myhost.ru/cgi-bin/counter.cgi lekin hujjatning indekslanishiga to'sqinlik qilmaydi http://www.myhost.ru/cgi-bin/counter.cgi.

    5. Maydonli qatorlarda Ruxsat bermang aniqlangan prefikslar, boshqa hech narsa emas. Shunday qilib, fayl:

    Foydalanuvchi-agent: *
    Ruxsat bermang: *

    hujjatlarni "*" belgisidan boshlab (tabiatda mavjud bo'lmagan) indekslashni taqiqlaydi va fayldan juda farq qiladi:

    Foydalanuvchi-agent: *
    Ruxsat bermang: /

    bu butun saytni indekslashni taqiqlaydi.

    Agar siz faylni yarata olmasangiz / o'zgartira olmasangiz robots.txt, keyin hamma narsa yo'qolmaydi - faqat qo'shimcha teg qo'shing sahifangizning HTML kodiga (teg ichida) ):

    Keyin bu hujjat shuningdek indekslanmaydi.

    Siz shuningdek tegdan foydalanishingiz mumkin

    Bu shuni anglatadiki, robot qidiruvi ushbu sahifadagi havolalarga rioya qilmasligi kerak.

    Bir vaqtning o'zida sahifani indekslashni taqiqlash va undan havolalarni ko'rib chiqish uchun tegdan foydalaning

    Matnning ayrim qismlarini indekslashni qanday oldini olish mumkin?

    Hujjatda matnning ayrim qismlarini indekslashni oldini olish uchun ularni teglar bilan belgilang

    Diqqat! NOINDEX yorlig'i boshqa teglarning joylashishini buzmasligi kerak. Agar siz quyidagi noto'g'ri qurilishni aniqlasangiz:


    ... kod 1 ...


    ... kod 2 ...

    ... kod 3 ...

    indekslashni taqiqlash "kod1" va "kod2" ni emas, balki "kod3" ni ham o'z ichiga oladi.

    Ko'p oynali usta virtual xostini qanday tanlash mumkin?

    Agar sizning saytingiz bitta serverda joylashgan bo'lsa (bitta IP), lekin tashqi dunyoda boshqa nomlar ostida ko'rinsa (oynalar, virtual xostlar), Yandex sizni indekslashni xohlagan nomni tanlashingizni tavsiya qiladi. Aks holda, Yandex asosiy oynani o'zi tanlaydi, qolgan nomlarni indekslash taqiqlanadi.

    Siz tanlagan oynani indekslash uchun boshqa barcha oynalarni indekslashni o'chirib qo'yish kifoya. Buni standart bo'lmagan robots.txt kengaytmasi - direktiv yordamida amalga oshirish mumkin Xost, asosiy oynaning nomini uning parametri sifatida ko'rsatish. Agar www.glavnoye-zerkalo.ru- asosiy oyna, keyin robots.txt shunga o'xshash bo'lishi kerak:

    Foydalanuvchi-agent: *
    Ruxsat bermang: / forum
    Ruxsat bermang: / cgi-bin
    Xost: www.glavnoye-zerkalo.ru

    Robots.txt-ni qayta ishlashda standartlarga to'liq mos kelmaydigan robotlar bilan muvofiqligi uchun, Xost ko'rsatmasi, yozishni taqiqlashdan so'ng, User-Agent yozuvidan boshlab guruhga qo'shilishi kerak.

    Direktivning argumenti Xost port raqami bo'lgan domen nomi ( 80 standart), ikki nuqta bilan ajratilgan. Agar biron -bir sayt argument sifatida ko'rsatilmagan bo'lsa Xost, bu direktivaning mavjudligini bildiradi Ruxsat bermang: /, ya'ni indekslashni to'liq taqiqlash (agar guruhda kamida bitta to'g'ri ko'rsatma bo'lsa) Xost). Shunday qilib, fayllar robots.txt turdagi

    Foydalanuvchi-agent: *
    Xost: www.myhost.ru

    Foydalanuvchi-agent: *
    Xost: www.myhost.ru:80

    tengdir va indekslashni taqiqlaydi www.otherhost.ru va www.myhost.ru:8080.

    Xost direktivasi parametri bitta to'g'ri xost nomidan (ya'ni mos keladigan) iborat bo'lishi kerak RFC 952 va IP -manzil emas) va tegishli port raqami. Noto'g'ri tuzilgan chiziqlar Xost e'tiborga olinmagan.

    # E'tibor berilmagan Xost ko'rsatmalariga misollar
    Xost: www.myhost- .ru
    Xost: www.- myhost.ru
    Xost: www.myhost.ru 0
    Xost: www.my_ host.ru
    Xost:. my-host.ru:8000
    Xost: my-host.ru.
    Xost: mening .. host.ru
    Xost: www.myhost.ru/
    Xost: www.myhost.ru:8080/
    Xost: http: // www.myhost.ru
    Xost: www.mysi.te
    Xost: 213.180.194.129
    Xost: www.firsthost.ru, www.secondhost.ru
    Xost: www.firsthost.ru www.secondhost.ru

    Agar sizda bo'lsa Apache server, keyin Xost ko'rsatmasidan foydalanish o'rniga, SSI ko'rsatmalari yordamida robots.txt ni o'rnatishingiz mumkin:


    Foydalanuvchi-agent: *
    Ruxsat bermang: /

    Ushbu faylda robotga barcha xostlarni skanerlash taqiqlangan www.main_name.ru

    SSI -ni qanday yoqish mumkin, siz serveringiz uchun hujjatlarni o'qishingiz yoki o'zingiz bilan bog'lanishingiz mumkin tizim ma'muri... Sahifalarni so'rab, natijani tekshirishingiz mumkin:

    Http://www.main_name.ru/robots.txt
    http: //www.other_name.ru/robots.txt va hokazo. Natijalar boshqacha bo'lishi kerak.

    Rus Apache veb -serveri uchun tavsiyalar

    Rus Apache -ga ega saytlarda robots.txt -da robotlar uchun asosiy koddan tashqari barcha kodlashlar taqiqlangan bo'lishi kerak.

    Agar kodlar portlar (yoki serverlar) tomonidan parchalansa, har xil portlarda (serverlarda) DIFFERENT robots.txt chiqarilishi kerak. Ya'ni, barcha portlar / serverlar uchun robots.txt fayllarida, "asosiy" dan tashqari, shunday yozilishi kerak:

    Foydalanuvchi-agent: *
    Ruxsat bermang: /

    Buning uchun siz SSI mexanizmidan foydalanishingiz mumkin.

    Agar Apache -dagi kodlashlar "virtual" kataloglarning nomlari bilan ajralib tursa, unda bitta robots.txt yozish kerak, unda taxminan quyidagi satrlar bo'lishi kerak (katalog nomlariga qarab):

    Foydalanuvchi-agent: *
    Ruxsat bermang: / dos
    Ruxsat bermang: / mac
    Ruxsat bermang: / koi