İndekslemeden hangi sayfaların kapatılacağı ve nasıl. Robots meta etiketinde sayfa dizine eklenmesini önleme

Son zamanlarda, denetim için bize gelen birçok sitenin sıklıkla aynı hatalara sahip olduğu gözlemini benimle paylaştı. Ayrıca, bu hatalar her zaman önemsiz olarak adlandırılamaz - hatta gelişmiş web yöneticileri bile yapar. Bu nedenle, bu tür hataları izlemek ve düzeltmek için talimatlar içeren bir dizi makale yazma fikri ortaya çıktı. İlk satır, site indekslemeyi ayarlamak için bir kılavuzdur. Sözü yazara veriyorum.

Sitenin iyi bir şekilde dizine eklenmesi ve daha iyi sayfa sıralaması için, arama motorunun sitenin ana tanıtılan sayfalarını atlaması ve sayfaların kendilerinde, hizmet ve yardımcı bilgilerin bolluğuyla karıştırılmadan ana içeriği doğru bir şekilde vurgulayabilmesi gerekir.
Analiz için bize gelen web sitelerinde iki tür hata vardır:

1. Bir siteyi tanıtırken, sahipleri arama botunun ne gördüğünü ve dizine ne eklediğini düşünmez. Bu durumda, dizinin tanıtılan sayfalardan daha fazla çöp sayfa içerdiği ve sayfaların aşırı yüklendiği bir durum ortaya çıkabilir.

2. Aksine, sahipleri siteyi temizlemek için çok gayretliydi. Gereksiz bilgilerin yanı sıra sayfaların tanıtımı ve değerlendirilmesi için önemli olan veriler gizlenebilir.

Bugün, arama robotlarından gerçekten neyin saklanmaya değer olduğunu ve bunun en iyi nasıl yapılacağını düşünmek istiyoruz. Sayfaların içeriğiyle başlayalım.

İçerik

Sitedeki içeriği kapatma ile ilgili sorunlar:

Sayfa, yalnızca metin göstergeleriyle değil, arama robotları tarafından kapsamlı bir şekilde değerlendirilir. Çeşitli blokların kapatılmasıyla taşınan, kullanışlılığı ve sıralamayı değerlendirmek için önemli olan bilgiler genellikle silinir.

İşte en yaygın hatalara bir örnek:
- site başlığı gizlidir. Genellikle iletişim bilgilerini, bağlantıları içerir. Site başlığı kapatılırsa, arama motorları ziyaretçilerle ilgilendiğinizi ve yerleştirdiğinizi bilmeyebilir. önemli bilgi belirgin bir yerde;

- filtreler, arama formu, sıralama indekslemeden gizlenmiştir. Bir çevrimiçi mağazada bu tür fırsatların varlığı, saklanması değil, gösterilmesi daha iyi olan önemli bir ticari göstergedir.
- ödeme ve teslimat ile ilgili bilgiler gizlenir. Bu, ürün kartlarının benzersizliğini artırmak için yapılır. Ancak bu aynı zamanda yüksek kaliteli bir ürün kartında bulunması gereken bilgilerdir.
- menü sayfalardan "kesilmiş", bu da sitede gezinme kolaylığının değerlendirilmesini bozuyor.

Sitedeki içeriğin bir kısmı neden kapalı?
Genellikle birkaç hedef vardır:
- yardımcı bilgileri, servis bloklarını, menüleri dizinden kaldırarak sayfadaki ana içeriğe odaklanmak;
- sitedeki yinelenen blokları kaldırarak sayfayı daha benzersiz ve kullanışlı hale getirin;
- "ekstra" metni kaldırın, sayfanın metin alaka düzeyini artırın.

Tüm bunlar, içeriğin bir kısmını gizlemeden başarılabilir!
Çok geniş bir menünüz var mı?
Sayfalarda yalnızca bölümle doğrudan ilgili öğeleri görüntüleyin.

Filtrelerde birçok seçenek var mı?
Ana kodda yalnızca popüler olanları görüntüleyin. Seçeneklerin geri kalanını yalnızca kullanıcı "tümünü göster" düğmesini tıkladığında yükleyin. Evet, burada komut dosyaları kullanılır, ancak aldatma yoktur - komut dosyası, kullanıcının isteği üzerine tetiklenir. Arama motoru tüm öğeleri bulabilecek, ancak değerlendirildiğinde sayfanın ana içeriği ile aynı değeri almayacak.

Sayfada büyük blok haberlerle mi?
Sayılarını azaltın, yalnızca başlıkları görüntüleyin veya kullanıcılar nadiren içindeki bağlantıları takip ediyorsa veya sayfada çok az ana içerik varsa haber bloğunu kaldırın.

Arama robotları ideal olmaktan uzak olsa da sürekli gelişiyor. Zaten Google, Google Arama Konsolu panelinde ("Engellenen Kaynaklar" sekmesi) bir hata olarak komut dosyalarının dizine eklenmesini gizlemeyi gösteriyor. İçeriğin bir kısmını robotlara göstermemek gerçekten yararlı olabilir, ancak bu bir optimizasyon yöntemi değil, yalnızca kesinlikle gerekli olduğunda kullanılması gereken geçici "koltuk değneği" dir.

Öneririz:
- içeriği gizlemeyi bir "koltuk değneği" olarak ele alın ve onu yalnızca aşırı durumlarda, sayfanın kendisini değiştirmeye çalışarak kullanın;
- içeriğin bir kısmını sayfadan kaldırmak, yalnızca metin göstergelerine odaklanmak değil, aynı zamanda etkileyen kolaylık ve bilgileri de değerlendirmek;
- içeriği gizlemeden önce, birkaç test sayfasında bir deneme yapın. Arama botları, sayfaları nasıl ayrıştıracağını bilir ve alaka düzeyinin azalmasıyla ilgili korkularınız boşuna olabilir.

İçeriği gizlemek için kullanılan yöntemlere bir göz atalım:

noindex etiketi

Bu yöntemin birkaç dezavantajı vardır. Her şeyden önce, bu etiket yalnızca Yandex tarafından dikkate alınır, bu nedenle Google'dan metin gizlemek için işe yaramaz. Ek olarak, etiketin indekslemeyi ve arama sonuçlarında yalnızca metin görüntülemeyi yasakladığını anlamak önemlidir. Bağlantılar gibi içeriğin geri kalanı kapsanmamıştır.

Yandex desteği, noindex'in nasıl çalıştığını gerçekten kapsamaz. Resmi blogdaki tartışmalardan birinde biraz daha bilgi var.

Kullanıcı sorusu:

"Eylemin mekaniği ve etiketin sıralamasına etkisi tam olarak anlaşılmış değil. Metin... Sonra, neden bu kadar şaşkın olduklarını açıklayacağım. Ve şimdi - 2 hipotez var, gerçeği bulmak istiyorum.

# 1 Noindex, sayfanın sıralamasını / alaka düzeyini hiç etkilemez

Bu varsayım altında: yaptığı tek şey, içeriğin bir kısmının arama sonuçlarında görünmesini engellemektir. Bu durumda, sayfanın tamamı kapalı bloklar, alaka düzeyi ve ilgili parametreler (benzersizlik; uygunluk vb.) dahil olmak üzere bir bütün olarak kabul edilir, çünkü kapalı olsa bile koddaki tüm içeriğe göre hesaplanır.

# 2 Noindex, etikette kapatılan içerik hiç derecelendirilmediği için sıralamayı ve alaka düzeyini etkiler. Buna göre, bunun tersi doğrudur. Sayfa, robotlara açık içeriğe göre sıralanacaktır."

Etiket ne zaman faydalı olabilir:
- aşırı optimizasyon nedeniyle sayfanın Yandex arama sonuçlarında düşürüldüğüne dair bir şüphe varsa, ancak aynı zamanda Google'da önemli ifadeler için ÜST konumlarda yer alıyorsa. Bunun hızlı ve geçici bir çözüm olduğunu anlamalısınız. Tüm site "Baden-Baden" kapsamına girerse, Yandex temsilcilerinin defalarca onayladığı gibi noindex yardımcı olmaz;
- kurumsal veya yasal düzenlemeler nedeniyle sayfada belirtmeniz gereken genel mülkiyet bilgilerini gizlemek için;
- istenmeyen içerik barındırıyorlarsa, Yandex'deki pasajları düzeltmek için.

AJAX ile içeriği gizleme

Bu evrensel yöntem... İçeriği hem Yandex'den hem de Google'dan gizlemenizi sağlar. Alaka düzeyini azaltan içerik sayfasını temizlemek istiyorsanız, onu kullanmak daha iyidir. PS temsilcileri elbette bu yöntemi hoş karşılamıyor ve arama robotlarının kullanıcılarla aynı içeriği görmesini tavsiye ediyor.
AJAX kullanma teknolojisi yaygındır ve açık bir şekilde gizleme yapmazsanız, kullanımı için herhangi bir yaptırım tehdidi yoktur. Bu yöntemin dezavantajı, Yandex ve Google bunu önermese de, komut dosyalarına erişimi engellemeniz gerektiğidir.

Site sayfaları

Başarılı tanıtım için sadece sayfalardaki gereksiz bilgilerden kurtulmak değil, aynı zamanda temizlemek de önemlidir. arama dizini gereksiz çöp sayfalardan site.
İlk olarak, sitenin ana tanıtılan sayfalarının dizine eklenmesini hızlandıracaktır. İkincisi, endeksteki varlığı Büyük bir sayıönemsiz sayfalar sitenin reytingini ve tanıtımını olumsuz etkileyecektir.

Gizlenmesi tavsiye edilen sayfaları hemen listeleyelim:

- uygulama kayıt sayfaları, kullanıcı sepetleri;
- site arama sonuçları;
- kullanıcıların kişisel bilgileri;
- ürün karşılaştırma sonuç sayfaları ve benzeri yardımcı modüller;
- arama filtreleri ve sıralama ile oluşturulan sayfalar;
- sitenin idari bölümünün sayfaları;
- baskı sürümleri.

Sayfaları dizine eklemekten nasıl kapatabileceğinizi ele alalım.

robots.txt'de kapat

Bu en iyi yöntem değil.

İlk olarak, robots dosyası yinelenenlerle mücadele etmek ve siteleri gereksiz sayfalardan temizlemek için tasarlanmamıştır. Bu amaçlar için, diğer yöntemleri kullanmak daha iyidir.

İkincisi, bir robots dosyası, sayfanın dizine eklenmeyeceğinin garantisi değildir.

Google, yardımlarında bu konuda şunları yazıyor:

Noindex meta etiketi

Sayfaların dizinden dışlanmasını sağlamak için bu meta etiketi kullanmak en iyisidir.

Aşağıda, her iki arama motorunun da anladığı meta etiketin bir çeşidi bulunmaktadır:

Önemli bir nokta!

Googlebot'un noindex meta etiketini görmesi için robots.txt dosyasında kapalı olan sayfalara erişimi açmanız gerekir. Bu yapılmazsa, robot bu sayfalara gitmeyebilir.

X-Robots-Tag Başlıkları

Bu yöntemin önemli bir avantajı, yasağın yalnızca sayfa koduna değil, aynı zamanda kök .htaccess dosyası aracılığıyla da yerleştirilebilmesidir.

Bu yöntem Rus İnternetinde çok yaygın değildir. Bu durumun temel nedeninin Yandex'in bu yöntemi olduğuna inanıyoruz. uzun zaman desteklemedi.
Bu yıl Yandex çalışanları, yöntemin artık desteklendiğini yazdı.

Destek yanıtı ayrıntılı olarak adlandırılamaz))). X-Robots-Tag kullanarak indekslemeyi yasaklamaya geçmeden önce, bu yöntemin Yandex için çalıştığından emin olmak daha iyidir. Bu konudaki deneylerimizi henüz kurmadık, ama belki yakın gelecekte yapacağız.

Şifre koruması

Tüm siteyi, örneğin test sürümünü gizlemeniz gerekiyorsa, bu yöntemi de kullanmanızı öneririz. Belki de tek dezavantajı, bir parola altında gizlenmiş bir alanı taramanız gerektiğinde bunun zor olabileceğidir.

AJAX ile gereksiz sayfaları ortadan kaldırın

Mesele sadece filtreler, sıralama vb. ile oluşturulan sayfaların indekslenmesini yasaklamak değil, sitede bu tür sayfaları hiç oluşturmamaktır.

Örneğin, bir kullanıcı sizin için ayrı bir sayfa oluşturmadığınız arama filtresinde bir dizi parametre seçtiyse, URL'nin kendisini değiştirmeden sayfada görüntülenen ürünlerde değişiklikler meydana gelir.

Bu yöntemin zorluğu, genellikle tüm vakalara aynı anda uygulanamamasıdır. Oluşturulan sayfalardan bazıları tanıtım için kullanılır.

Örneğin, filtre sayfaları. "Buzdolabı + Samsung + beyaz" için bir sayfaya ihtiyacımız var, ancak "buzdolabı + Samsung + beyaz + iki bölmeli + donma yok" için - artık yok.

Bu nedenle, istisnaların oluşturulmasını içeren bir araç yapmanız gerekir. Bu, programcıların işini zorlaştırır.

Arama algoritmalarından indekslemeyi yasaklama yöntemlerini kullanın

Google Arama Konsolunda URL Parametreleri

Bu araç, oluşumun nasıl tanımlanacağını belirlemenizi sağlar. sayfaların URL'si yeni parametreler.

robots.txt dosyasında temiz param yönergesi

Yandex'de, Clean-param yönergesi kullanılarak URL parametreleri için benzer bir yasak ayarlanabilir.
Bu konuda okuyabilirsiniz.

Sitedeki çöp sayfaların önlenmesi için kanonik adresler
Bu meta etiket, özellikle sitedeki kopyalar ve gereksiz sayfalarla mücadele etmek için oluşturulmuştur. Dizinde görünen yinelenen ve çöp sayfaların önlenmesi için site genelinde reçete etmenizi öneririz.

Yandex ve Google dizininden sayfaların noktasal olarak silinmesi için araçlar

Engellemenizin arama işleri tarafından görülmesini beklemeden, acilen dizinden bilgi kaldırmanız gerektiğinde bir durum ortaya çıktıysa, Yandex.Webmaster panelinden ve Google Search Console'dan araçlar kullanabilirsiniz.

Yandex'de bu "URL'yi Kaldır":

Google Arama Konsolunda "URL'yi Kaldır":

Dahili bağlantılar

Dahili bağlantılar, dahili ağırlıkları ana tanıtılan sayfalara yeniden dağıtmak için indekslemeden kapatılır. Ama mesele şu:
- böyle bir yeniden dağıtımın üzerinde kötü bir etkisi olabilir genel bağlar sayfalar arasında;
- şablonlu uçtan uca bloklardan gelen bağlantılar genellikle daha az ağırlığa sahiptir veya hiç sayılmayabilir.

Bağlantıları gizlemek için kullanılan seçenekleri göz önünde bulundurun:

noindex etiketi

Bu etiket, bağlantıları gizlemek için işe yaramaz. Yalnızca metin için geçerlidir.

Rel = "nofollow" özelliği

Şu anda özellik, sayfada ağırlıktan tasarruf etmenize izin vermiyor. rel = ”nofollow” kullanmak sadece kilo verir. Kendi başına, dahili bağlantılar için etiketi kullanmak çok mantıklı görünmüyor.

Komut dosyalarıyla bağlantıları gizleme

Bu aslında arama motorlarından bağlantıları gizleyebileceğiniz tek çalışma yöntemidir. Sayfayı yükledikten sonra Ajax kullanabilir ve bağlantı bloklarını yükleyebilir veya etiketi komut dosyasıyla değiştirerek bağlantılar ekleyebilirsiniz. üzerinde ... Arama algoritmalarının komut dosyalarını tanıyabildiğini akılda tutmak önemlidir.

İçerikte olduğu gibi, bu bazen bir sorunu çözebilecek bir koltuk değneğidir. Gizli bağlantı bloğundan olumlu bir etki alacağınızdan emin değilseniz, bu tür yöntemleri kullanmamak daha iyidir.

Çözüm

Bir sayfadan hantal uçtan uca blokları kaldırmak, sıralama üzerinde gerçekten olumlu bir etkiye sahip olabilir. Bunu, sayfayı kısaltarak ve yalnızca ziyaretçilerin ihtiyaç duyduğu içeriği görüntüleyerek yapmak daha iyidir. İçeriği bir arama motorundan gizlemek, yalnızca uçtan uca blokları başka yollarla azaltmanın imkansız olduğu durumlarda kullanılması gereken bir koltuk değneğidir.

Sayfadan içeriğin bir kısmını kaldırırken, sıralama için sadece metin kriterlerinin değil, aynı zamanda bilgi ve ticari faktörlerin eksiksizliğinin de önemli olduğunu unutmayın.

Durum iç bağlantılar ile benzer. Evet bazen faydalı olabilir ama sitedeki link kitlesinin yapay olarak yeniden dağıtılması tartışmalı bir yöntemdir. Emin olmadığınız bağlantıları basitçe atmak çok daha güvenli ve daha güvenilirdir.

Sitenin sayfaları ile her şey daha açık. Az kullanılan gereksiz sayfaların dizine girmemesini sağlamak önemlidir. Bunun için bu yazıda topladığımız ve anlattığımız birçok yöntem var.

Optimizasyonun teknik yönleriyle ilgili tavsiyemizi her zaman alabilir veya aşağıdakileri içeren anahtar teslim bir promosyon sipariş edebilirsiniz.

Çoğu robot iyi tasarlanmış ve site sahipleri için herhangi bir sorun teşkil etmiyor. Ancak bir bot amatör tarafından yazılırsa veya "bir şeyler ters gitti" ise, sitede atladığı önemli bir yük oluşturabilir. Bu arada, örümcekler sunucuya virüsler gibi girmezler - sadece ihtiyaç duydukları sayfaları uzaktan isterler (aslında, tarayıcılara benzerler, ancak sayfaları görüntüleme işlevi yoktur).

Robots.txt - kullanıcı aracısı yönergesi ve arama motoru botları

Robots.tht, örneğin şurada ayrıntılı olarak açıklanan tamamen karmaşık olmayan bir sözdizimine sahiptir: Yandex yardımı ve Google yardımı... Genellikle aşağıda açıklanan yönergelerin hangi arama botu için olduğunu belirtir: bot name (" kullanıcı aracısı"), izin vermek (" İzin vermek") ve yasaklayan (" izin verme") ve ayrıca arama motorlarına harita dosyasının tam olarak nerede olduğunu belirtmek için aktif olarak kullanılan" Site Haritası ".

Standart uzun zaman önce oluşturuldu ve daha sonra bir şeyler eklendi. Yalnızca belirli arama motorlarının robotlarının anlayabileceği yönergeler ve tasarım kuralları vardır. Runet'te yalnızca Yandex ve Google ilgi çekicidir, yani robots.txt'yi derlemek için onların yardımı ile kendinizi ayrıntılı olarak tanımanız gerekir (bağlantıları önceki paragrafta verdim).

Örneğin, daha önce, Yandex arama motorunun, web projenizin yalnızca bu arama motorunun anladığı özel "Ana Bilgisayar" yönergesindeki ana proje olduğunu belirtmesi yararlıydı (peki, ayrıca Mail.ru, çünkü bir arama yaptıkları için). Yandex'den). Doğru, 2018'in başında Yandex hala Host'u iptal etti ve şimdi işlevi, diğer arama motorlarının işlevi gibi, bir 301 yönlendirmesi tarafından gerçekleştiriliyor.

Kaynağınızın aynaları olmasa bile, yazım seçeneklerinden hangisinin ana olduğunu belirtmek faydalı olacaktır -.

Şimdi biraz bu dosyanın sözdiziminden bahsedelim. Robots.txt yönergeleri şöyle görünür:

<поле>:<пробел><значение><пробел> <поле>:<пробел><значение><пробел>

Doğru kod şunları içermelidir en az bir "İzin Verme" yönergesi her "Kullanıcı-aracı" girişinden sonra. Boş bir dosya, tüm siteyi indeksleme iznini varsayar.

kullanıcı aracısı

Kullanıcı aracısı yönergesi arama botunun adını içermelidir. Bunu kullanarak, her belirli arama motoru için davranış kurallarını yapılandırabilirsiniz (örneğin, yalnızca Yandex için belirli bir klasörü endeksleme yasağı oluşturun). Kaynağınıza giren tüm botlara yönelik "Kullanıcı aracısı" yazma örneği şuna benzer:

Kullanıcı aracısı: *

"Kullanıcı aracısında" yalnızca bir bot, örneğin Yandex için belirli koşullar ayarlamak istiyorsanız, aşağıdaki gibi yazmanız gerekir:

Kullanıcı aracısı: Yandex

Arama motoru robotlarının adı ve robots.txt dosyasındaki rolleri

Her arama motorunun botu kendi adı vardır (örneğin, bir gezgin için bu StackRambler'dır). Burada en ünlülerini listeleyeceğim:

Google http://www.google.com Googlebot Yandex http://www.ya.ru Yandex Bing http://www.bing.com/ bingbot

Büyük arama motorları bazen, ana botlar hariç, ayrıca blogları, haberleri, resimleri vb. dizine eklemek için ayrı kopyalar da vardır. Bot türleri (Yandex için) ve (Google için) hakkında birçok bilgi bulabilirsiniz.

Bu durumda nasıl olunur? Her tür Google robotunun uyması gereken dizine eklemeyi yasaklamak için bir kural yazmanız gerekiyorsa, Googlebot adını kullanın ve bu arama motorunun diğer tüm örümcekleri de uyacaktır. Ancak, örneğin yalnızca Googlebot-Image'ı Kullanıcı aracısı olarak belirterek resimleri dizine eklemeyi yasaklayabilirsiniz. Şimdi çok net değil ama örneklerle daha kolay olacağını düşünüyorum.

Robots.tht'de Disallow ve Allow yönergelerini kullanma örnekleri

birkaç basit vereceğim yönergeleri kullanma örnekleri eylemlerinin bir açıklaması ile.

Aşağıdaki kod, tüm botların (Kullanıcı aracısında bir yıldızla gösterilir) istisnasız tüm içeriği dizine eklemesine izin verir. bu verilir boş yönerge İzin verme... Kullanıcı aracısı: * İzin verme:
Aşağıdaki kod, aksine, tüm arama motorlarının bu kaynağın sayfalarını dizine eklemesini tamamen yasaklar. Değer alanında "/" ile İzin Verme olarak ayarlar. Kullanıcı aracısı: * İzin verme: /
Bu durumda, tüm botların / image / dizininin içeriğini görüntülemesi yasaklanacaktır (http://mysite.ru/image/ bu dizinin mutlak yoludur) User-agent: * Disallow: / image /
Bir dosyayı engellemek için onun mutlak yolunu kaydetmeniz yeterli olacaktır (okuyun): User-agent: * Disallow: /katalog1//katalog2/private_file.html
Biraz ilerleyerek, tam yolu yazmamak için yıldız (*) sembolünü kullanmanın daha kolay olduğunu söyleyeceğim:
İzin verme: /*private_file.html
Aşağıdaki örnekte, "image" dizini ve "image" karakterleriyle başlayan tüm dosya ve dizinler, yani dosyalar: "image.htm", "images.htm", dizinler: "image" yasaklanacaktır. ", " images1 "," image34 ", vb.): Kullanıcı aracısı: * Disallow: / image Gerçek şu ki, varsayılan olarak, kaydın sonunda, yoklukları da dahil olmak üzere herhangi bir karakterin yerini alan bir yıldız işareti ima edilir. . Aşağıda bunun hakkında okuyun.
Vasıtasıyla Direktiflere izin ver erişime izin veriyoruz. Tamamlar İyi izin verme. Örneğin, böyle bir koşulla, Yandex arama robotunun, adresi / cgi-bin: User-agent: Yandex Allow: / cgi-bin Disallow: / ile başlayan web sayfaları dışında her şeyi indirmesini (dizine eklemesini) yasaklarız.
Peki, ya da İzin Ver ve İzin Verme kombinasyonunu kullanmanın çok açık bir örneği:
Kullanıcı aracısı: * İzin verme: / katalog İzin ver: / katalog / otomatik
İzin Ver-İzin Verme yönergeleri için yolları tanımlarken sembolleri kullanabilirsiniz. "*" ve "$", böylece belirli mantıksal ifadeleri ayarlar.
1. Sembol "*"(Yıldız) herhangi bir (boş dahil) karakter dizisi anlamına gelir. Aşağıdaki örnek, tüm arama motorlarının ".php" uzantılı dosyaları dizine eklemesini yasaklar: User-agent: * Disallow: * .php $
2. Sonunda neden gerekli $ (dolar) işareti? Gerçek şu ki, robots.txt dosyasının mantığına göre, her yönergenin sonuna varsayılan bir yıldız işareti eklenir (orada değil ama orada gibi görünüyor). Örneğin şunu yazıyoruz: İzin Verme: / resimler
  Bunun aynı olduğunu ima ederek:
  İzin verme: / resimler *
  Onlar. bu kural, adresi / images ile başlayan ve ardından herhangi bir şey gelen tüm dosyaların (web sayfaları, resimler ve diğer dosya türleri) endekslenmesini yasaklar (yukarıdaki örneğe bakın). Böyle, sembol $ yalnızca bu varsayılan (bölünmemiş) sondaki yıldız işaretini geçersiz kılar. Örneğin:
  İzin verme: / resimler $
  Yalnızca /images dosyasının indekslenmesini yasaklar, ancak /images.html veya /images/primer.html'yi yasaklamaz. İlk örnekte, gereksiz bir şey yakalamamak için yalnızca .php ile biten (böyle bir uzantıya sahip) dosyaları dizine eklemeyi yasakladık:
  İzin verme: * .php $

Birçok motorda, kullanıcılar (insan tarafından okunabilen url'ler), sistem tarafından oluşturulan url'lerde soru işareti "?" adreste. Bunu kullanabilir ve robots.txt dosyasına böyle bir kural yazabilirsiniz: User-agent: * Disallow: / *?

Soru işaretinden sonraki yıldız işareti kendini gösteriyor, ancak biraz yukarıda öğrendiğimiz gibi, zaten sonunda ima ediliyor. Bu nedenle, arama sayfalarının ve diğerlerinin dizine eklenmesini yasaklayacağız. hizmet sayfaları arama robotunun ulaşabileceği motor tarafından oluşturulur. Gereksiz olmayacak çünkü soru işareti çoğunlukla CMS tarafından bir oturum tanımlayıcısı olarak kullanılıyor ve bu da dizinde yinelenen sayfalara yol açabiliyor.

Robots.txt'de Site Haritası ve Ana Bilgisayar yönergeleri (Yandex için)

Site aynalarıyla ilgili hoş olmayan sorunlardan kaçınmak için, daha önce Yandex botunu ana aynaya yönlendiren robots.txt'ye Host yönergesinin eklenmesi önerildi.

Ana bilgisayar yönergesi - Yandex için ana site aynasını belirtir

Örneğin, daha önce, eğer henüz güvenli protokole geçmedi, Ana Bilgisayarda tam URL'yi belirtmek gerekli değildi, ancak Alan adı(http://, yani ru olmadan). Zaten https'ye geçtiyseniz, tam URL'yi (https://myhost.ru gibi) belirtmeniz gerekir.

Yinelenen içerikle başa çıkmak için harika bir araç - Canonical'da başka bir URL kayıtlıysa arama motoru sayfayı dizine eklemez. Örneğin, blogumun böyle bir sayfası için (sayfalamalı sayfa) Canonical, https: // sitesini işaret eder ve yinelenen başlıklarla ilgili herhangi bir sorun olmamalıdır.

Ama dikkatim dağıldı...
Projeniz herhangi bir motoru temel alıyorsa, o zaman içeriğin çoğaltılması gerçekleşecek yüksek bir olasılıkla, bu, robots.txt'deki ve özellikle meta etiketteki bir yasak yardımı da dahil olmak üzere, bununla başa çıkmanız gerektiği anlamına gelir, çünkü ilk durumda, Google yasağı görmezden gelebilir, ancak veremez. meta etiket hakkında lanet olsun (böylece gündeme getirildi).
Örneğin, WordPress sayfaları Kategorilerin içerikleri, etiket arşivinin içeriği ve geçici arşivlerin içeriği için indekslemeye izin verilirse, çok benzer içeriğe sahip arama motorlarının indeksine girebilir. Ancak, yukarıda açıklanan Robots meta etiketini kullanarak, etiket arşivi ve geçici arşiv için bir yasak oluşturursanız (etiketleri bırakabilirsiniz, ancak kategorilerin içeriğinin indekslenmesini yasaklayabilirsiniz), o zaman içerik kopyası olmaz. Bunun nasıl yapılacağı hemen yukarıda verilen bağlantıda açıklanmıştır (OlInSeoPak eklentisi için)
Özetlemek gerekirse, Robots dosyasının, tüm site dizinlerine veya adları belirtilen karakterleri (maske ile) içeren dosya ve klasörlere erişimi reddetmek için genel kurallar belirlemek üzere tasarlandığını söyleyeceğim. Bu tür yasaklamaların örneklerini hemen yukarıda görebilirsiniz.
Şimdi farklı motorlar için tasarlanmış belirli robot örneklerine bakalım - Joomla, WordPress ve SMF. Doğal olarak, farklı CMS için oluşturulan üç seçeneğin tümü, birbirinden önemli ölçüde (radikal olarak değilse) farklılık gösterecektir. Doğru, hepsinin bir tane olacak genel nokta, ve bu an Yandex arama motoruyla ilişkilendirilir.
Çünkü Runet Yandex'de oldukça büyük bir ağırlığa sahip, o zaman çalışmasının tüm nüanslarını hesaba katmanız gerekiyor ve burada biz Host yönergesi yardımcı olacaktır... Bu arama motorunu açıkça sitenizin ana aynasına yönlendirecektir.
Onun için, yalnızca Yandex'e yönelik ayrı bir Kullanıcı aracısı blogunun kullanılması önerilir (Kullanıcı aracısı: Yandex). Bunun nedeni, diğer arama motorlarının Host'u anlayamayabilmesi ve buna bağlı olarak tüm arama motorlarına yönelik Kullanıcı-aracı kaydına dahil edilmesi (Kullanıcı-aracı: *) olumsuz sonuçlara ve yanlış indekslemeye yol açabilir.
Gerçek durumun ne olduğunu söylemek zor, çünkü arama algoritmaları başlı başına bir şeydir, bu yüzden tavsiye edildiği gibi yapmak daha iyidir. Ancak bu durumda, User-agent: Yandex yönergesinde belirlediğimiz tüm kuralları User-agent: * . User-agent: Yandex'i Boş İzin Verme: ile bırakırsanız, bu şekilde Yandex'in herhangi bir yere gitmesine ve her şeyi dizine sürüklemesine izin vermiş olursunuz.
WordPress için Robotlar
Geliştiriciler tarafından önerilen bir dosya örneği vermeyeceğim. Kendiniz izleyebilirsiniz. Birçok blogcu, WordPress motorunun içeriğindeki yürüyüşlerinde Yandex ve Google botlarını hiç kısıtlamaz. Çoğu zaman bloglarda, otomatik olarak bir eklentiyle doldurulmuş robotlar bulabilirsiniz.
Ama bence, aynı şekilde, samandan tahılları elemek gibi zor bir görevde aramaya yardımcı olmak gerekiyor. İlk olarak, Yandex ve Google botlarının bu çöpü dizine eklemesi çok zaman alacaktır ve dizine yeni makalelerinizle web sayfaları eklemek için hiç zaman olmayabilir. İkinci olarak, motor önemsiz dosyalarında gezinen botlar, ana makinenizin sunucusunda iyi olmayan ek yük oluşturacaktır.
Bu dosyanın benim versiyonumu kendiniz görebilirsiniz. Eskidir, uzun süredir değişmemiştir, ancak “kırılmayanı tamir etme” ilkesini izlemeye çalışıyorum ve bu size kalmış: kullan, kendin yap ya da birini gözetle Başka. Yakın zamana kadar orada sayfalamalı sayfaları indeksleme yasağım var (İzin verme: * / sayfa /), ancak son zamanlarda yukarıda yazdığım Canonical'e güvenerek kaldırdım.
Ama genel olarak, tek doğru dosya WordPress için muhtemelen mevcut değil. İçinde herhangi bir ön koşulu gerçekleştirmek elbette mümkündür, ancak kim söylediyse doğru olacaktır. Web'de ideal robots.txt için birçok seçenek vardır.
iki uç nokta vereceğim:
ayrıntılı açıklamalar içeren bir mega dosya bulabilirsiniz (# simgesi, gerçek bir dosyada daha iyi kaldırılacak yorumları ayırır): Kullanıcı aracısı: * # Yandex ve Google hariç robotlar için genel kurallar, # beri onlar için kurallar aşağıdadır Disallow: / cgi-bin # hosting üzerinde klasör Disallow: /? # ana üzerinde tüm istek parametreleri İzin verme: / wp- # tüm WP dosyaları: / wp-json /, / wp-includes, / wp-content / eklentiler İzin verme: / wp / # bir alt dizin varsa / wp / burada CMS kurulu ( değilse, # kural silinebilir) İzin verme: *? s = # arama İzin verme: * & s = # arama İzin verme: / arama / # arama İzin verme: / yazar / # yazarın arşivi İzin verme: / kullanıcılar / # yazar arşivi İzin verme: * / geri izleme # geri izleme, bir makaleye açık # bağlantının görünümü hakkında yorumlardaki bildirimler İzin verme: * / feed # tüm beslemeler İzin verme: * / rss # rss feed İzin verme: * / embed # tüm embeds İzin verme: * / wlwmanifest.xml # xml bildirim dosyası Windows Canlı Writer (kullanılmazsa, # kural silinebilir) İzin verme: /xmlrpc.php # WordPress API dosyası İzin verme: * utm = # utm etiketli bağlantılar İzin verme: * openstat = # openstat etiketli bağlantılar İzin ver: * / yüklemeler # açık yüklenen klasör Kullanıcı aracısı: GoogleBot # Google kuralları (yinelenen yorum yok) İzin verme: / cgi-bin İzin verme: /? Disallow: / wp- Disallow: / wp / Disallow: *? S = Disallow: * & s = Disallow: / search / Disallow: / yazar / Disallow: / users / Disallow: * / trackback Disallow: * / feed İzin Verme: * / rss İzin Verme: * / embed İzin Verme: * / wlwmanifest.xml İzin Verme: /xmlrpc.php İzin Verme: * utm = İzin Verme: * openstat = İzin Ver: * / uploads İzin Ver: /*/*.js # open js scripts inside / wp - (/ * / - öncelik için) İzin ver: /*/*.css # içeride css dosyalarını aç / wp- (/ * / - öncelik için) İzin ver: /wp-*.png Eklentilerde, önbellek klasöründe vb. # resim . İzin ver: /wp-*.jpg # eklentilerdeki resimler, önbellek klasörü vb. İzin ver: /wp-*.jpeg # eklentilerdeki resimler, önbellek klasörü vb. İzin ver: /wp-*.gif # eklentilerdeki resimler, önbellek klasörü vb. İzin ver: /wp-admin/admin-ajax.php # JS ve CSS'yi engellememek için eklentiler tarafından kullanılır Kullanıcı aracısı: Yandex # Yandex için kurallar (yinelenen yorum yok) İzin verme: / cgi-bin İzin verme: /? Disallow: / wp- Disallow: / wp / Disallow: *? S = Disallow: * & s = Disallow: / search / Disallow: / yazar / Disallow: / users / Disallow: * / trackback Disallow: * / feed İzin Verme: * / rss İzin Verme: * / embed İzin Verme: * / wlwmanifest.xml İzin Verme: /xmlrpc.php İzin Ver: * / uploads İzin Ver: /*/*.js İzin Ver: /*/*.css İzin Ver: /wp-*.png İzin Ver : /wp-*.jpg İzin Ver: /wp-*.jpeg İzin Ver: /wp-*.gif İzin Ver: /wp-admin/admin-ajax.php Temiz Param: utm_source & utm_medium & utm_campaign # Yandex kapatılmamasını önerir # indekslemeden, ancak etiketlerin parametrelerini silmek için, # Google bu tür kuralları desteklemez Clean-Param: openstat # benzer şekilde # Bir veya daha fazla Site Haritası dosyası belirtin (her Kullanıcı-aracı # için çoğaltmanız gerekmez). Google XML Site Haritası aşağıdaki örnekte olduğu gibi 2 site haritası oluşturur. Site Haritası: http://site.ru/sitemap.xml Site Haritası: http://site.ru/sitemap.xml.gz # Aşağıdaki örnekte olduğu gibi sitenin ana aynasını belirtin (WWW ile / WWW olmadan, eğer HTTPS # ardından protokol yazın, port belirtmeniz gerekiyorsa belirtiyoruz). Host komutu # Yandex ve Mail.RU tarafından anlaşılır, Google dikkate almaz. Ev sahibi: www.site.ru
Ancak bir minimalizm örneği alabilirsiniz: User-agent: * Disallow: / wp-admin / Allow: /wp-admin/admin-ajax.php Ana Bilgisayar: https://site.ru Site Haritası: https://site. ru / site haritası.xml

Gerçek muhtemelen ortada bir yerde yatıyor. Ayrıca, örneğin harika bir eklenti kullanarak "ekstra" sayfalar için Robots meta etiketini eklemeyi unutmayın -. Ayrıca Canonical'i yapılandırmanıza yardımcı olacaktır.
Joomla için doğru robots.txt
Kullanıcı aracısı: * İzin Verme: / yönetici / İzin Verme: / bin / İzin Verme: / önbellek / İzin Verme: / cli / İzin Verme: / bileşenler / İzin verme: / içerir / İzin verme: / yükleme / İzin verme: / dil / İzin verme: / düzenler / İzin verme: / kitaplıklar / İzin verme: / günlükler / İzin verme: / modüller / İzin verme: / eklentiler / İzin verme: / tmp /
Prensip olarak, burada hemen hemen her şey dikkate alınır ve iyi çalışır. Tek şey, ayrı bir User-agent: Yandex kuralı eklemek, Yandex için ana aynayı tanımlayan Host yönergesini eklemek ve Site Haritası dosyasının yolunu belirtmektir.
Bu nedenle, son haliyle, bence Joomla için doğru robotlar şöyle görünmelidir:
Kullanıcı aracısı: Yandex İzin verme: / yönetici / İzin verme: / önbellek / İzin verme: / içerir / İzin verme: / kurulum / İzin verme: / dil / İzin verme: / kitaplıklar / İzin verme: / modüller / İzin verme: / eklentiler / İzin verme: / tmp / Disallow: / layouts / Disallow: / cli / Disallow: / bin / Disallow: / logs / Disallow: / component / Disallow: / component / Disallow: / component / etiketler * Disallow: / * mailto / Disallow: /*.pdf : / *% İzin Verme: /index.php Ana Bilgisayar: vash_sait.ru (veya www.vash_sait.ru) Kullanıcı aracısı: * İzin Ver: /*.css?*$ İzin Ver: /*.js?*$ İzin Ver: / * .jpg? * $ İzin Ver: /*.png?*$ İzin Verme: / yönetici / İzin Verme: / önbellek / İzin Verme: / içerir / İzin Verme: / kurulum / İzin Verme: / dil / İzin Verme: / kitaplıklar / İzin Verme: / modüller / İzin Verme : / plugins / Disallow: / tmp / Disallow: / layouts / Disallow: / cli / Disallow: / bin / Disallow: / logs / Disallow: / component / Disallow: / component / Disallow: / * mailto / Disallow: / *. pdf İzin Verme: / *% İzin Verme: /index.php Site Haritası: http: // haritanızın yolu XML biçimi
Evet, ayrıca ikinci seçenekte yönergeler olduğunu da unutmayın. Stillerin, komut dosyalarının ve resimlerin indekslenmesine izin vererek izin ver... Bu, özellikle Google için yazılmıştır, çünkü Googlebot'u bazen robotun bu dosyaları, örneğin kullanılan temaya sahip klasörden dizine eklemesinin yasak olduğuna yemin eder. Hatta bunun için sıralamasını düşürmekle tehdit ediyor.
Bu nedenle, önceden İzin Ver kullanılarak her şeyin dizine eklenmesine izin veriyoruz. Bu arada, aynısı WordPress için örnek dosyadaydı.

Sana iyi şanslar! Yakında blog sitesinin sayfalarında görüşürüz
adresine giderek daha fazla video izleyebilirsiniz.
");">
ilginizi çekebilir
www olan ve olmayan alanlar - görünümlerinin tarihi, yapıştırmak için 301 yönlendirmelerinin kullanımı
Aynalar, yinelenen sayfalar ve url adresleri - sitenizin denetimi veya SEO tanıtımının çökmesinin nedeni ne olabilir

CMS Joomla'nın bir dezavantajı var, yinelenen sayfa adresleri. Yinelenenler, bir makalenin iki adreste mevcut olduğu zamandır.

Örneğin:

Daha fazla bilgi edinin ve yinelenen sayfaların kesim altında Joomla'da dizine eklenmesinden nasıl kaldırılacağını okuyun.

CMS Joomla'nın bir dezavantajı vardır, yinelenen sayfa adresleridir. Yinelenenler, bir makalenin iki adreste mevcut olduğu zamandır. Örneğin:

http: //site/dizayn/ikonki-sotsial-noy-seti-vkonrtakte.html
index.php?seçenek = com_content & view = makale & id = 99: vkontakteicons & catid = 5: tasarım & Itemid = 5

Yinelenen sayfalar nasıl görünür?Çok basit, yukarıdaki örnekte, bir malzemeye iki bağlantı görüyoruz. İlk bağlantı, sitedeki tüm bağlantıları böyle güzel, okunabilir bir forma dönüştüren JoomSEF bileşeni tarafından oluşturulan güzel ve insan tarafından okunabilirdir (CNC bağlantısı). İkinci bağlantı Joomla'nın dahili sistem bağlantısıdır ve Artio JoomSef bileşeni kurulmamış olsaydı, sitedeki tüm bağlantılar ikinci gibi olur - anlaşılmaz ve çirkin. Şimdi ne kadar korkutucu olduğuna ve kopyalarla nasıl başa çıkılacağına.

Site için ne kadar zararlı kopyalar. Bunu çok büyük bir dezavantaj olarak adlandırmıyorum, çünkü bence arama motorları bu tür kopyalar için siteyi güçlü bir şekilde yasaklamamalı ve kötümserleştirmemelidir, çünkü bu kopyalar bilerek yapılmaz, ancak CMS sisteminin bir parçasıdır. Ayrıca, milyonlarca sitenin yapıldığı çok popüler bir sistem olduğunu, yani arama motorlarının bu "özelliği" anlamayı öğrendiğini belirteceğim. Ama yine de, bir fırsat ve arzu varsa, bu tür çekimleri ağabeyin gözünden gizlemek daha iyidir.

Joomla ve diğer cms'deki kopyalarla nasıl başa çıkılır?

1) Bir sayfanın iki kez alınması, robots.txt dosyasında yasaklanması

Örneğin, bir sayfanın aşağıdaki iki adresi arama motoru dizinine dahil edilmiştir:

http://site.ru/page.html?replytocom=371
http://site.ru/page.html?iframe=true&width=900&height=450

Bu tür kopyaları robots.txt dosyasında kapatmak için şunları eklemeniz gerekir:

İzin verme: / *? *
İzin verme: / *?

Bu işlemle, "?" İşaretli tüm site bağlantılarını indekslemeden kapattık. Bu seçenek, CNC çalışmasının etkinleştirildiği ve normal bağlantılarda soru işaretinin bulunmadığı siteler için uygundur - "?"

2. rel = "canonical" etiketini kullanın

Diyelim ki aynı sayfada farklı adreslere sahip iki bağlantı var. Google arama motorları ve Yahoo, sayfadaki hangi URL'nin ana URL olduğunu belirleyebilir. Bunu yapmak için etikette rel = "canonical" etiketini eklemeniz gerekir. Yandex bu seçeneği desteklemez.

Joomla için rel = "canonical" etiketini ayarlamak için 1) plg_canonical_v1.2; adında iki uzantı buldum; ve 2) 098_mod_canonical_1.1.0. Onları test edebilirsiniz. Ancak, yukarıdaki örnekte gösterildiği gibi, farklı bir şekilde hareket eder ve içinde soru işareti olan tüm bağlantıların dizine eklenmesini yasaklardım.

3. robots.txt Joomla kopyalarında (index.php ile biten sayfalar) ve diğer gereksiz sayfalarda indekslemeyi yasaklayın.

Joomla'daki tüm yinelenen sayfalar index.php ile başladığından, hepsinin robots.txt - Disallow: /index.php'de tek bir satırla dizine eklenmesini önleyebilirsiniz. Ayrıca, bunu yaparak, ikiliyi yasaklamış olacağız. ana sayfa"http://site.ru/" ve "http://site.ru/index.php" adreslerinde mevcut olduğunda.

4. Bir etki alanını www ile ve www olmadan 301 yönlendirmeleri (yönlendirmeler) kullanarak yapıştırma.

Bir etki alanını www ile ve olmadan yapıştırmak için bir yönlendirme - 301 yönlendirmesi yapmanız gerekir. Bunu yapmak için .htaccess dosyasına şunu yazın:

Yeniden YazmaMotoru açık

Tersine http://site.ru'dan www.site.ru'ya yönlendirmeniz gerekiyorsa, giriş şöyle görünecektir:

Yeniden YazmaMotoru Açık
RewriteCond% (HTTP_HOST) ^ site.ru
RewriteRule (. *) Http://www.site.ru/$1

5. Host yönergesi, Yandex için www ile veya www olmadan ana etki alanını tanımlar.

Sitelerini yeni oluşturmuş olan web yöneticileri için bu paragrafta anlattığım adımları izlemek için acele etmeyin, önce doğru robots.txt dosyasını oluşturmanız ve Host yönergesini kaydetmeniz gerekir, bu ana etki alanını gözde ana etki alanını tanımlayacaktır. yandex.

Bunun gibi görünecek:

Kullanıcı Aracısı: Yandex
Ev sahibi: site.ru

Host yönergesi yalnızca Yandex tarafından anlaşılır. Google bunu anlamıyor.

6. Joomla kopya sayfaları .htaccess dosyasında birbirine yapıştırılmıştır.

Çoğu zaman, joomla'daki bir sitenin ana sayfası http://site.ru/index.html veya http://site.ru/index.php, http: //site.ru.html adresinde bulunur, yani , bunlar ana sayfaların (http://site.ru) kopyalarıdır, elbette onları robots.txt'de kapatarak onlardan kurtulabilirsiniz, ancak bunu .htaccess kullanarak yapmak daha iyidir. Bunu yapmak için aşağıdakileri bu dosyaya ekleyin:

İndex.php ile kopyadan kurtulmanız gerekiyorsa bu kodu kullanın, http: // siteniz.ru / yerine alan adınızı koda koymayı unutmayın.

Başarılı olup olmadığınızı kontrol etmek için, tarayıcıya yinelenen adresi (http://site.ru/index.рhp) girin, çalışırsa, http://site.ru sayfasına yönlendirileceksiniz. , ve aynı zamanda arama botlarında da olacak ve bu çekimleri görmeyecekler.

Ve benzetme yoluyla, Joomla kopyalarını diğer öneklerle ana sayfanızın URI'sine yapıştırıyoruz, sadece yukarıda verdiğim kodu düzenleyin.

7. robots.txt dosyasında site haritasını belirtin

Bu, kopyalar için geçerli olmasa da, böyle bir hareket zaten başladığı için, aynı zamanda robots.txt dosyasında site haritasının yolunu belirtmenizi öneririm. xml biçimi arama motorları için:

Site Haritası: http: //domain.ru/sitemap.xml.gz
Site Haritası: http: //domain.ru/sitemap.xml

Sonuç

Yukarıdakileri özetlemek gerekirse, Joomla için robots.txt dosyasına şu satırları yazardım:

İzin verme: /index.php
Yandex için ana sunucuyu belirtin
Kullanıcı Aracısı: Yandex
Ev sahibi: site.ru

Ve bunlar .htaccess içindeki satırlar

# Bir etki alanını www ile ve onsuz yapıştırma
Yeniden YazmaMotoru açık
RewriteCond% (HTTP_HOST) ^ www.site.ru
RewriteRule ^ (. *) $ Http://site.ru/$1
# Yinelenen sayfaları yapıştırma
RewriteCond% (THE_REQUEST) ^ (3.9) /index.php HTTP /
RewriteRule ^ index.php $ http: // siteniz.ru /

Yinelenenleri ortadan kaldırmak için başka yollar kullanıyorsanız, yukarıdakileri nasıl geliştireceğinizi biliyorsunuz veya bu konuda söyleyecek bir şeyiniz var - yazın, yorumları bekliyorum.

Belirli sayfaların indekslenmesini nasıl önleyebilirim?

İndeksleme ile ilgili izin ve yasaklar herkes tarafından alınır arama motorları dosyadan robots.txt sunucunun kök dizininde bulunur. Örneğin, gizlilik veya aynı belgeleri farklı kodlamalarda indekslememe arzusu nedeniyle, birkaç sayfanın indekslenmesine ilişkin bir yasak görünebilir. Sunucunuz ne kadar küçükse, robot o kadar hızlı atlar. Bu nedenle, robots.txt dosyasında dizine eklenmesi mantıklı olmayan tüm belgeleri yasaklayın (örneğin, istatistik dosyaları veya dizinlerdeki dosya listeleri). CGI veya ISAPI komut dosyalarına özellikle dikkat edin - robotumuz bunları diğer belgelerle birlikte indeksler.

En basit biçiminde (komut dizini dışında her şeye izin verilir) robots.txt dosyası şöyle görünür:

Kullanıcı Aracısı: *
İzin verme: / cgi-bin /

Dosya özelliklerinin ayrıntılı bir açıklaması şu sayfada bulunabilir: "".

robots.txt yazarken aşağıdaki yaygın hatalara dikkat edin:

1. User-Agent alanını içeren satır zorunludur ve alan içeren satırlardan önce gelmelidir. izin verme... Örneğin, aşağıdaki robots.txt dosyası hiçbir şeyi yasaklamaz:

İzin verme: / cgi-bin
İzin verme: / forum

2. robots.txt dosyasındaki boş satırlar önemlidir, farklı robotlar için girişleri ayırırlar. Örneğin, robots.txt dosyasının aşağıdaki parçasında, satır İzin verme: / forum yok sayıldı çünkü önünde alan olan bir çizgi yok Kullanıcı Aracısı.

Kullanıcı Aracısı: *
İzin verme: / cgi-bin
İzin verme: / forum

3. Alan içeren dize izin verme sadece bir önekle belgelerin indekslenmesini yasaklayabilir. Birden fazla öneki yasaklamak için birkaç satır yazmanız gerekir. Örneğin, aşağıdaki dosya, “ ile başlayan belgelerin indekslenmesini yasaklamaktadır. / cgi-bin / forum”, Büyük olasılıkla mevcut olmayan (ve önekleri olan belgeler değil) / cgi-bin ve / forum).

Kullanıcı Aracısı: *
İzin verme: / cgi-bin / forum

4. Alanlı satırlarda izin verme mutlak değil, ancak göreli önekler kaydedilir. Yani, dosya

Kullanıcı Aracısı: *
İzin verme: www.myhost.ru/cgi-bin

örneğin bir belgenin indekslenmesini yasaklar http://www.myhost.ru/www.myhost.ru/cgi-bin/counter.cgi ancak belgenin indekslenmesini ENGELLEMEZ http://www.myhost.ru/cgi-bin/counter.cgi.

5. Alanlı satırlarda izin verme belirtilen öneklerdir, başka bir şey değil. Yani, dosya:

Kullanıcı Aracısı: *
İzin verme: *

"*" karakteriyle başlayan (doğada mevcut olmayan) ve bir dosyadan çok farklı olan belgelerin indekslenmesini yasaklar:

Kullanıcı Aracısı: *
İzin verme: /

hangi tüm sitenin indekslenmesini yasaklar.

Dosyayı oluşturamaz/değiştiremezseniz robots.txt, sonra hepsi kaybolmaz - sadece ek bir etiket ekleyin sayfanızın HTML koduna (etiketin içinde ):

Sonra bu belge ayrıca indekslenmeyecektir.

etiketini de kullanabilirsiniz.

Bu, arama motoru robotunun bu sayfadaki bağlantıları takip etmemesi gerektiği anlamına gelir.

Sayfanın dizine eklenmesini aynı anda yasaklamak ve ondan gelen bağlantıları taramak için etiketi kullanın

Metnin belirli bölümlerinin indekslenmesi nasıl önlenir?

Belgedeki metnin belirli bölümlerinin dizine eklenmesini önlemek için bunları etiketlerle işaretleyin

Dikkat! NOINDEX etiketi, diğer etiketlerin iç içe geçmesini bozmamalıdır. Aşağıdaki hatalı yapıyı belirtirseniz:

... kod1 ...

... kod2 ...

... kod3 ...

indeksleme yasağı sadece "kod1" ve "kod2"yi değil aynı zamanda "kod3"ü de içerecektir.

Birden çok aynadan bir ana sanal ana bilgisayar nasıl seçilir?

Siteniz aynı sunucuda (tek IP) bulunuyorsa, ancak dış dünyada farklı adlarla (aynalar, farklı sanal konaklar), Yandex, dizine eklenmesini istediğiniz adı seçmenizi önerir. Aksi takdirde, Yandex ana aynayı kendi seçecek ve geri kalan isimlerin indekslenmesi yasaklanacaktır.

Seçtiğiniz aynanın indekslenebilmesi için diğer tüm aynaların indekslenmesini kullanarak indekslemeyi devre dışı bırakmanız yeterlidir. Bu, standart olmayan robots.txt uzantısı - yönerge kullanılarak yapılabilir. Ev sahibi parametresi olarak ana aynanın adını belirterek. Eğer www.glavnoye-zerkalo.ru- ana ayna, ardından robots.txt şöyle görünmelidir:

Kullanıcı Aracısı: *
İzin verme: / forum
İzin verme: / cgi-bin
Ev sahibi: www.glavnoye-zerkalo.ru

Robots.txt dosyasını işlerken standardı tam olarak takip etmeyen robotlarla uyumluluk için, Disallow kayıtlarından hemen sonra, Kullanıcı-Aracı kaydından başlayarak gruba Host yönergesi eklenmelidir.

Direktifin argümanı Ev sahibi bağlantı noktası numarasına sahip alan adıdır ( 80 varsayılan), iki nokta üst üste ile ayrılır. Argüman olarak herhangi bir site belirtilmemişse Ev sahibi, direktifin varlığını ima eder İzin verme: /, yani indekslemenin tamamen yasaklanması (grupta en az bir doğru direktif varsa Ev sahibi). yani dosyalar robots.txt tür

Kullanıcı Aracısı: *
Ev sahibi: www.myhost.ru

Kullanıcı Aracısı: *
Ev sahibi: www.myhost.ru:80

eşdeğerdir ve indekslemeyi şu şekilde yasaklar: www.otherhost.ru ve www.myhost.ru:8080.

Host yönergesi parametresi, bir doğru ana bilgisayar adından oluşmalıdır (örn. RFC 952 ve bir IP adresi değil) ve geçerli bir bağlantı noktası numarası. Yanlış oluşturulmuş satırlar Ev sahibi görmezden gelindi.

# Yok sayılan Host yönergelerine örnekler
Ev sahibi: www.myhost- .ru
Ev sahibi: www.- myhost.ru
Ev sahibi: www.myhost.ru 0
Ev sahibi: www.my_ host.ru
Ev sahibi:. my-host.ru:8000
Ev sahibi: my-host.ru.
Ev sahibi: benim .. host.ru
Ev sahibi: www.myhost.ru/
Sunucu: www.myhost.ru:8080/
Sunucu: http://www.myhost.ru
Ev sahibi: www.mysi.te
Ev sahibi: 213.180.194.129
Ev sahibi: www.firsthost.ru, www.secondhost.ru
Ev sahibi: www.firsthost.ru www.secondhost.ru

eğer varsa Apache sunucusu, ardından Host yönergesini kullanmak yerine robots.txt dosyasını SSI yönergelerini kullanarak ayarlayabilirsiniz:

Kullanıcı Aracısı: *
İzin verme: /

Bu dosyada, robotun aşağıdakiler dışındaki tüm ana bilgisayarları taraması yasaktır. www.main_name.ru

SSI nasıl etkinleştirilir, sunucunuzun belgelerini okuyabilir veya sistem yöneticisi... Sayfaları isteyerek sonucu kontrol edebilirsiniz:

Http://www.main_name.ru/robots.txt
http: //www.other_name.ru/robots.txt vb. Sonuçlar farklı olmalıdır.

Bir web sunucusu için öneriler Rus Apache

Rus Apache'li sitelerdeki robots.txt dosyasında, ana kod dışındaki tüm kodlamalar robotlar için yasaklanmalıdır.

Kodlamalar bağlantı noktaları (veya sunucular) tarafından ayrıştırılıyorsa, farklı bağlantı noktalarında (sunucularda) FARKLI robots.txt yayınlanmalıdır. Yani, "ana" olan hariç, tüm bağlantı noktaları / sunucular için tüm robots.txt dosyalarında şöyle yazılmalıdır:

Kullanıcı Aracısı: *
İzin verme: /

Bunu yapmak için SGK mekanizmasını kullanabilirsiniz.

Apache'nizdeki kodlamalar "sanal" dizinlerin adlarıyla ayırt ediliyorsa, yaklaşık olarak aşağıdaki satırları içermesi gereken bir robots.txt yazmanız gerekir (dizinlerin adlarına bağlı olarak):

Kullanıcı Aracısı: *
İzin verme: / dos
İzin verme: / mac
İzin verme: / koi