Ce pagini sunt aproape de indexare și cum. Interzicerea indexării paginilor în roboții Meta Tag

Recent, împărtășite cu mine observația că multe site-uri care vin la noi pe audit sunt adesea aceleași și aceleași erori. În plus, aceste erori nu pot fi întotdeauna numite triviale - sunt permise chiar și webmasteri avansați. Deci, o idee părea să scrie o serie de articole cu instrucțiuni de urmărire și corectare a unor astfel de erori. Primul din coada de așteptare este un ghid privind configurarea indexării site-ului. Dau cuvântul autorului.

Pentru o bună indexare a site-ului și a paginilor de clasare mai bune, este necesar ca motorul de căutare să aibă paginile cheie ale site-ului progresiv și pe paginile însele să aloce cu precizie conținutul principal, fără a fi confuz la abundența informațiilor oficiale și auxiliare.
Site-urile care vin la noi pentru analiză sunt erori de două tipuri:

1. La promovarea site-ului, proprietarii lor nu se gândesc la ceea ce vede și adaugă un bot de căutare la index. În acest caz, poate apărea o situație atunci când există mai multe pagini de gunoi în index decât progresive, iar paginile în sine sunt supraîncărcate.

2. Dimpotrivă, proprietarii Obserchur Ryano au luat curățenia site-ului. Împreună cu informațiile inutile, datele se ascund și sunt importante pentru promovarea și evaluarea paginilor.

Astăzi vrem să luăm în considerare ceea ce merită să vă ascundeți de către roboții de căutare și cât de bine să o faceți. Să începem conținutul paginilor.

Conţinut

Probleme legate de închiderea conținutului pe site:

Pagina este evaluată de către roboții de căutare cuprinzătoare și nu numai pe indicatori textuați. Departamentul de închidere a diferitelor blocuri este adesea șters și important pentru utilitatea și clasamentul informațiilor.

Dăm un exemplu de erori cele mai frecvente:
- Pălăria site-ului ascunde. De obicei, plasează informații de contact, link-uri. Dacă pălăria site-ului este închisă, motoarele de căutare nu pot ști că ați avut grijă de vizitatori și plasați informații importante pe un loc proeminent;

- Ascundeți de filtrele de indexare, formularul de căutare, sortarea. Prezența unor astfel de caracteristici la magazinul online este un indicator comercial important care este mai bine să se arate și să nu se ascundă.
- Ascunderea informațiilor despre plata și livrarea. Acest lucru se face pentru a crește unicitatea pe cardurile de mărfuri. Dar aceasta este, de asemenea, informațiile care ar trebui să fie pe o carte de produse de înaltă calitate.
- Din paginile "Cut" meniul, agravarea evaluării confortului navigației pe site.

De ce site-ul o parte aproape a conținutului de pe site?
De obicei, există mai multe obiective:
- să accentueze conținutul principal de pe pagină, eliminând informații de susținere din index, blocuri de servicii, meniuri;
- faceți o pagină mai unică, utilă, eliminând blocurile duble pe site;
- Scoateți textul "extra" pentru a crește relevanța textului paginii.

Toate acestea pot fi realizate fără a ascunde o parte a conținutului!
Aveți un meniu foarte mare?
Ieșire pe pagini numai acele elemente care sunt direct legate de secțiune.

Multe opțiuni în filtre?
Luați codul principal numai popular. Încărcați opțiunile rămase numai dacă utilizatorul dă clic pe butonul "Afișare all". Da, scripturile sunt folosite aici, dar nu există înșelăciune - scriptul este declanșat la cererea utilizatorului. Găsiți toate locațiile motorului de căutare vor fi capabile, dar atunci când sunt evaluate, acestea nu vor primi aceeași valoare ca și conținutul principal al paginii.

Pe pagina big Block. Cu știri?
Reduceți cantitatea, ieșirea doar a anteturilor sau pur și simplu eliminați blocul de știri dacă utilizatorii rareori trec prin linkuri în el sau pe pagina câteva conținut de bază.

Căutați roboți, deși departe de ideal, dar sunt în mod constant îmbunătățite. Deja, Google arată că ascunderea scripturilor de la indexare ca o eroare în panoul Consola de Căutare Google (fila Resurse blocate). Nu prezentați o parte din roboții de conținut poate fi într-adevăr util, dar aceasta nu este o metodă de optimizare, ci mai degrabă, "cârje" temporare, care ar trebui să fie utilizate numai la necesitatea extremă.

Iti recomandam:
- Consultați conținutul ascuns, ca "Crupe" și recurgeți la ea numai în situații extreme, încercând să perfecționeze pagina în sine;
- îndepărtarea din partea paginii a conținutului, navigați nu numai pe indicatorii de text, ci și evaluarea confortului și a informațiilor care afectează;
- Înainte de a ascunde conținutul, efectuați un experiment pe mai multe pagini de testare. Boturile de căutare pot dezasambla paginile și preocupările dvs. legate de relevanță pot fi în zadar.

Să ne uităm la ce metode sunt folosite pentru a ascunde conținutul:

Eticheta NoIndex.

Această metodă are mai multe defecte. În primul rând, această etichetă ia în considerare numai Yandex, deci este inutil să ascundeți textul de la Google. În plus, este important să înțelegem că eticheta interzice indexul și arată doar textul în rezultatele căutării. Pe restul conținutului, de exemplu, referințele, nu se aplică.

Suportul pentru Yandex nu se aplică în mod special modul în care funcționează NoIndex. Puțin mai multe informații se află într-una din discuțiile din blogul oficial.

Întrebarea utilizatorului:

"Acțiune mecanică pe deplin ușor de înțeles și influența pe eticheta de clasificare text. Apoi, voi explica de ce atât de nedumerit. Și acum - există 2 ipoteze, aș vrea să găsesc adevărul.

Nr. 1 NoIndex nu afectează rangul / relevanța paginii în general

În același timp, presupunerea: singurul lucru pe care îl face - închide partea conținutului din aspectul în rezultatele căutării. În același timp, întreaga pagină este considerată în întregime, inclusiv blocuri închise, relevanță și parametri conjugați (unicitate, potrivire etc.) este calculată pentru aceasta în funcție de tot în conținutul codului, chiar închis.

Nr. 2 NoIndex afectează rangul și relevanța, deoarece conținutul închis în etichetă nu este estimat deloc. În consecință, opusul este. Pagina va fi clasată în conformitate cu conținutul de robot deschis. "

În ce cazuri eticheta poate fi utilă:
- Dacă există suspiciuni că pagina este redusă în emiterea lui Yandex datorită depășirii, dar, în același timp, este nevoie de poziții de topping în funcție de fraze importante din Google. Este necesar să înțelegem că aceasta este o soluție rapidă și temporară. Dacă întregul site a intrat sub "Baden-Baden", NoIndex, pe măsură ce reprezentanții lui Yandex au confirmat în mod repetat, nu vor ajuta;
- să ascundă informațiile generale ale serviciilor pe care le-ați datorită corporativelor dacă reglementările legale ar trebui să indice pe pagină;
- Pentru a regla fragmentele din Yandex, dacă conținutul nedorit cade în ele.

Ascunderea conținutului utilizând AJAX

aceasta metoda universală. Vă permite să ascundeți conținutul și de la Yandex și de la Google. Dacă doriți să curățați pagina din relevanța neclarizată a conținutului, este mai bine să o utilizați. Reprezentanții PS o astfel de metodă, desigur, nu este binevenită și recomandă ca roboții de căutare să vadă același conținut ca și utilizatorii.
Tehnologia utilizării AJAX este larg răspândită și, dacă nu este implicată într-un cloacing evident, sancțiunile pentru utilizarea acestuia nu sunt amenințate. Lipsa unei metode - încă mai trebuie să închideți accesul la scripturi, deși Yandex și Google nu recomandă acest lucru.

Paginile site-ului

Pentru promovarea cu succes, este important nu numai pentru a scăpa de informații inutile despre pagini, dar și de curat indexul de căutare Site-ul de la pagini de gunoi cu joasă orală.
În primul rând, va accelera indexarea principalelor pagini progresive ale site-ului. În al doilea rând, disponibilitatea în index număr mare. Paginile de gunoi vor afecta negativ evaluarea site-ului și promovarea acesteia.

Listează imediat paginile care sunt recomandabile pentru a ascunde:

- Pagini de înregistrare a aplicațiilor, coșuri de utilizatori;
- rezultatele căutării pe site;
- informații personale de utilizator;
- paginile rezultatelor comparării bunurilor și a modurilor auxiliare similare;
- pagini generate de filtre de căutare și sortare;
- pagini din partea administrativă a site-ului;
- Versiune tipărită.

Luați în considerare metodele care pot fi închise prin indexarea paginilor.

Închideți roboți.txt.

Aceasta nu este cea mai bună metodă.

În primul rând, fișierul roboți nu este destinat să se ocupe de locurile de duplicat și de curățare din paginile de gunoi. În aceste scopuri, este mai bine să se utilizeze alte metode.

În al doilea rând, interdicția din dosarul roboților nu este o garanție că pagina nu va intra în index.

Asta scrie Google despre el în ajutorul său:

Metateg noIndex.

Pentru a face garantat pentru a exclude paginile din index, este mai bine să utilizați această metodă.

Mai jos va da versiunea Metatega, care este înțeleasă de ambele motoare de căutare:

Moment important!

La GoogleBot a văzut NOIDEX Metater, trebuie să deschideți accesul la pagini închise în fișierul robots.txt. Dacă acest lucru nu este făcut, robotul poate pur și simplu să nu meargă la aceste pagini.

X-Robots-Tag

Avantajul esențial al acestei metode este că interdicția poate fi plasată nu numai în codul paginii, ci și prin fileul rădăcină.htaccess.

Această metodă nu este foarte frecventă în RUNET. Credem că principalul motiv pentru o astfel de situație este că yandex această metodă pentru o lungă perioadă de timp nu a sprijinit.
În acest an, angajații Yandex au scris că metoda este acum acceptată.

Răspunsul suportului nu solicită detaliat))). Înainte de a trece la interzicerea indexării, utilizând eticheta X-Robots, este mai bine să vă asigurați că această metodă funcționează sub Yandex. Nu am pus încă experimentele pe acest subiect, dar poate că vom face în viitorul apropiat.

Protecție cu parolă

Dacă aveți nevoie să ascundeți întregul site, de exemplu, versiunea de testare, vă recomandăm, de asemenea, utilizând această metodă. Poate că singurul dezavantaj - poate să apară în cazul nevoii de a scana domeniul ascuns sub parolă.

Eliminați aspectul paginilor de gunoi utilizând AJAX

Nu este ușor să interzice indexarea paginilor generate de filtre, sortare etc., dar nu creați pagini similare pe site.

De exemplu, dacă utilizatorul a selectat un set de parametri în filtrul de căutare, pe care nu ați creat o pagină separată, se întâmplă modificări ale mărfurilor afișate pe pagină, fără a schimba adresa URL în sine.

Complexitatea acestei metode este că este de obicei imposibil să o aplicați imediat pentru toate cazurile. O parte din paginile formate este folosită pentru a promova.

De exemplu, paginile filtrelor. Pentru "frigider + Samsung + White" avem nevoie de o pagină și pentru "frigider + samsung + alb + două camere + nici un îngheț" - nu mai este.

Prin urmare, trebuie să faceți un instrument care să implice crearea de excepții. Aceasta complică sarcina programatorilor.

Utilizați metodele de interzicere a indexării din algoritmii de căutare

Parametrii URL în consola de căutare Google

Acest instrument vă permite să specificați cum să identificați aspectul în Pagini URL. Parametrii noi.

Clean-PARAM Directiva în Robots.txt

În Yandex, o interdicție similară a parametrilor URL poate fi prescrisă utilizând Directiva privind curatarea paramică.
Citiți despre asta.

Adrese canonice, cum să împiedicați apariția paginilor de gunoi pe site
Această metodă a fost creată în mod special pentru a combate dublurile și paginile de gunoi de pe site. Vă recomandăm să îl înregistrați pe întregul site, ca prevenirea apariției în indicele dublu și gunoi.

Instrumente de eliminare a paginii de la Yandex și Index Google

Dacă există o situație în care aveți nevoie să ștergeți urgent informații din index, fără a aștepta până când interzicerea dvs. va vedea motoarele de căutare, puteți utiliza instrumente de la panoul Yandex.Webmaster și consola de căutare Google.

În Yandex, această "Ștergere URL":

Consola de căutare Google "Ștergeți adresa URL":

Link-uri interne

Legăturile interne sunt închise de la indexare pentru redistribuirea scalelor interne pe principalele pagini promovate. Dar faptul este că:
- o astfel de redistribuire nu poate afecta conexiuni generale între pagini;
- Referințele din șablon prin blocuri au de obicei o greutate mai mică sau nu pot fi luate în considerare deloc.

Luați în considerare opțiunile care sunt utilizate pentru a ascunde legăturile:

Eticheta NoIndex.

Pentru a ascunde legăturile, această etichetă este inutilă. Se aplică numai textului.

Rel \u003d atributul "nofollow"

Acum, atributul nu vă permite să economisiți greutatea pe pagină. Când utilizați rel \u003d "nofollow", greutatea este pur și simplu pierdută. Prin ea însăși, utilizarea etichetei pentru legăturile interne nu arată foarte logică.

Ascunderea legăturilor folosind script-uri

Aceasta este de fapt singura metodă de lucru prin care puteți ascunde referințele de la motoarele de căutare. Puteți utiliza blocuri AJAX și de încărcare după descărcarea paginii sau adăugați linkuri prin înlocuirea scriptului de etichete pe . Este important să luați în considerare faptul că algoritmii de căutare pot recunoaște scripturile.

Ca și în cazul conținutului, este "Cruptch", care poate rezolva uneori problema. Dacă nu sunteți sigur că obțineți un efect pozitiv din blocul de legătură ascuns, nu utilizați astfel de metode.

Concluzie

Îndepărtarea de pe pagina volumetrică prin blocuri poate da într-adevăr un efect pozitiv pentru clasare. Este mai bine să faceți acest lucru, tăierea paginii și retragerea numai a conținutului necesar vizitatorilor. Țineți conținutul de la motorul de căutare - Crupeaua care merită folosită numai în cazurile în care este imposibil să tăiați blocurile.

Îndepărtarea unei părți a conținutului din pagină, nu uitați că nu numai criteriile de text sunt importante pentru clasificare, ci și completitudinea informațiilor, factorii comerciali.

Aproximativ o situație similară cu referințe interne. Da, uneori poate fi utilă, dar redistribuirea artificială a maselor de referință de pe site este metoda contestată. Mult mai sigur și mai fiabil vor refuza pur și simplu legăturile în care nu sunteți sigur.

Paginile site-ului sunt din ce în ce mai descărcate. Este important să se asigure că gunoiul nu poate intra în index. Pentru aceasta există multe metode pe care le-am colectat și le-am descris în acest articol.

Puteți lua întotdeauna sfaturi cu privire la aspectele tehnice ale optimizării sau puteți comanda o promovare la cheie în care vine.

Majoritatea roboților sunt bine concepuți și nu creează probleme pentru proprietarii de site-uri. Dar dacă botul a fost scris sau "ceva a mers prost", poate crea o sarcină semnificativă pe locul pe care îl ocolește. Apropo, păianjenii introduc deloc serverul ca viruși - ei solicită pur și simplu paginile de care aveți nevoie de la distanță (de fapt sunt analogii browserelor, dar fără o funcție de vizualizare a paginii).

Robots.txt - Directiva Agent utilizator și motoarele de căutare Bots

Robots.tht are o sintaxă complexă, care este descrisă în detaliu, de exemplu, în helpe Yandex. și helpe Gugang. . De obicei, este indicat în el, pentru care Bot Bot este proiectat următoarele directive: numele botului (" Agent utilizator"), rezolvarea (" Permite.") și interzicerea (" Interzice."), De asemenea, folosit în mod activ" Sitemap "pentru a indica motoarele de căutare, unde se află fișierul de hartă.

Standardul a fost creat de mult timp în urmă și ceva a fost adăugat mai târziu. Există directive și reguli pentru proiectare, care vor fi înțelese numai de către roboți ai anumitor motoare de căutare. În Renet, interesul este în cea mai mare parte doar Yandex și Google, și, prin urmare, este cu ajutorul lor la compilarea robots.txt, ar trebui citit mai ales în detaliu (am condus legăturile din paragraful anterior).

De exemplu, înainte ca motorul de căutare Yandex să fie util să indice, Webpore este principalul dvs. din directiva specială "gazdă", care numai acest motor de căutare înțelege (bine, de asemenea, Mile.ru, pentru că au o căutare de la Yandex). Adevărat, la începutul anului 2018 Yandex încă anulată gazdă Și acum funcțiile sale, ca și alte motoare de căutare, efectuează 301-redirecționare.

Dacă resursa dvs. nu are oglinzi, va fi utilă indicarea care dintre opțiunile de scriere este cea principală.

Acum, să vorbim puțin despre sintaxa acestui fișier. Directivele din Robots.txt au următoarea formă:

<поле>:<пробел><значение><пробел> <поле>:<пробел><значение><пробел>

Codul corect trebuie să conțină cel puțin o directivă "respinge" După fiecare intrare "Agent utilizator". Un fișier gol implică permisiunea de a indexa site-ul.

Agent utilizator

Directiva "Agent utilizator" Trebuie să conțină numele bot de căutare. Folosind acest lucru, puteți configura regulile de comportament pentru fiecare motor de căutare specific (de exemplu, creând o indexare separată a folderului numai pentru numai Yandex). Un exemplu de scriere a "agent de utilizator", adresat tuturor roboților la resursa dvs., arată astfel:

Agent utilizator: *

Dacă doriți să stabiliți anumite condiții în "Agentul de utilizator" numai pentru un singur bot, de exemplu, Yandex, atunci trebuie să scrieți astfel:

Agent utilizator: Yandex

Numele roboților motorului de căutare și rolul lor în fișierul robots.txt

Bot al fiecărui motor de căutare Are numele său (de exemplu, pentru Rambler este Stackrambler). Aici voi da o listă cu cele mai renumite:

Google http://www.google.com GoogleBot Yandex http://www.ya.ru yandex bing http://www.bing.com/ bingbot

Motoarele de căutare mari uneori În plus față de boturile principale, Există, de asemenea, instanțe separate pentru indexarea blogurilor, știrilor, imaginilor etc. Multe informații despre soiurile de roboți pe care le puteți învăța (pentru Yandex) și (pentru Google).

Cum să fii în acest caz? Dacă trebuie să scrieți o regulă de interzicere a proiectului că toate tipurile de roboți Google trebuie să completeze, apoi să utilizați numele GoogleBot și toți ceilalți păianjeni ai acestui motor de căutare vor asculta, de asemenea. Cu toate acestea, este posibilă interzicerea, de exemplu, pe indexarea imaginilor, specificând botul GoogleBot-Image ca agent de utilizator. Acum nu este foarte clar, dar pe exemple, cred că va fi mai ușor.

Exemple de utilizare a deznădăjduirii și permit directivelor în robots.tcht

Voi da un pic simplu exemple de utilizare a directivei Cu o explicație a acțiunilor sale.

Codul de mai jos permite tuturor roboților (ca punct de asterisc la agentul de utilizator) pentru a indexa tot conținutul fără excepții. Acest lucru este definit. eMPTY nu permite directiva.. Agent utilizator: * Nu permiteți:
Următorul cod, dimpotrivă, interzice complet toate motoarele de căutare să adauge indicele paginii acestei resurse. Setează acest dezactivat cu "/" în câmpul Valoare. Agent de utilizator: * Nu permiteți:
În acest caz, toate robotele vor fi interzise vizualizarea conținutului directorului / imaginii / (http://mysite.ru/image/ - calea absolută către acest catalog) Agent utilizator: * dezactivați: / imagine / imagine /
Pentru a bloca un fișier, va fi suficient pentru a vă înregistra calea absolută la aceasta (citire): Agent utilizator: * Nu permiteți: /katalog1//katalog2/private_file.html
Rulați puțin mai departe, voi spune că este mai ușor să utilizați un simbol asterisc (*), astfel încât să nu scrieți complet calea:
Nu permiteți: /c.html.
Exemplul de mai jos va fi interzis de directorul "imagine", precum și de toate fișierele și directoarele începând cu caracterele "imagine", adică fișiere: "imagine.htm", "imagini.htm", cataloage: "imagine", "Imagini1 ", Imagini34", etc.): Agent utilizator: * Nu permiteți: / Imagine Faptul este că, în mod implicit, la sfârșitul înregistrării, se înțelege un asterisc care înlocuiește orice caractere, inclusiv absența acestora. Citiți despre el mai jos.
Prin intermediul permitepermitem accesul. Ei bine, completează dezactivarea. De exemplu, aceasta este condiția robotului de căutare Yandex pe care îl interzicem să săpăm (index) totul, cu excepția paginii, adresa care începe cu / CGI-BIN: Agent utilizator: Yandex toate: / cgi-bin dezvăluie: /
Ei bine, sau un astfel de exemplu evident de utilizare a pachetelor Alla și de Dislex:
Agent utilizator: * Nu permiteți: / Catalog Permiteți: / Catalog / Auto
Când descrieți căile pentru directivele permit-dezactivați, puteți utiliza simboluri "*" și "$", specificând, astfel au definit expresii logice.
1. Simbol "*"(stea) Înseamnă orice secvență (inclusiv o goală) de caractere. Următorul exemplu interzice toate motoarele de căutare să indexeze fișierele cu extensia ".php": Agent utilizator: * Nu permiteți: * .php $
2. De ce este necesar la sfârșit $ semn (dolar)? Faptul este că, prin logica formării fișierului robots.txt, la sfârșitul fiecărei directive, asteriscul implicit (nu este, dar pare a fi). De exemplu, scriem: Distingeți: / Imagini
  Ceea ce înseamnă că acest lucru este același cu:
  Nu permiteți: / Imagini *
  Acestea. Această regulă interzice indexarea tuturor fișierelor (webons, imagini și alte tipuri de fișiere) a cărei adresă începe cu / imagini și apoi totul este realizat (a se vedea exemplul de mai sus). Deci aici simbol $. Pur și simplu anulează acest asterisc implicit (neprofitabil) la sfârșit. De exemplu:
  Dezactivați: / Imagini $
  Ea interzice numai indexarea fișierului / imaginilor, dar nu /images.html sau /images/primer.html. Ei bine, în primul exemplu, am interzis indexarea numai a fișierelor care se termină pe PHP (având o astfel de extensie), astfel încât nimic inutil să fie introdus:
  Interzice: * .php $

În multe motoare, utilizatorii (Urlas ușor de înțeles), în timp ce sistemul generat de sistem, au un semn de întrebare "?" în adresă. Acest lucru poate utiliza și scrie o astfel de regulă în robots.txt: Agent utilizator: * Nu permiteți: / *?

Asteriscul după ce semnul întrebării sugerează, dar ea, așa cum ne-am dat seama chiar de sus, este deja implicată la sfârșit. Deci, interzicem indexarea paginilor de căutare și a altor pagini de service Creat de motor, la care robotul de căutare poate ajunge. Nu va fi inutil, deoarece semnul de întrebare CMS este utilizat ca identificator de sesiune, care poate duce la indexul paginilor duplicate.

Directive sitemap și gazdă (pentru yandex) în robots.txt

Pentru a evita probleme neplăcute cu oglinzile site-ului, a fost recomandată pentru a adăuga o directivă gazdă la robots.txt, care a indicat Bot Yandex pe oglinda principală.

Directiva gazdă - indică oglinda principală a site-ului pentru yandex

De exemplu, înainte, dacă tu nu a fost încă comutat la protocolul securizat, pentru a indica gazda, nu a fost necesar să nu completați UL, dar numele domeniului (fără http: //, adică). Dacă ați comutat deja la HTTPS, va trebui să specificați un UL complet (tip https://myhost.ru).

Un instrument minunat de a face față duplicatelor de conținut - motorul de căutare nu va indexa pagina dacă un alt ul este înregistrat în canonic. De exemplu, pentru o astfel de pagină a blogului meu (pagina pagazy) canonică indică https: // site și nici o problemă cu duplicarea taitalelor nu ar trebui să apară.

Dar sunt distras de ...
Dacă proiectul dvs. este creat pe baza oricărui motor, atunci duplicarea conținutului va avea loc Cu o probabilitate mare, ceea ce înseamnă că trebuie să lupți cu el, inclusiv utilizarea interdicției în robots.txt, și mai ales într-o etichetă meta, pentru că, în primul caz, Google poate și ignora interdicția, dar nu va fi în măsură pentru a da un naibii (atât de elev).
De exemplu, în Pagini WordPress. Cu un conținut foarte similar, puteți ajunge la indicele motorului de căutare, dacă sunt permise indexarea și conținutul titlurilor și conținutul arhivelor etichetelor și conținutul arhivelor temporare. Dar dacă folosiți roboții metagului Meta descrise mai sus, creați o interdicție pentru arhiva tag-ului și o arhivă temporară (puteți pleca, dar pentru a interzice indexarea conținutului titlurilor), atunci duplicarea conținutului nu va apărea. Cum se face acest lucru este descrisă prin referire la următoarea ușoară (pe plugin-ulseopak)
Rezumarea, voi spune că fișierul Robosts este conceput pentru a stabili regulile globale de interzicere a accesului la întregul director al site-ului sau în fișierele și folderele, în titlul de caractere specificate (masca). Exemple de sarcină a unor astfel de interdicții Puteți vedea puțin mai mare.
Acum, să luăm în considerare exemple specifice de roboți destinate diferitelor motoare - Joomla, WordPress și SMF. Firește, toate cele trei opțiuni create pentru diferite CMS vor fi semnificative (dacă nu vor spune dramatic) diferă unul de celălalt. Adevărat, toată lumea va avea unul totalȘi acest moment este asociat cu motorul de căutare al lui Yandex.
pentru că În Renet, Yandex are o greutate suficientă, atunci trebuie să țineți cont de toate nuanțele muncii sale și aici gazda va ajuta. Ea specifică în mod explicit acest motor de căutare, oglinda principală a site-ului dvs.
Se recomandă utilizarea unui blog separat al agentului de utilizator destinat numai pentru Yandex (Agent utilizator: Yandex). Acest lucru se datorează faptului că motoarele de căutare rămase nu pot înțelege gazda și, în consecință, includerea sa în înregistrarea agentului de utilizator destinată tuturor motoarelor de căutare (agent de utilizator: *) poate duce la consecințe negative și indexarea incorectă.
Care este cazul - este dificil de spus, pentru că algoritmii de căutare sunt un lucru în sine, deci este mai bine să faci așa cum sfătuiește. Dar, în acest caz, va trebui să duplicați în Directiva Agent Agent: Yandex toate regulile pe care le-am cerut agentului utilizator: *. Dacă lăsați agentul de utilizator: Yandex cu goluri goale:, astfel încât să permiteți Yandex să intre oriunde și să trageți totul la rând la index.
Roboți pentru WordPress.
Nu voi da un exemplu de dosar pe care dezvoltatorii le recomandă. Puteți vedea singur. Mulți bloggeri nu limitează roboții de yandex și Google în plimbările lor pe conținutul motorului WordPress. Cel mai adesea în bloguri puteți găsi roboți, umpluți automat cu plugin.
Dar, în opinia mea, ar trebui să fie ajutat de găsirea în cazul dificil de a cusui boabele din provocare. În primul rând, indexarea acestui gunoi va lăsa mult timp la boots of Yandex și Google și poate că nu este deloc pentru a adăuga webcase la indexul cu noile dvs. articole. În al doilea rând, bots, fișierele transversale ale motorului dus, vor crea o sarcină suplimentară pe serverul gazdei dvs., care nu este bun.
Versiunea mea a acestui fișier pe care o puteți vedea. El nu sa schimbat vechi, dar încerc să urmez principiul "nu pentru a nu-i face să frămânți" și deja decideți: să o folosiți, să vă faceți propriul dvs. sau să vă uitați. Încă mai am o interdicție de indexare a paginilor cu paginare a fost înregistrată până de curând (interzice: * / pagina /), dar recent am scos-o, sperând pe canonic, despre care a scris mai sus.
Dar în general, singurul fișier corect Pentru WordPress, probabil că nu există. Este posibil, este peste același lucru, să implementeze orice condiții preliminare în ea, dar cine a spus că vor fi corecte. Opțiuni pentru Robots Perfect.txt în rețea foarte mult.
Voi da două extreme:
Puteți găsi un megafay cu explicații detaliate (simbolul # este separat de comentariile că în fișierul real va fi mai bine șters): Agent utilizator: * Reguli generale pentru roboți, cu excepția Yandex și Google, # pentru că Pentru ei, regulile de mai jos interzice: / CGI-BIN # Dosarul de găzduire Distingeți: /? # Toate opțiunile de interogare din dezacordul principal: / WP- # Toate fișierele WP: / WP-JSON /, WP-include, / WP-Content / Plugins dezvăluie: / wp / # Dacă există un abonament / WP /, unde CMS este instalat (dacă nu, # regula poate fi ștearsă) dezactivați: *? S \u003d # Căutarea interzice: * & S \u003d # Căutarea interzice: / Căutare / # Căutarea interzice: / Autor / # Arhiva prin dezvăluirea: * / Trackback # trackback-uri, notificări în comentariile privind apariția unor link-uri deschise la deznădăjduire articol: * / Feed # Toate dezactivează Fidids: * / RSS # RSS FID dezactivează: * / Embed # toate încorporarea interzice: * / wlwmanifest.xml # xml - manifestă Windows Live. Scriitor (dacă nu utilizați, # regulă poate fi șters) dezactivați: /xmlrpc.php # fișier api wordpress dezactivează: * utm \u003d # link-uri cu etichete uTM dezactivează: * openStat \u003d # Link-uri cu OpenStat Permite Tag-uri: * / Încărcări # Deschiderea dosarului cu încărcări de utilizator: GoogleBot # Google Reguli (fără comentarii duplicate) Nu permiteți: / CGI-BIN dezactivați: /? Nu permiteți: / WP- dezactivați: / WP / dezactivați: *? S \u003d dezactivați: * & S \u003d dezactivați: / căutare / dezactivare: / autor / dezactivare: / Utilizatori / dezactivare: * / trackback dezactivați: * / feed dezactivați: * / RSS interzice: * / Embed nu permite: * / wlwmanifest.xml dezactivează: /xmlrpc.php dezactivați: * utm \u003d dezactivați: * OpenStat \u003d Lăsați: * / Încărcări permit: /*/*.js # Deschis JS Scripturi în interiorul / WP - (/ * / - pentru prioritate) permite: / * / * CSS # Fișiere CSS deschise în interiorul / wp- (/ * / - pentru prioritate) permite: /wp-*.png # imagini în pluginuri, folder cache și etc. Permiteți: /wp-*.jpg # imagini în plugin-uri, folder cache etc. Permiteți: /wp-*.jpeg # Imagini în pluginuri, folder cache etc. Permiteți: /wp-*.gif # Imagini în plugin-uri, folder cache etc. Permiteți: /wp-admin/aDmin-ajax.php # este utilizat de plugin-uri pentru a nu bloca agentul de utilizator JS și CSS: regulile Yandex # pentru Yandex (fără reguli de duplicare) interzice: / CGI-BIN dezvăluie: /? Nu permiteți: / WP- dezactivați: / WP / dezactivați: *? S \u003d dezactivați: * & S \u003d dezactivați: / căutare / dezactivare: / autor / dezactivare: / Utilizatori / dezactivare: * / trackback dezactivați: * / feed dezactivați: * / RSS dezactivează: * / Embed dezactivează: * / wlwmanifest.xml nu permite: /xmlrpc.php Permiteți: * / Încărcări permit: / 7CSS Permiteți: /wp-*.png Permiteți: /wp-*.jpeg Permiteți: / WP . Astfel de reguli nu acceptă Clean-Param: OpenStat # În mod similar, specificați unul sau mai multe fișiere sitemap (duplicat pentru fiecare agent de utilizator # nu este necesar). Google XML Sitemap. Creează 2 hărți ale site-ului ca în exemplul de mai jos. Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # Specificați oglinda principală a site-ului, ca în exemplul de mai jos (cu www / fara www, daca https # Apoi scrieți protocolul dacă doriți să specificați portul, indicați). Echipa gazdă înțelege # yandex și mail.ru, Google nu ia în considerare. Gazdă: www.site.ru.
Dar puteți folosi un exemplu de minimalism: agent de utilizator: * dezactivați: / WP-admin / permit: /wp-admin/admin-ajax.php Host: https://siite.ru sitemap: https: // site. Ru / sitemap.xml.

Adevărul probabil se află undeva în mijloc. Nu uitați să înregistrați eticheta Meta Robots pentru paginile "Extra", de exemplu, cu ajutorul unui plug-in minunat. El va ajuta și personalizat canonic.
Robots.txt pentru Joomla.
Agent utilizator: * Nu permiteți: / Administrator / dezactivare: / bin / dezactivați: / cache / dezactivare: / CLI / dezactivează: / Componente / dezactivare: / Inclace / dezactiva: / Instalare / dezactivare: / Limbă / Distinge: / Layouts / Nu permiteți: / biblioteci / dezactivați: / Busteni / dezactivați: / module / dezactivați: / pluginuri / dezactivare: / tmp /
În principiu, aici aproape totul este luat în considerare și funcționează bine. Singurul lucru pentru a adăuga o regulă separată a agentului utilizator pentru a introduce directiva gazdă care determină oglinda principală pentru Yandex, precum și specificați calea către fișierul Sitemap.
Prin urmare, în forma finală, roboții corecți pentru Joomla, în opinia mea, ar trebui să arate astfel:
Agent de utilizator: Yandex dezactivează: / Administrator / dezactivare: / Cache / dezactivare: / Inclore / dezactivează: / Instalare / dezactivare: / Limbă / dezactivare: / Biblioteci / Distinge: / Module / Distinge: / Plugin-uri / Distinge: / TMP / Nu permiteți: / Layouts / dezactivați: / CLI / dezactivați: / Bin / dezactivați: / dezactivați: / Component / Distinge: / Component / Tag-uri * Distinge: / * Mailto / dezvăluie: / *PDF Nu permite: / *% dezactivează: / Index.php Host: Vash_Sait.ru (sau www.vash_sait.ru) Agent utilizator: * Permiteți: /*.css?* $$ Permiteți: / * .jpg? * $ Permiteți: /C.png?*$ dezactivează . Bin / dezaprobare: / Busteni / dezamorcare: / Componente / dezamorcare: / Component / Distinge: / * Mailto / dezactiva: / * Formatul XML.
Da, chiar notați că în a doua versiune există directive Permiteți, permițând indexarea stilurilor, scripturilor și imaginilor. Este scris în mod special pentru Google, pentru că GoogleBOT își jură că indexarea acestor fișiere este interzisă în roboți, de exemplu, din dosarul cu subiectul utilizat. Chiar amenință să se diminueze în clasament.
Prin urmare, în prealabil, toată această afacere este permisă să indice introducerea permitului. La fel, apropo, și în exemplul fișierului pentru WordPress a fost.

Multă baftă! La întâlnirile ambigue pe site-ul web al blogului
vedeți mai multe rolele pe care le puteți continua
");">
S-ar putea să fiți interesat
Domeniile cu www și fără ea - istoria aspectului, utilizați 301 redirecționați pentru lipirea lor
Oglinzi, pagini duplicate și adrese URL - Auditul site-ului dvs. sau care ar putea fi cauza prăbușirii cu promovarea SEO

CMS Joomla are un dezavantaj, este o adresă de pagini. Duplicas este atunci când un articol este disponibil la două adrese.

De exemplu:

Citiți mai multe și cum să eliminați de la indexarea paginile Dubli din Joomla citiți sub tăiere.

CMS Joomla are un dezavantaj, este o adresă de pagini. Duplicas este atunci când un articol este disponibil la două adrese. De exemplu:

http: //syt/dizayn/ikonki-sotsial-noy-seti-vkonrtakte.html.
index.php? Opțiune \u003d Com_Content & View \u003d Articol & ID \u003d 99: VKONTAKTEICONS & CATID \u003d 5: Design & Itemid \u003d 5

Cum apar paginile duplicate? Foarte simplu, în exemplul de mai sus, vedem două referințe la un material. Prima legătură este un răspuns frumos și uman (CNC Referință), creat de componenta JoomSef care convertește toate legăturile către site într-o astfel de viziune frumoasă și citită. A doua link este un link sistem intern Jumla, iar dacă componenta Artio Joomsef nu a fost instalată, atunci toate legăturile de pe site ar fi ca al doilea - incomprehensibil și urât. Acum, de la a fi în măsura în care este teribil și cum să se ocupe de DUS.

Cât de duplicat este dăunător site-ului. Nu i-aș fi numit un dezavantaj foarte mare, deoarece în opinia mea, motoarele de căutare nu ar trebui să fie foarte scăldat și pesimizând site-ul pentru un astfel de duplicat, deoarece duplicat acestea nu sunt făcute în mod specific, ci fac parte din sistemul CMS. Mai mult, am observat sistemul foarte popular pe care sunt făcute milioane de site-uri, ceea ce înseamnă că motoarele de căutare au învățat să înțeleagă o astfel de "caracteristică". Dar totuși, dacă există o posibilitate și dorință, atunci este mai bine să aveți un astfel de duplicat din ochii unui frate mai mare.

Cum să se ocupe de dublu în Joomla și alte CMS

1) Două duble de o singură pagină, interzicerea robots.txt

De exemplu, următoarele două adrese ale unei pagini se încadrează în indicele motorului de căutare:

http://site.ru/stristen.html?replytocom\u003d371.
http://site.ru/stristen.html?frame\u003dtrue&width\u003d900&Height\u003d450.

Pentru a închide un astfel de dublu în robots.txt trebuie să adaug:

Nu permiteți: / *? *
Nu permiteți: / *?

Cu această acțiune, am închis de la indexarea tuturor legăturilor site-ului cu semnul "?". O astfel de opțiune este potrivită pentru site-urile în care lucrarea CNC este activată, iar legăturile normale nu au semnele întrebării - "?".

2. Utilizați eticheta Rel \u003d "canonic"

Să presupunem că o pagină merge două linkuri cu adrese diferite. Motoarele de căutare Google. Și Yahoo indică în mod standard ce adresa la pagină este cea principală. Pentru a face acest lucru în etichetă Este necesar să înregistrați eticheta Rel \u003d "canonic". Yandex Această opțiune nu acceptă.

Pentru Joomla pentru setarea etichetei Rel \u003d "canonic", am găsit două extensii, numite 1) plg_canonical_v1.2; și 2) 098_mod_canonical_1.1.0. Le puteți testa. Dar aș fi primit într-un alt mod și tocmai a interzis toate referințele la indexarea cu un semn de întrebare, așa cum se arată în exemplul de mai sus.

3. Împiedicați indexarea în robots.txt Joomla duble (pagini cu sfârșitul index.php) și alte pagini nu sunt necesare.

Deoarece toate paginile pubelă din Joomla încep cu index.php, le puteți interzice pe toți să indexeze o linie în robots.txt - dezactivați: /index.php. De asemenea, nu suntem diferiți de dublu pagina principalăCând este disponibil la "http://site.ru/" și "http://site.ru/index.php".

4. Domeniul Skleka cu WWW și fără 301 Redirect (Redirecționare).

Pentru a lipi un domeniu cu WWW și fără a fi nevoie să redirecționeze - 301 redirecționați. Pentru a face acest lucru, în File.htaccess ne Înregistrați:

Rewriteengine pe.

Dacă aveți nevoie să faceți o redirecționare de la http://site.ru pe www.site.ru, înregistrarea va arăta astfel:

Rewriteengine pe.
Rewritescond% (http_host) ^ site.ru
Rewriterule (. *) Http://www.site.ru/$1

5. Directiva gazdă oferă definiția domeniului principal cu www sau fără yandex.

Pentru acei webmasteri care tocmai au creat site-ul lor, nu se grăbesc să efectueze acțiunile pe care le-am descris în acest moment, trebuie mai întâi să faceți roboturile potrivite .Txt pentru a înregistra directiva gazdă, prin aceasta definiți domeniul principal în ochii lui Yandex .

Va arăta astfel:

Agent utilizator: Yandex
Gazdă: site.ru.

Directiva gazdă înțelege numai Yandex. Google nu o înțelege.

6. Joomla pupble Pagini adeziv în File.htaccess.

Foarte des, pagina principală a site-ului de pe Joomla este disponibilă la http://site.ru/index.html sau http://site.ru/index.rhp, http: //site.ru.html, adică, Este o pagină principală duplicată (http://site.ru), desigur, puteți scăpa de ele prin închiderea lor în robots.txt, dar este mai bine să faceți cu .htaccess. Pentru a face acest lucru în acest fișier, adăugați următoarele:

Utilizați acest cod dacă trebuie să scăpați de dublu cu index.RhP, nu uitați în cod în loc de http: // site.ru /, puneți domeniul dvs.

Pentru a verifica sa dovedit sau nu, introduceți pur și simplu adresa dublă (http://site.ru/index.rhp) în browser, dacă sa dovedit, vă veți transfera la site-ul http: //. ru, se va întâmpla, de asemenea, cu boots de căutare și nu vor vedea aceste duplicas.

Și prin analogie, lipiți Joomla Dub cu alte console la URI din pagina principală, pur și simplu editați codul pe care l-am condus mai sus.

7. Specificați sitemap în robots.txt

Deși nu se aplică DUM-urilor, dar din moment ce o astfel de unitate a mers, apoi, în același timp, vă recomand în fișierul robots.txt pentru a specifica calea către harta site-ului în formatul XML. Pentru motoarele de căutare:

Sitemap: http: //domome.com/sitemap.xml.gz
Sitemap: http: //domome.com/sitemap.xml

Rezultat

Rezultatul de vară la cele de mai sus, pentru Joomla, aș prescrie aici astfel de linii în robots.txt:

Nu permiteți: /index.php.
Specificați gazda principală pentru Yandex
Agent utilizator: Yandex
Gazdă: site.ru.

Și acestea sunt linii v.htaccess

# Lipire de domeniu cu www și fără
Rewriteengine pe.
Rewritescond% (http_host) ^ www.site.ru
Rewriterule ^ (. *) $ Http://site.ru/$1
# Pagini duble de lipire
REWRITECOND% (THE_REQUEST) ^ (3.9) /index.php http /
Rewriterule ^ index.php http :// site.ru /

Dacă utilizați alte modalități de a elimina duble, știți cum să îmbunătățiți cele de mai sus sau doar că aveți ceva de spus pe acest subiect - scrieți, așteptând în comentarii.

Cum să interziceți indexarea anumitor pagini?

Permisiunile și interzicerea indexării sunt luate de toate motoare de căutare Din fisier. robots.txt.Situat în directorul rădăcină al serverului. O interdicție privind indexarea unui număr de pagini poate apărea, de exemplu, pentru considerente de secret sau din dorință, nu indexează aceleași documente în diferite codificări. Cu cât serverul dvs. este mai mic, cu atât este mai rapid robotul pe care îl va costa. Prin urmare, interzice toate documentele din fișierul robots.txt care nu are sens să indice (de exemplu, fișiere de statistici sau liste de fișiere în directoare). Acordați o atenție deosebită scripturilor CGI sau ISAPI - robotul nostru le indexează pe un par cu alte documente.

În cea mai simplă formă (toate, cu excepția directorului scripturilor), fișierul robots.txt arată astfel:

Agent utilizator: *
Nu permiteți: / CGI-BIN /

O descriere detaliată a specificației fișierelor poate fi găsită pe pagina: "".

Când scrieți robots.txt, acordați atenție următoarelor erori frecvente:

1. Un șir cu câmpul Agent utilizator este obligatoriu și trebuie să precede șirurile cu câmpul Interzice.. Deci, următorul fișier robots.txt nu interzice nimic:

Nu permiteți: / CGI-BIN
Dezactivați: / forum

2. Stringurile goale în fișierul robots.txt sunt semnificative, împărtășesc înregistrări legate de diferiți roboți. De exemplu, în următorul fragment al liniei de fișiere robots.txt Dezactivați: / forum ignorat pentru că nu există șir cu un câmp Agent utilizator.

Agent utilizator: *
Nu permiteți: / CGI-BIN
Dezactivați: / forum

3. String cu un câmp Interzice. Poate interzice indexarea documentelor cu un singur prefix. Pentru a interzice mai multe prefixe, trebuie să scrieți mai multe linii. De exemplu, fișierul de mai jos interzice indexarea documentelor începând cu " / CGI-BIN / FORUM"Cel mai probabil, nu există (și nu documente cu prefixe / Cgi-bin și / Forum.).

Agent utilizator: *
Nu permiteți: / CGI-BIN / FORUM

4. În corzile cu câmpul Interzice.nu sunt absolute, dar prefixele relative sunt înregistrate. Adică dosarul

Agent utilizator: *
Nu permiteți: www.myhost.ru/cgi-bin.

interzice, de exemplu, indexarea documentului http://www.myhost.ru/www.myhost.ru/cgi-bin/counter.cgi.dar nu interzice indexarea documentelor http://www.myhost.ru/cgi-bin/counter.cgi..

5. În liniile cu un câmp Interzice.prefixele sunt indicate, și nu orice altceva. Deci, fișier:

Agent utilizator: *
Nu permiteți: *

interzice indexarea documentelor care încep cu simbolul "*" (care nu există în natură) și este foarte diferit de dosar:

Agent utilizator: *
Nu permiteți:

care interzice indexarea întregului site.

Dacă nu puteți crea / modifica fișierul robots.txt., atunci nu toate sunt pierdute - Adăugați suficient o etichetă suplimentară În codul HTML al paginii dvs. (în interiorul etichetei ):

Atunci acest document Nu va fi indexată.

De asemenea, puteți utiliza eticheta

Aceasta înseamnă că robotul motorului de căutare nu trebuie să urmeze legăturile de pe această pagină.

Pentru interzicerea simultană a paginii de indexare și a legăturilor de by-pass de la acesta este folosit de TEG

Cum să interziceți indexarea anumitor părți ale textului?

Pentru a preveni indexarea anumitor fragmente de text în document, marcați-le cu etichete

Atenţie! Eticheta NoIndex nu ar trebui să deranjeze cuibarea altor etichete. Dacă specificați următorul design eronat:

... cod1 ...

... cod2 ...

... cod3 ...

interzicerea indexării va include nu numai "Code1" și "Code2", dar și "Code3".

Cum de a alege principala gazdă virtuală din mai multe oglinzi?

Dacă site-ul dvs. este pe un server (o IP), dar vizibil în lumea exterioară sub diferite nume (oglinzi, diferite gazde virtuale), Yandex recomandă să alegeți numele sub care doriți să fiți indexați. În caz contrar, Yandex va alege oglinda principală independent, iar numele rămase vor fi interzise de la indexare.

Pentru a indexa oglinda pe care o alegeți, este suficientă pentru a interzice indexarea tuturor celorlalte oglinzi care utilizează. Acest lucru se poate face folosind un robot de extensie non-standard.txt - directivă Gazdă., ca parametru, specificând numele oglinzii principale. În cazul în care un www.glavnoye-zerkalo.ru. - Oglinda principală, apoi robots.txt ar trebui să arate așa ceva:

Agent utilizator: *
Dezactivați: / forum
Nu permiteți: / CGI-BIN
Gazdă: www.glavnoye-zerkalo.ru.

Pentru compatibilitatea cu roboții care nu respectă pe deplin standardul la procesarea robots.txt, directiva gazdă trebuie adăugată la un grup începând cu intrarea agentului utilizator, imediat după interzicerea înregistrărilor.

Argumentul Directivei. Gazdă. este un nume de domeniu cu numărul portului ( 80 Implicit) separat de colon. Dacă orice site nu este specificat ca argument pentru Gazdă.Pentru el implică prezența directivei Nu permiteți:. Interzicerea completă a indexării (dacă există cel puțin o directivă corectă într-un grup de cel puțin o directivă corectă Gazdă.). Deci, dosare robots.txt. Vedere

Agent utilizator: *
Gazdă: www.myhost.ru.

Agent utilizator: *
Gazdă: www.myhost.ru:80.

echivalent și interzice indexarea ca www.otothost.ru., așa că I. www.myhost.ru:8080..

Parametrul directivei gazdă trebuie să fie format dintr-un nume de gazdă corect (adică relevantă RFC 952. Și aceasta nu este o adresă IP) și numărul portului permis. Linii compuse incorect Gazdă. ignora.

# Exemple ignorate directive gazdă
Gazdă: www.myhost- .ru
Gazdă: www.- myhost.ru
Gazdă: www.myhost.ru:0.
Gazdă: www.my_ gazdă
Gazdă :. My-host.ru:8000.
Gazdă: my-host.ru.
Gazdă: meu .. gazdă
Gazdă: www.myhost.ru/
Gazdă: www.myhost.ru:8080/
Gazdă: http: // www.myhost.ru
Host: www.mysi.te.
Gazdă: 213.180.194.129.
Gazdă: www.firssthost.ru, www.secondhost.ru
Host: www.firssthost.ru www.secondhost.ru

Daca ai apache Server., În loc să folosească directiva gazdă, setați robots.txt folosind directivele SSI:

Agent utilizator: *
Nu permiteți:

În acest fișier, robotul este interzis să ocoli toate gazdele, cu excepția www. head_im ..ru.

Cum să activați SSI, puteți citi în documentația de pe server sau contactați-vă administrator de sistem. Puteți verifica rezultatul prin simpla solicitare a paginilor:

Http: // www. Head_imia.ru/robots.txt
http: // www. ovrich_imia.ru/robots.txtetc. Rezultatele ar trebui să fie diferite.

Recomandări pentru serverul web Apache rusă

În Robots.txt pe site-urile web cu Apache Rusia ar trebui să fie interzis pentru roboți toate codificările, altele decât cele principale.

Dacă codurile sunt descompuse de porturi (sau servere), atunci trebuie să produceți diferite robots.txt pe diferite porturi (servere). Anume, în toate fișierele robots.txt pentru toate porturile / serverele, cu excepția "Main", trebuie să fie scris:

Agent utilizator: *
Nu permiteți:

Pentru a face acest lucru, puteți utiliza mecanismul SSI ,.

Dacă codificarea din Apache este evidențiată de numele directorului "Virtual", atunci trebuie să scrieți un robots.txt, în care trebuie să existe aproximativ astfel de linii (în funcție de numele directoarelor):

Agent utilizator: *
Interzice: / dos
Nu permiteți: / Mac
Interzice: / koi