Правильні методи видалення дублів сторінок. Як позбутися від дублів сторінок Правильна робота з дублями сторінок

Приводом для написання цієї статті став черговий дзвінок бухгалтера з панікою перед здачею звітності з ПДВ. У минулому кварталі витратив багато часу на прибирання дублів контрагентів. І знову вони, ті ж самі і нові. Звідки?

Вирішив витратити час, і розібратися з причиною, а не наслідком. Ситуація з основному актуальна при налаштованих автоматичних вивантаженнях через плани обміну з керуючої програми (в моєму випадку УТ 10.3) в бухгалтерію підприємства (в моєму випадку 2.0).

Кілька років тому були встановлені ці зміни, і налаштований автоматичний обмін між ними. Зіткнулися з проблемою своєрідності ведення довідника контрагентів відділом продажів, які почали заводити дублі контрагентів (з тим же ІПН / КПП / Найменуванням) з тих чи інших причин (одного і того ж контрагента вони розкидали по різних груп). Бухгалтерія висловила своє "фе", і постановила - нам не важливо, що там у них, об'єднуйте картки при завантаженні в одну. Довелося втрутитися в процес перенесення об'єктів правилами обміну. Прибрали для контрагентів пошук по внутрішньому ідентифікатором, і залишили пошук по ІПН + КПП + Найменування. Однак і тут спливли свої підводні камені у вигляді любителів перейменовувати найменування контрагентів (в результаті створюються дублі в БП вже самими правилами). Зібралися всі разом, обговорили, вирішили, переконали, що в УТ у нас дублі неприпустимі, прибрали їх, повернулися до стандартними правилами.

Ось тільки після "причісування" дублів в УТ і в БП - внутрішні ідентифікатори у багатьох контрагентів розрізнялися. А так як типові правила обміну здійснюють пошук об'єктів виключно з внутрішнього ідентифікатором, то з черговою порцією документів в БП прилітав і новий дубль контрагента (в разі, якщо ці ідентифікатори розрізнялися). але універсальний обмін даними XML не був би універсальним, якби цю проблему обійти було неможливо. Оскільки ідентифікатор існуючого об'єкта штатними засобами змінити неможливо, то можна обійти цю ситуацію за допомогою спеціального регістра відомостей "Відповідність об'єктів для обміну", який є у всіх типових конфігураціях від 1С.

Для того, щоб не виникало нових дублів алгоритм прибирання дублів став наступним:

1. У БП за допомогою обробки "Пошук і заміна дублюються елементів" (вона типова, її можна взяти з конфігурації Управління торгівлею або на диску ІТС, або вибрати найбільш підходящу серед безлічі варіацій на самому Інфостарте) знаходжу дубль, визначаю вірний елемент, натискаю виконати заміну.

2. Отримую внутрішній ідентифікатор єдиного (після заміни) об'єкта нашого дубля (накидав спеціально простеньку обробку для цього, щоб внутрішній ідентифікатор автоматично копіювався в буфер обміну).

3. Відкриваю в УТ регістр "Відповідність об'єктів для обміну", роблю відбір за власною посиланням.

Боротьба з дублями сторінок

Власник може і не підозрювати, що на його сайті деякі сторінки мають копії - найчастіше так і буває. Сторінки відкриваються, з їх вмістом все в порядку, але якщо тільки звернути увагу на, то можна помітити, що при одному і тому ж контенті адреси різні. Що це означає? Для живих користувачів зовсім нічого, так як їм цікава інформація на сторінках, а ось бездушні пошукові машини сприймають таке явище абсолютно по-іншому - для них це абсолютно різні сторінки з однаковим контентом.

Чи шкідливі дублі сторінок? Отже, якщо пересічний користувач навіть не зможе помітити наявність дублів на вашому сайті, то пошуковики це відразу визначать. Якої реакції від них чекати? Так як по суті копії бачать як різні сторінки, то контент на них перестає бути унікальним. А це вже негативно позначається на ранжируванні.

Також наявність дублів розмиває, який оптимізатор намагався зосередити на цільовій сторінці. Через дублів, він може виявитися зовсім не на тій сторінці, на яку його хотіли перенести. Тобто ефект від внутрішньої перелинковки і зовнішніх посилань може багаторазово знизитися.

У переважній більшості випадків у виникненні дублів винні - через не правильних налаштувань і відсутності належної уваги оптимізатора генеруються чіткі копії. Цим грішать багато CMS, наприклад, Joomla. Для вирішення проблеми важко підібрати універсальний рецепт, але можна спробувати скористатися одним з полігонів для видалення копій.

Виникнення ж нечітких дублів, в яких вміст не повністю ідентично, зазвичай відбувається з вини вебмастера. Такі сторінки часто зустрічаються на сайтах інтернет-магазинів, де сторінки з картками товарів відрізняються лише кількома реченнями з описом, а весь інший контент, що складається з наскрізних блоків та інших елементів, однаковий.

Багато фахівців стверджують, що невелика кількість дублів не зашкодить сайту, але якщо їх більше 40-50%, то ресурс при просуванні можуть очікувати серйозні труднощі. У будь-якому випадку, навіть якщо копій не так багато, варто зайнятися їх усуненням, так ви гарантовано позбавитеся від проблем з дублями.

Пошук сторінок-копій Існує кілька способів пошуку дубльованих сторінок, але для початку варто звернутися до декількох пошуковим і подивитися, як вони бачать ваш сайт - потрібно лише порівняти кількість сторінок в індексі кожного. Зробити це досить просто, не вдаючись до жодних додаткових засобів: в «Яндексі» або Google досить в рядок пошуку ввести host: yoursite.ru і подивитися на кількість результатів.

Якщо після такої простої перевірки кількість буде сильно відрізнятися, в 10-20 разів, то це з деякою часткою ймовірності може говорити про зміст дублів в одній з них. Сторінки-копії можуть бути і не винні в такій різниці, але тим не менше це дає привід для подальшого більш ретельного пошуку. Якщо ж сайт невеликий, то можна вручну порахувати кількість реальних сторінок і потім порівняти з показниками з пошукових систем.

Шукати дубльовані сторінки можна за URL у видачі пошукової системи. Якщо у них повинні бути ЧПУ, то сторінки з URL з незрозумілих символів, на зразок «index.php? S \u003d 0f6b2903d», будуть відразу вибиватися із загального списку.

Ще один спосіб визначення наявності дублів засобами пошукових систем - це пошук за фрагментами тексту. Процедура такої перевірки проста: треба ввести фрагмент тексту з 10-15 слів з кожної сторінки в рядок пошуку, а потім проаналізувати результат. Якщо у видачі буде дві і більше сторінок, то копії є, якщо ж результат буде всього один, то дублів у Сторінка наразі не має, і можна не хвилюватися.

Логічно, що якщо сайт складається з великої кількості сторінок, то така перевірка може перетворитися в нездійсненне рутину для оптимізатора. Щоб мінімізувати тимчасові витрати, можна скористатися спеціальними програмами. Один з таких інструментів, який напевно знаком досвідченим фахівцям, - програма Xenu`s Link Sleuth.

Щоб перевірити сайт, необхідно відкрити новий проект, вибравши в меню «File» «Check URL», ввести адресу і натиснути «OK». Після цього програма почне обробку всіх URL сайту. Після закінчення перевірки потрібно експортувати отримані дані в будь-який зручний редактор і почати пошуки дублів.

Крім перерахованих вище способів в інструментарії панелей «Яндекс.Вебмайстер» і Google Webmaster Tools є кошти для перевірки індексації сторінок, якими можна скористатися для пошуку дублів.

Методи вирішення проблеми Після того як всі дублі будуть знайдені, потрібно їх усунення. Це теж можна зробити декількома способами, але для кожного конкретного випадку потрібен свій метод, не виключено, що доведеться використовувати їх все.

Сторінки-копії можна видаляти вручну, але такий спосіб швидше підійде тільки для тих дублів, які і були створені ручним способом через необачність вебмастера.
Редирект 301 відмінно підходить для склеювання сторінок-копій, URL яких відрізняються наявністю і відсутністю www.
Рішення проблеми з дублями за допомогою тега canonical можна застосовувати для нечітких копій. Наприклад, для категорій товарів в інтернет-магазині, які мають дублі, що відрізняються сортуванням за різними параметрами. Також canonical підійде для версій сторінок для друку і в інших подібних випадках. Застосовується він досить просто - для всіх копій вказується атрибут rel \u003d "canonical", а для основної сторінки, яка найбільш релевантна, - немає. Код повинен виглядати приблизно так: link rel \u003d "canonical" href \u003d "http://yoursite.ru/stranica-kopiya" /, і стояти в межах тега head.
У боротьбі з дублями може допомогти настройка файлу robots.txt. Директива Disallow дозволить закрити доступ до дублям для пошукових роботів. Детальніше про синтаксис цього файлу ви можете прочитати в нашій розсилки.

Дублі - це сторінки на одному і тому ж домені з ідентичним або дуже схожим вмістом. Найчастіше з'являються через особливості роботи CMS, помилок в директивах robots.txt або в налаштуванні 301 редиректів.

У чому небезпека дублів

1. Неправильна ідентифікація релевантної сторінки пошуковим роботом. Припустимо, у вас одна і та ж сторінка доступна за двома URL:

Https://site.ru/kepki/

Https://site.ru/catalog/kepki/

Ви вкладали гроші в просування сторінки https://site.ru/kepki/. Тепер на неї посилаються тематичні ресурси, і вона зайняла позиції в топ-10. Але в якийсь момент робот виключає її з індексу і натомість додає https://site.ru/catalog/kepki/. Природно, ця сторінка ранжируется гірше і привертає менше трафіку.

2. Збільшення часу, необхідного на переобход сайту роботами. На сканування кожного сайту роботам виділяється обмежений час. Якщо багато дублів, робот може так і не дістатися до основного контенту, через що індексація затягнеться. Ця проблема особливо актуальна для сайтів з тисячами сторінок.

3. Накладення санкцій з боку пошукових систем. Самі по собі дублі не є приводом до пессимізації сайту - до тих пір, поки пошукові алгоритми не вважав за, що ви створюєте дублі навмисно з метою маніпуляції видачею.

4. Проблеми для вебмастера. Якщо роботу над усуненням дублів відкладати в довгий ящик, їх може накопичитися таку кількість, що веб-майстру чисто фізично буде складно обробити звіти, систематизувати причини дублів і внести коригування. Великий обсяг роботи підвищує ризик помилок.

Дублі умовно діляться на дві групи: явні і неявні.

Явні дублі (сторінка доступна за двома або більше URL)

Варіантів таких дублів багато, але всі вони схожі за своєю суттю. Ось найпоширеніші.

1. URL зі слешем в кінці і без нього

Https://site.ru/list/

Https://site.ru/list

Що робити: налаштувати відповідь сервера «HTTP 301 Moved Permanently» (301-й редирект).

Як це зробити:

- знайти в кореневій папці сайту файл.htaccess і відкрити (якщо його немає - створити в форматі TXT, назвать.htaccess і помістити в корінь сайту);
- прописати в файлі команди для редиректу з URL зі слешем на URL без слеша:

RewriteCond% (REQUEST_FILENAME)! -D
RewriteCond% (REQUEST_URI) ^ (. +) / $
RewriteRule ^ (. +) / $ / $ 1

- зворотна операція:

RewriteCond% (REQUEST_FILENAME)! -F
RewriteCond% (REQUEST_URI)! (. *) / $
RewriteRule ^ (. * [^ /]) $ $ 1 /

- якщо файл створюється з нуля, все редіректи необхідно прописувати всередині таких рядків:

…

Налаштування 301 редиректу з помощью.htaccess підходить тільки для сайтів на Apache. Для nginx і інших серверів редирект налаштовується іншими способами.

Який URL кращий: з слешем або без? Чисто технічно - ніякої різниці. Дивіться по ситуації: якщо проіндексовано більше сторінок зі слешем, залишайте цей варіант, і навпаки.

2. URL з WWW і без WWW

Https://www.site.ru/1

Https://site.ru/1

Що робити: вказати на головне дзеркало сайту в панелі для вебмайстрів.

Як це зробити в Яндексі:

- перейти в Яндекс.Вебмайстер

- вибрати в Панелі сайт, з якого буде йти перенаправлення (найчастіше перенаправляють на URL без WWW);
- перейти в розділ «Індексування / Переїзд сайту», прибрати галочку напроти пункту «Додати WWW» і зберегти зміни.

Протягом 1,5-2 тижнів Яндекс склеїть дзеркала, переіндексірует сторінки, і в пошуку з'являться тільки URL без WWW.

Важливо! Раніше для вказівки на головне дзеркало в файлі robots.txt необхідно було прописувати директиву Host. Але вона більше не підтримується. Деякі веб-майстри «для підстраховки» до сих пір вказують цю директиву і для ще більшої впевненості налаштовують 301 редирект - в цьому немає необхідності, досить налаштувати склейку в вебмайстрів.

Як склеїти дзеркала в Google:

- перейти в Google Search Console і додати 2 версії сайту - з WWW і без WWW;

- вибрати в Search Console сайт, з якого буде йти перенаправлення;
- клікнути по значку шестерінки в верхньому правому куті, вибрати пункт «Налаштування сайту» і вибрати основний домен.

Як і у випадку з Яндексом, додаткові маніпуляції з 301 редирект не потрібні, хоча реалізувати склейку можна і з його допомогою.

Що потрібно зробити:

- вивантажите список проіндексованих URL з Яндекс.Вебмайстер;
- завантажте цей список в інструмент від SeoPult - списком або за допомогою XLS-файлу (детальна інструкція по використанню інструменту);

- запустіть аналіз і скачайте результат.

У цьому прикладі сторінки пагінацію проіндексовані Яндексом, а Google - немає. Причина в тому, що вони закриті від індексації в robots.txt тільки для бота Yandex. Рішення - налаштувати канонізацію для сторінок пагінацію.

Використовуючи парсер від SeoPult, ви зрозумієте, дублюються сторінки в обох пошукових системах або тільки в одному. Це дозволить підібрати оптимальні інструменти вирішення проблеми.

Якщо у вас немає часу або досвіду на те, щоб розібратися з дублями, замовте аудит - крім наявності дублів ви отримаєте масу корисної інформації про свій ресурс: наявність помилок в HTML-коді, заголовках, мета-тегах, структурі, внутрішньої перелинковке, юзабіліті, оптимізації контента і т. д. В результаті у вас на руках будуть готові рекомендації, виконавши які, ви зробите сайт більш привабливим для відвідувачів і підвищите його позиції в пошуку.

Дублі сторінок на сайтах або блогах, Звідки вони беруться і які проблеми можуть створити.
Саме про це поговоримо в цій статті, постараємося розібратися з цим явищем і знайти шляхи мінімізації тих потенційних неприємностей, які можуть принести нам дублі сторінок на сайті.

Отже, продовжимо.

Що таке дублі сторінок?

Дублі сторінок на будь-якому веб-ресурсі означає доступ до однієї і тієї ж інформації за різними адресами. Такі сторінки ще називають внутрішніми дублями сайту.

Якщо тексти на сторінка абсолютно ідентичні, то такі дублі називають повними або чіткими. При частковому збігу дублі називають неповними або нечіткими.

неповні дублі - це сторінки категорій, сторінки переліку товарів і тому подібні сторінки, що містять анонси матеріалів сайту.

Повні дублі сторінок- це версії для друку, версії сторінок з різними розширеннями, сторінки архівів, пошуку на сайті, сторінки з коментарями так далі.

Джерела дублів сторінок.

На даний момент більшість дублів сторінок породжуються при використанні сучасних CMS - системами управління контентом, ще їх називають двигунами сайтів.

це і WordPress, і Joomla, і DLE і інші популярні CMS. Це явище серйозно напружує оптимізаторів сайтів і веб-майстрів і приносить їм додатковий клопіт.

В інтернет-магазинах дублі можуть з'явитися при показі товарів з сортуванням по різним реквізитами (виробнику товару, призначенням товару, дату виготовлення, ціні і т.п.).

Також треба згадати про горезвісну приставці WWWі визначитися, чи використовувати її в імені домена при створенні, розвитку, просуванні та розкрутці сайту.

Як бачимо, джерела виникнення дублів можуть бути різними, я перерахував тільки основні, але всі вони добре відомі фахівцям.

Дублі сторінок, негативні.

Незважаючи на те, що багато на появу дублів не звертають особливої \u200b\u200bуваги, це явище може створити серйозні проблеми при просуванні сайтів.

Пошукова система може розцінити дублі як спамі, внаслідок цього, серйозно знизити позиції як цих сторінок, так і сайту в цілому.

При просуванні сайту посиланнями може виникнути наступна ситуація. У якийсь момент пошукова система розцінить як найбільш релевантну сторінку-дубль, А не ту, яку Ви просуваєте посиланнями і всі ваші зусилля і витрати будуть марними.

Але є люди, які намагаються використовувати дублі для нарощування ваги на потрібні сторінки, Головну, наприклад, або будь-яку іншу.

Методи боротьби з дублями сторінок

Як же уникнути дублів або як звести нанівець негативні моменти при їх появі?
І взагалі чи варто з цим якось боротися або ж все віддати на милість пошуковим системам. Нехай самі розбираються, раз вони такі розумні.

Використання robots.txt

Robots.txt- це файл, який розміщується в кореневому каталозі нашого сайту і містить директиви для пошукових роботів.

У цих директивах ми вказуємо які сторінки на нашому сайті індексувати, а які ні. Також можемо вказати ім'я основного домену сайту і файл, який містить карту сайту.

Для заборони індексації сторінок використовується директива Disallow. Саме її використовують веб-майстра, для того, щоб закрити від індексації дублі сторінок, та й не тільки дублі, а будь-яку іншу інформацію, що не відноситься безпосередньо до змісту сторінок. наприклад:

Disallow: / search / - закриваємо сторінки пошуку по сайту
Disallow: / *? - закриваємо сторінки, що містять знак питання "?"
Disallow: / 20 * - закриваємо сторінки архіву

Використання файла.htaccess

Файл.htaccess(Без розширення) теж розміщується в кореневому каталозі сайту. Для боротьби з дублями в цьому файлі налаштовують використання 301 редиректу.
Цей спосіб добре допомагає зберегти показники сайту при зміні CMS сайту або зміні його структури. В результаті виходить коректна переадресація без втрати маси посилань. При цьому вага сторінки за старою адресою буде передаватися сторінці за новою адресою.
301 редирект застосовують і при визначенні основного домену сайту - з WWW або без WWW.

Використання тега REL \u003d "CANNONICAL"

За допомогою цього тега вебмастер вказує пошуковій системі першоджерело, тобто ту сторінку, яка повинна бути проіндексована і брати участь в ранжируванні пошукових систем. Сторінку прийнято називати канонічної. Запис в HTML-коді буде виглядати наступним чином:

При використанні CMS WordPress це можна зробити в налаштуваннях такого корисного плагіна як All in One Seo Pack.

Додаткові заходи боротьби з дублями для CMS WordPress

Застосувавши всі перераховані вище методи боротьби з дублями сторінок на своєму блозі у мене весь час було відчуття, що я зробив не все, що можна. Тому покопавшись в інтернеті, порадившись з професіоналами, вирішив зробити ще дещо. Зараз я це опишу.

Я вирішив усунути дублі, які створюються на блозі, при використанні якорів, я про них розповів у статті «Якорі HTML». На блогах під керуванням CMS WordPress якоря утворюються при застосуванні тега «#More» і при використанні коментарів. Доцільність їх застосування досить спірна, а ось дублі вони плодять явно.
Тепер як я усунув цю проблему.

Спочатку займемося тегом #more.

Знайшов файл, де він формується. Вірніше мені підказали.
Це ../ wp-includes / post-template.php
Потім знайшов фрагмент програми:

ID) \\ »class \u003d \\" more-link \\ "\u003e $ more_link_text», $ More_link_text);

Фрагмент, зазначений червоним кольором прибрав

#more - ($ post-\u003e ID) \\ »class \u003d

І отримав в результаті рядок ось такого виду.

$ Output. \u003d Apply_filters ( 'the_content_more_link', ' $ more_link_text», $ More_link_text);

Прибираємо якоря коментарів #comment

Тепер перейдемо до коментарів. Це вже сам додумав.
Теж визначився з файлом ../wp-includes/comment-template.php
Знаходимо потрібний фрагмент програмного коду

return apply_filters ( 'get_comment_link', $ link . '# Comment-'. $ Comment-\u003e comment_ID, $ Comment, $ args);)

Аналогічно фрагмент, зазначений червоним прибрав. Дуже акуратно, уважно, аж до кожної точки.

. '# Comment-'. $ Comment-\u003e comment_ID

Отримуємо в результаті наступний рядок програмного коду.

return apply_filters ( 'get_comment_link', $ link, $ comment, $ args);
}

Природно все це робив, попередньо скопіювавши зазначені програмні файли до себе на комп'ютер, щоб в разі невдачі легко відновити стан до змін.

В результаті цих змін при натисканні на текст «Читати решту записи ...» у мене формується сторінка з канонічним адресою і без добавки до адресою хвоста у вигляді «# more- ....». Також при кліці на коментарі у мене формується нормальний канонічний адресу без приставки в вигляді «# comment- ...».

Тим самим кількість дублів сторінок на сайті дещо зменшилася. Але що там ще сформує наш WordPress зараз сказати не можу. будемо відстежувати проблему далі.

І на закінчення пропоную Вашій увазі дуже непогане і пізнавальне відео по цій темі. настійно рекомендую подивитися.

Всім здоров'я і успіхів. До наступних зустрічей.

Корисні Матеріали:

Дублі сторінок - одна з безлічі причин зниження позицій в пошуковій видачі і навіть потрапляння під фільтр. Щоб цього не допустити, потрібно попередити потрапляння їх в індекс пошукових систем.

Визначити наявність дублів на сайті і позбутися від них можна різними способами, Але серйозність проблеми в тому, що дублі не завжди бувають марними сторінками, просто вони не повинні перебувати в індексі.

Цю проблему ми зараз і будемо вирішувати, тільки для початку з'ясуємо, що таке дублі і як вони виникають.

Що таке дублі сторінок

Дублі сторінок - це копія контенту канонічної (основний) сторінки, але з іншим url. Тут важливо зазначити, що вони можуть бути як повними, так і частковими.

повне дублювання є точною копією, але зі своєю адресою, відмінність якого може проявлятися в Слеш, абревіатурі www, підміні параметрів index.php ?, page \u003d 1, page / 1 та ін.

часткове дублювання проявляється в неповному копіюванні контенту і пов'язано зі структурою сайту, коли індексуються анонси каталогу статей, архіви, контент з сайдбара, сторінки пагінацію та інші наскрізні елементи ресурсу, що містяться на канонічній сторінці. Це притаманне більшості CMS та інтернет-магазинів, в яких наявність каталогу є невід'ємною частиною структури.

Про наслідки виникнення дублів ми вже говорили, а відбувається це внаслідок розподілу посилальної маси між дублікатами, підміни сторінок в індексі, втрати унікальності контенту та ін.

Як знайти дублі сторінок на сайті

Для пошуку дублів можна використовувати такі методи:

пошуковий рядок Google. За допомогою конструкції site: myblog.ru, де myblog.ru - ваш url, виявляються сторінки з основного індексу. Щоб побачити дублі, потрібно перейти на останню сторінку пошукової видачі і клікнути по рядку «показати приховані результати»;
команда «Розширений пошук» в Яндексі. Вказавши в спеціальному вікні адресу свого сайту і вписуючи в лапках одна з пропозицій проіндексованою статті, яка піддається перевірці, ми повинні отримати тільки один результат. Якщо їх більше - це дублі;
панель інструментів для веб-майстрів в ПС;
вручну, Підставляючи в адресний рядок слеш, www, html, asp, php, великі та маленькі літери регістрів. У всіх випадках переадресація повинна відбуватися на сторінку з основною адресою;
спеціальні програми і сервіси: Xenu, MegaIndex і ін.

Видалення дублів сторінок

Способів усунення дублів також є кілька. Кожен з них має свій вплив і наслідки, Тому говорити про найбільш ефективному не доводиться. Слід пам'ятати, що фізичне знищення проіндексованого дубліката не є виходом: пошуковики про нього все одно будуть пам'ятати. Тому найкращий метод боротьби з дублями - запобігання їх появи за допомогою правильних налаштувань роботи сайту.

Ось деякі із способів усунення дублів:

Налаштування Robots.txt. Це дозволить закрити від індексації певні сторінки. Але якщо роботи Яндекса сприйнятливі до даного файлу, То Google захоплює навіть закриті ним сторінки, не особливо зважаючи на його рекомендацій. Крім того, за допомогою Robots.txt видалити проіндексовані дублі дуже складно;
301 редирект. Він сприяє склеюванню дублів з канонічної сторінкою. Метод діє, але не завжди корисний. Його не можна застосовувати в разі, коли дублікати повинні залишатися самостійними сторінками, але не повинні піддаватися індексації;
Присвоєння 404 помилки проіндексованим дублям. Метод дуже хороший для їх видалення, але потребують деякого часу, перш ніж проявиться ефект.

Коли ж нічого склеювати і видаляти нічого не можна, а втрачати вагу сторінки і отримувати покарання від пошукових систем не хочеться, то використовується атрибут rel canonical href.

Атрибут rel canonical на боротьбі з дублями

Почну з прикладу. В інтернет-магазині є дві сторінки з картками товарів ідентичного змісту, але на одній товари розташовані в алфавітному порядку, а на інший за вартістю. Обидві потрібні і перенаправлення не допускається. При цьому для пошукових систем це явний дубль.

У цьому випадку раціонально використання тега link rel canonical, Що вказує на канонічну сторінку, яка індексується, але при цьому не основна сторінка залишається доступною користувачам.

Робиться це в такий спосіб: в блоці head коду сторінок-дублікатів вказується посилання «Link rel \u003d" canonical "href \u003d" http://site.ru/osnovnaya stranitsa "/", Де stranitsa - адреса канонічної сторінки.

З таким підходом користувач може безперешкодно відвідувати будь-яку сторінку сайту, а ось робот, прочитавши в коді атрибут rel canonical, відправиться індексувати тільки ту, адреса якої вказана на засланні.

Даний атрибут може бути корисний і для сторінок з пагінацією. В цьому випадку створюють сторінку «Показати все» (таку «онучу») і приймають за канонічну, а сторінки пагінацію відправляють робота на неї через rel canonical.

Таким чином, вибір методу боротьби з дублюванням сторінок залежить від характеру їх виникнення і необхідності присутності на сайті.