Перевод статьи мы попросили сделать наших партнеров – редакцию сайта Первого Кембриджского образовательного центра.

Причин не показывать отдельные страницы сайтов в поисковой выдаче может быть немало. В этой статье мы обсудим разные способы, которые позволяют скрывать веб-ресурсы от поисковиков.

Основные способы удаления страницы из индекса поисковых систем:    

  • Теги noindex
  • Файлы robots.txt
  • Удаление страницы
  • Инструмент удаления URL в Google Search Console
  • Теги каноничности (rel=”canonical”)

Какой контент не нужен в Google?   

Есть несколько типов страниц, которые не стоит индексировать и показывать в выдаче Google и других систем:

  • Рекламные лендинги
  • Страницы благодарности
  • Админ-страницы
  • Результаты поиска на сайте

Еще страницы в Google скрывают из-за:

  • дублирования страниц – чтобы другие версии одного и того же контента не появлялись в поиске;
  • каннибализации ключевых слов – когда одинаковые страницы сайта конкурируют между собой за поисковые запросы;
  • чрезмерного расхода краулингового бюджета – когда Google тратит слишком много времени на поиск малополезных страниц вместо индексации важного контента.

Как Google выбирает страницы для результатов поиска?           

Прежде чем говорить о плюсах и минусах того или иного способа удаления страниц из Google, не помешает вкратце описать процесс, с помощью которого Google находит и ранжирует сайты.

  1. Краулинг – это механизм, с помощью которого Google подбирает новый контент, для чего задействуются программы-краулеры или поисковые роботы. Google заходит на разные страницы сайтов, переходит по внутренним ссылкам и так находит новые страницы. Для каждого сайта краулинговый бюджет или объем задействованных ресурсов строго ограничен.
  2. Индексация – как только Google находит нужный контент, его копия сохраняется в так называемом индексе.
  3. Ранжирование или порядок, в котором веб-страницы располагаются в результатах поиска. Пользователь вписывает запрос в Google. Поисковая система оценивает его, сопоставляет с тем, что уже есть в индексе, и выдает лучшие из имеющихся результатов.

Google применяет всевозможные подсчеты и вычисления (алгоритмы), чтобы выяснить, какие страницы самые релевантные, и располагает их повыше.

Как можно повлиять на результаты поиска Google?

Теги noindex

В сущности, это указание Google не индексировать определенные страницы, то есть не показывать их в результатах поиска. Когда поисковый робот в следующий раз просканирует страницу с этой директивой, он удалит ее из индекса или, иначе говоря, из результатов поиска.

2 способа добавить теги noindex:

  • Добавить их в HTML-код страницы.
  • Настроить возврат заголовка noindex в HTTP-ответе. 

Теги noindex, добавленные в HTML, выглядят примерно так:

Теги noindex

Теги Noindex в заголовке HTTP:

HTTP/... 200 OK

X-Robots-Tag: noindex

С помощью CMS-систем, таких как WordPress, можно и без технических знаний добавить теги noindex на страницы.

Важно помнить, что поисковому роботу необходимо просканировать страницу, чтобы обнаружить тег noindex и удалить страницы из выдачи.

Когда стоит использовать noindex. Этой опцией стоит воспользоваться, если страницы сайта выполняют определенную функцию, но при этом вы не хотите, чтобы они появлялись в Google.

Robots.txt

Robots.txt – это текстовый файл, который сообщает поисковым роботам, что нужно делать, когда они заходят на ваш сайт. С их помощью можно указать поисковой системе, какие разделы сайта разрешено обрабатывать.

Вот пример файла robots.txt на сайте Nike:

     

пример файла robots.txt на сайте Nike

Если вы используете robots.txt для блокировки определенных каталогов, таких как /admin/, это означает, что Googlebot или поисковые роботы других систем не будут даже заходить на эти страницы. Таким образом, краулинговый бюджет будет расходоваться на более важный контент.

Учитывайте, что блокируя путь к странице с помощью файлов robots.txt, вы запрещаете сохранять страницу, но при этом то, что было сохранено ранее, не удаляется и не меняется. Если страница уже есть в результатах поиска, это значит, что Google ее обработал и проиндексировал.

Если нужно удалить страницу из поиска google, блокирование с помощью robots.txt не поможет. Для этого вначале нужно добавить тег noindex, чтобы удалить страницу из индекса. И только после того, как она будет удалена, вы уже сможете заблокировать страницу в файле robots.txt.

Когда стоит блокировать страницы в robots.txt. Тогда, когда есть определенные пути к страницам или объемные разделы сайта, которые вы не хотите, чтобы Google сканировал.

Если одна страница или несколько уже появляются в поиске, вначале понадобится добавить к ним тег noindex и подождать, пока они удалятся из индекса, и лишь затем применять robots.txt.

Больше информации – в справке Google.

Удаление страницы

Самое простое решение – удалить страницу, создав код ответа 404 либо 410. Оба кода выполняют одну и ту же функцию. В результате Google удалит страницу из индекса во время ее следующего сканирования. По словам Джона Мюллера, код 410 может быть более быстрым способом удалить страницу.

С точки зрения SEO, если страница полезная (например, она генерирует трафик или обратные ссылки), тогда есть смысл настроить переадресацию 301 на релевантную страницу, чтобы сохранить ссылочный вес сайта.

Если на странице есть внутренние ссылки, а у вас нет подходящей страницы, чтобы сделать редирект 301, тогда эти внутренние ссылки нужно удалить или заменить кодом ответа 200.

Когда стоит удалять страницы. Если страница вам не нужна, если в ней мало ценности для ссылочного профиля, ее можно убрать без каких-либо нежелательных последствий. Если это полезная страница (например, нужна пользователям или ценна с точки зрения SEO), тогда ее стоит отметить тегом noindex или настроить редирект 301 на релевантную страницу.

Инструмент удаления URL в Google Search Console

Инструмент удаления в Search Console временно блокирует показ страниц в выдаче. Это временное и вместе с тем довольно эффективное решение, чтобы быстро убрать страницу из Google. 

Если нужно навсегда удалить страницу, Google рекомендует использовать 404 или 410, блокировать доступ к контенту с помощью пароля или добавлять на страницы директиву noindex.

Когда стоит использовать инструмент удаления URL. Когда нужно быстро удалить страницу из выдачи. Если хотите навсегда удалить страницу, используйте директиву noindex или коды ответа 404 или 410.

Подробнее – в справке Google.

Канонические теги                

Канонический тег – это фрагмент кода HTML, который располагается в элементе страницы и определяет основную версию страниц с похожим или одинаковым контентом. Теги каноничности помогают устранить проблемы, связанные с дублированием контента.

Вот как может выглядеть этот тег:

Канонические теги

«Канонизируя» страницу таким образом, вы указываете, какая страница должна быть основной, то есть какую страницу нужно индексировать.

В отличие от тегов noindex, которые, по сути, служат указаниями для Google, канонические теги – это только подсказки, которые Google может и проигнорировать. Другими словами, Google замечает тег каноничности, а затем уже делает вывод, показывать страницу в выдаче или нет.

Когда нужно использовать тег каноничности. Когда есть несколько дубликатов или похожих ранжирующихся страниц. Еще это поможет сосредоточить ссылочный вес на одной странице и не распределять его между несколькими.

Самый наглядный пример использования канонических тегов – параметризованные адреса. Поисковые роботы сканируют URL-адреса, а не собственно страницы. Например, у интернет-магазинов одно и то же содержимое может располагаться на разных URL. В таком случае тег каноничности подскажет Google, какая версия страницы основная.

Вот пример использования канонических тегов

Вот пример использования канонических тегов

И в заключение…

Существует несколько способов удалить или хотя бы проконтролировать то, что появляется в результатах поиска. Главное – выбрать подходящий способ для каждого конкретного случая и слчайно не удалить сайт из поиска google.

Если вы хотите научиться оптимизировать сайты и стать суперменом-сеошником, то можем предложить курс SEO-специалист. После курсов проведете аудит сайта и создадите стратегию продвижения. Научитесь анализировать конкурентов, сформируете семантическое ядро. Прогнозируя результаты продвижения, сможете оптимизировать бюджет. Привлекательно? Записывайтесь!

Подробнее о курсе