Как закрыть сайт от индексации в robots.txt

Индексация сайта - это поиск, обработка, сбор и размещение данных вашего ресурса в базу данных поисковых систем (например, Google, Яндекс). Когда пользователь вводит запрос в поисковую систему, она сканирует множество сайтов, чтобы найти страницы с наиболее подходящим содержанием для данного запроса. Если страница найдена, то она получает высокий рейтинг в результатах поиска и становится видимой для пользователей. Индексация сайта позволяет поисковым системам быстро находить и оценивать содержание страниц, что повышает их ранжирование в поисковых результатах.

Если сайта нет в базе данных поисковых систем, значит, его нет и в поисковой выдаче. На такой сайт нет возможности перейти по поисковым запросам.

Зачем закрывать сайт от индексации

Существует множество причин, по которым вам может потребоваться закрыть сайт из поисковых систем. Перечислим наиболее популярные:

1. Сайт на стадии разработки/доработки

В случае, когда ваш сайт еще не готов к посетителям (например, вы недавно начали его разработку или вам нужно срочно внести доработки), необходимо закрыть сайт от индексации.  Закрытие сайта от индексации может стать полезным средством для повышения качества сайта и ускорения процесса его разработки. В противном случае, на страницы низкого качества и служебные страницы будет тратится краулинговый бюджет (лимит страниц сайта, который поисковые роботы могут обойти на сайте за один день), а те страницы, которые нужны для продвижения, попадут в индекс гораздо позже.

2. Сайт узкой направленности

Веб-сайт, который ориентирован на определенную группу пользователей или целевую аудиторию. Такой сайт обычно содержит информацию и материалы, которые могут быть интересны только этой группе людей. И владелец такого сайта не хочет, чтобы случайные пользователи видели его содержание.

3. Переезд сайта или аффилированный ресурс

Переезд сайта или аффилированный ресурс — это процесс переноса содержимого и структуры веб-сайта с одного домена на другой. В результате переезда меняется адрес сайта, а также может измениться структура базы данных и файлов сайта. 

Аффилированный ресурс — это дополнительный сайт, который связан с основным сайтом через ссылку или протокол. Аффилированные ресурсы используются для увеличения доступности основного сайта и улучшения его SEO-оптимизации.

Соответственно нужно закрыть от индексации старый домен и открыть для индексации новый, поменяв при этом главное зеркало сайта.

4. Стратегия продвижения

Если стратегия продвижения предполагает использование нескольких доменных имен для одной цели. То такая стратегия позволяет увеличить охват целевой аудитории и улучшить SEO-оптимизацию. Но бывают случаи, когда нужно закрыть определенный домен, например, в определенной поисковой системе или в определенном регионе.

Как закрыть сайт от индексации

Самым простым способом является закрытие сайта от индексации в файле robots.txt.

Файл robots.txt — это текстовый файл, который содержит инструкции для поисковых роботов (например, Googlebot), какие страницы сайта следует индексировать, а какие нет. Этот файл обычно создается веб-мастером вручную или автоматически при создании сайта.

Файл robots.txt позволяет управлять тем, какие страницы сайта доступны для поиска, а какие нет. Это важно для того, чтобы поисковые системы могли правильно ранжировать сайты в поисковой выдаче и предоставлять пользователям релевантную информацию.

Файл  robots.txt находится  в корневой папке сайта. Если файла нет, то создайте его в любом текстовом редакторе и перенесите в нужную директорию.

Если у вас сайт на Битрикс, то создавать файл robots.txt с нуля не нужно. Он уже автоматически сгенерирован в административной панели. Для редактирования файла, перейдите в Маркетинг->Поисковая оптимизация->Настройка robots.txt.

В файле должны находиться только две строки:

User-agent: *

Disallow: /

Остальные правила необходимо удалить. Это позволит запретить роботам всех поисковых систем - обрабатывать и размещать информацию с вашего сайта в своих базах данных.

Как закрыть сайт от Яндекс

User-agent: Yandex

Disallow: /

Для проверки запрета индексации вашего сайта от Яндекса, необходимо загрузить файл robots.txt в Яндекс.Вебмастер, далее перейти по ссылке «webmaster.yandex.ru/tools/robotstxt/». В поле для проверки URL вставьте несколько ссылок на страницы сайта, и нажмите «Проверить». Если страницы скрыты, то напротив ссылок появится надпись «Запрещено правилом /*?*»

→ Как закрыть сайт от Google

User-agent: Googlebot

Disallow: /

Для проверки запрета индексации вашего сайта от Гугл, перейдите в панель «Google Search Console». Напротив ссылок должно отображаться «Заблокировано по строке» с командой запрета индексации.

→ Как закрыть сайт от других поисковых систем

Для каждой поисковой системы существуют роботы с уникальными именами, их можно прописать в файле robots.txt и задать для них команды.

Перечислим наиболее распространенные работы (кроме Яндекса и Google):

  • Поисковик Yahoo. Имя робота - Slurp.

  • Спутник. Имя робота - SputnikBot.

  • Microsoft Network Search. Имя робота - MSNBot.

→ Как закрыть отдельные страницы

Если вам не нужно закрывать весь сайт в целом, но вы хотите запретить просмотр отдельных страниц, например, форм регистраций, административной панели, не актуальных новостей, старых акций и так далее, используйте следующие команды:

Для отдельной страницы

User-agent: *

Disallow: /contact.htm

Для раздела User-agent: *

Disallow: /catalog/

Для всего сайта, кроме одного раздела User-agent: *

Disallow: /

Allow: /catalog

Для всего раздела, кроме одного подраздела User-agent: *

Disallow: /product

Allow: /product/auto

Для поиска на сайте User-agent: *

Disallow: /search

Для административной панели User-agent: *

Disallow: /admin

Как закрыть другую информацию от индексации

1. Как закрыть папки, скрипты, utm-метки, файлы

С помощью файла robots.txt можно закрыть не только сайт целиком или его отдельные страницы, но также можно закрыть папки на сайте, скрипты, utm-метки, файлы, изображения. Их можно скрыть полностью или выборочно. Для этого используйте следующие команды:

Типа файлов User-agent: *

Disallow: /*.jpg

Папки User-agent: *

Disallow: /images/

или

User-agent: *

Disallow: /folder/

Папку, кроме одного файла User-agent: *

Disallow: /images/

Allow: file.jpg

или

User-agent: *

Аllow: /folder/file.php

Disallow: /folder/

Скриптов User-agent: *

Disallow: /plugins/*.js

utm-меток User-agent: *

Disallow: *utm=

utm-меток для Яндекса Clean-Param: utm_source&utm_medium&utm
_campaign

2. Как закрыть от индексации изображения

Для полного запрета индексации изображений необходимо прописать команды по формату самих изображений:

User-Agent: *

Disallow: *.png

Disallow: *.jpg

Disallow: *.gif

3. Как закрыть от индексации отдельный файл в Яндексе

Необходимо написать в файле:

User-agent: Yandex

Disallow: /folder/file.php

4. Как закрыть от индексации поддомен

По общему правилу, поддомены имеют свой файл robots.txt. В большинстве случаев он находится в корневой папке поддомена. Нужно скорректировать содержимое файла с указанием закрываемых разделов. Откройте файл и пропишите:

User-agent: *

Disallow: /

Если файл отсутствует — его требуется создать.

5. Как закрыть от индексации сайт через мета-теги

Есть другой способ закрыть какой-нибудь документ или весь сайт от поисковых систем. Для этого используйте мета-тег robots.. Пропишите его в исходном коде сайта в файле index.html. Разместите его в контейнере <head>. Укажите, от каких поисковых роботов нужно закрыть сайт. Если от всех, напишите robots. Если только от одного конкретного робота, укажите его название. Для Google название робота - Googlebot, для Яндекса - Yandex. Есть два варианта записи мета-тега:

<meta name=”robots” content=”noindex, nofollow”/>

или

<meta name=”robots” content=”none”/>

Атрибут “content” имеет следующие значения:

  • none - индексация запрещена, включая noindex и nofollow

  • noindex - запрещена индексация содержимого

  • nofollow - запрещена индексация ссылок

  • follow - разрешена индексация ссылок

  • index - разрешена индексация

  • all - разрешена индексация содержимого и ссылок

При закрытии сайта от индексации через мета-теги не нужно создавать отдельный файл robots.txt.

Как закрыть сайт от индексации через настройки сервера

Существует еще один способ закрытия сайта от индексации, его применяют, когда  другие методы не сработали, а поисковые роботы все еще не реагируют на изменения. В таком случае осуществляют настройку сервера посредством файла .htaccess. 

Файла .htaccess. содержит инструкции для поисковых роботов о том, какие страницы и файлы должны быть проиндексированы, а какие нет. Если вы закроете доступ к этому файлу, поисковые роботы не смогут проиндексировать ваш сайт. Для того чтобы добавить правило в файл .htaccess, необходимо открыть его в текстовом редакторе и прописать: 

SetEnvIfNoCase User-Agent "^Googlebot" search_bot

SetEnvIfNoCase User-Agent "^Yandex" search_bot

SetEnvIfNoCase User-Agent "^Yahoo" search_bot

SetEnvIfNoCase User-Agent "^Aport" search_bot

SetEnvIfNoCase User-Agent "^msnbot" search_bot

SetEnvIfNoCase User-Agent "^spider" search_bot

SetEnvIfNoCase User-Agent "^Robot" search_bot

SetEnvIfNoCase User-Agent "^php" search_bot

SetEnvIfNoCase User-Agent "^Mail" search_bot

SetEnvIfNoCase User-Agent "^bot" search_bot

SetEnvIfNoCase User-Agent "^igdeSpyder" search_bot

SetEnvIfNoCase User-Agent "^Snapbot" search_bot

SetEnvIfNoCase User-Agent "^WordPress" search_bot

SetEnvIfNoCase User-Agent "^BlogPulseLive" search_bot

SetEnvIfNoCase User-Agent "^Parser" search_bot

Как проверить файл robots.txt на ошибки

Существует несколько способов проверки файла robots.txt на наличие ошибок. Рассмотрим наиболее распространенные из них:

  1. Использование специальных программ. Существуют специальные программы, которые позволяют проверять файл robots.txt на наличие ошибок. Например, программа ROBOTS.TXT позволяет проверить файл на наличие запрещенных директорий и файлов, а также на наличие ошибок в правилах.
  2. Использование онлайн-сервисов. Существуют онлайн-сервисы, которые позволяют проверить файл robots.txt на наличие ошибок. Например, сервис robotstxt.org проверяет файл на наличие запрещенных директорий и файлов, а также на наличие ошибок в правилах.
  3. Использование встроенных инструментов. В большинстве современных веб-браузеров есть встроенный инструмент для проверки файла robots.txt на наличие ошибок. Например:

  • Панель Вебмастера Яндекс

  • Google Search Console

Эти инструменты проверяют файл на наличие запрещенных директорий и файлов, а также на наличие ошибок в правилах.

В целом, проверка файла robots.txt на наличие ошибок может быть выполнена вручную или автоматически. Важно убедиться, что файл содержит правильные правила для всех типов сайтов и что он соответствует требованиям законодательства.

Заключение

Существует несколько способов закрытия сайта от индексации. Наиболее распространенные из них:

  1. Оптимизация файла robots.txt. Этот файл содержит инструкции для поисковых роботов о том, какие страницы и файлы должны быть проиндексированы, а какие нет. Если вы закроете доступ к этому файлу, поисковые роботы не смогут проиндексировать ваш сайт. Для того чтобы добавить правило в файл robots.txt, необходимо открыть его в текстовом редакторе и добавить следующую строку: "Disallow: /". 

  2. Использование мета-тегов. Мета-теги содержат информацию о страницах сайта, такую как заголовок страницы, URL-адрес, описание и ключевые слова. Если вы закроете доступ к метатегам, поисковые роботы не смогут проиндексировать содержимое страниц вашего сайта. Для этого нужно прописать запрет через мета-тег robots в файле index.html внутри тега.

Для закрытия служебной информации, устаревших данных, скриптов, utm-меток нужно создать отдельный правило для каждого запрета. Можно запретить индексацию данных для всех поисковых роботов через * или прописать имя конкретного робота.

Не забывайте проверять файл robots.txt на наличие запрещенных директорий и файлов, а также на наличие ошибок в правилах.

Нужна помощь или есть вопрос по настройке!? Заполните форму ниже, и мы вам перезвоним
Понравилась статья или хотите также?
Напишите, и мы ответим
Другие статьи