Как закрыть сайт или страницу от индексации в поисковых системах?
На стадии разработки и/или редизайна проекта бывают ситуации, когда лучше не допускать поисковых роботов на сайт или его копию. В этом случае рекомендуется закрыть сайт от индексации поисковых систем. Сделать это можно следующим образом:
Закрыть сайт от индексации очень просто, достаточно в настройках сайта в блоке "Содержимое файла robots.txt" прописать в нём следующие строки:
User-agent: Yandex
Disallow: /
Такие строки закроют сайт от поискового робота Яндекса.
User-agent: *
Disallow: /
А таким образом можно закрыть сайт от всех поисковых систем (Яндекса, Google и других).
Как закрыть от индексации отдельную папку? #
Отдельную папку можно закрыть от поисковых систем в том же поле с её явным указанием (будут скрыты все файлы внутри этой папки).
User-agent: *
Disallow: /folder/
Если какой-то отдельный файл в закрытой папке хочется отдельно разрешить к индексации, то используйте два правила Allow и Disallow совместно:
User-agent: *
Аllow: /folder/file.php
Disallow: /folder/
Как закрыть отдельный файл в Яндексе? #
Всё по аналогии.
User-agent: Yandex
Disallow: /folder/file.php
Как закрыть конкретную страницу в Яндексе? #
Всё по аналогии.
User-agent: Yandex
Disallow: /pagename
Как скрыть от индексации картинки? #
Картинки форматов jpg, png и gif могут быть запрещены к индексации следующими строчками в поле robots:
User-Agent: *
Disallow: *.jpg
Disallow: *.png
Disallow: *.gif
Как обращаться к другим поисковым роботам (список) #
У каждой поисковой системы есть свой список поисковых роботов (их несколько), к которым можно обращаться по имени в поле "Содержимое файла robots.txt". Приведем список основных из них (полные списки ищите в помощи Вебмастерам):
- Yandex — основной робот-индексатор Яндекса.
- Googlebot — основной робот-индексатор от Google.
- Slurp — поисковый робот от Yahoo!.
- MSNBot — поисковый робот от MSN (поисковая система Bing от Майкрософт).
- SputnikBot — имя робота российского поисковика Спутник от Ростелекома.
Прочие директивы в robots.txt #
Поисковая система Яндекс также поддерживает следующие дополнительные директивы в файле:
-
«Crawl-delay:» — задает минимальный период времени в секундах для последовательного скачивания двух файлов с сервера. Также поддерживается и большинством других поисковых систем. Пример записи: Crawl-delay: 0.5
-
«Clean-param:» — указывает GET-параметры, которые не влияют на отображение контента сайта (скажем UTM-метки или ref-ссылки). Пример записи: Clean-param: utm /pagename
-
«Sitemap:» — указывает путь к XML-карте сайта, при этом, карт может быть несколько. Также директива поддерживается большинством поисковых систем (в том числе Google). Пример записи: Sitemap: https://energy-bm.ru/sitemap.xml
Закрыть страницу и сайт с помощью meta-тега name="robots" #
Также, можно закрыть сайт или заданную страницу от индексации с помощь мета-тега robots. Данный способ является даже предпочтительным и с большим приоритетом выполняется пауками поисковых систем. Для скрытия от индексации в настройках сайта/страницы в поле <head> </head> документа устанавливается следующий код:
<meta name="robots" content="noindex, nofollow"/>
Или (полная альтернатива):
<meta name="robots" content="none"/>
С помощью meta-тега можно обращаться и к одному из роботов, используя вместо name="robots" имя робота, а именно:
Для паука Google:
<meta name="googlebot" content="noindex, nofollow"/>
Или для Яндекса:
<meta name="yandex" content="none"/>