Наш чат в Telegram для обмена идеями, проектами, мыслями, людьми в сфере ИТ г.Ростова-на-Дону: @it_rostov

МЕТА-тег robots

МЕТА-тег robots служит для того, чтобы разрешать или запрещать роботам, приходящим на сайт, индексировать данную страницу. Кроме того, этот тег предназначен для того, чтобы предлагать роботам пройтись по всем страницам сайта и проиндексировать их. Кроме того, этим тегом могут воспользоваться те, кто не имеет доступа к корневому каталогу сервера и изменить файл robots.txt, но хочет запретить к индексированию свои файлы и директории.

Формат мета-тега robots

МЕТА-тег robots помещается в раздел head. Формат его достаточно прост:

<meta name="robots" content="value">

Данному мета-тегу можно присвоить четыре варианта значений. Атрибут content может содержать следующие значения:
index (индексировать), noindex (не индексировать), follow (следовать по ссылкам), nofollow (не следовать по ссылкам).

Например, не индексировать данный документ:

<meta name="robots" content="noindex">

Робот поисковой машины не должен идти по ссылкам с данной страницы:

<meta name="robots" content="nofollow">

Для одновременного запрета индексирования страницы и обхода ссылок с нее используйте:

<meta name="robots" content="noindex,nofollow">

Если значений несколько, то они разделяются запятыми.

Чтобы запретить индексирование страницы на вашем сайте только роботам Google и разрешить ее индексирование другим роботам, используйте следующий тег:

<meta name="googlebot" content="noindex, nofollow">

Чтобы разрешить роботам индексировать страницу, но запретить индексирование картинок на странице, используйте следующий тег:

<meta name="robots" content="noimageindex">

Google автоматически создает и архивирует "снимок" каждой сканируемой страницы. Версия, сохраненная в кэше, позволяет показывать вашу страницу конечным пользователям, даже если исходная страница недоступна (из-за временной технической проблемы на веб-сервере). Сохраненная в кэше страница представляется пользователям в том виде, в котором ее в последний раз просканировал робот Google, при этом вверху страницы мы показываем сообщение о том, что это версия из кэша. Пользователи могут получить доступ к кэшированной версии, нажав на ссылку "Сохранено в кэше", расположенную на странице результатов поиска.

Чтобы запретить всем поисковым системам выводить эту ссылку на ваш сайт, добавьте в раздел head следующий тег:

<meta name="robots" content="noarchive">

Чтобы запретить выводить ссылку "Сохранено в кэше" только системе Google, а остальным разрешить, используйте следующий тег:

<meta name="googlebot" content="noarchive">

Примечание. Этот тег удаляет только ссылку "Сохранено в кэше" на соответствующую страницу. Google продолжит индексировать страницу и выводить ее фрагмент.

Предотвращение сканирования или удаление фрагментов

Фрагмент - это текст, который показывается под названием страницы в списке результатов поиска и описывает содержание страницы.

Чтобы запретить Google выводить фрагменты с вашей страницы, добавьте в раздел head следующий тег:

<meta name="googlebot" content="nosnippet">

Примечание. При удалении фрагментов удаляются также и сохраненные в кэше страницы.

Как сделать так, чтобы поисковые системы не использовали данные DMOZ в результатах поиска для вашего сайта

Одним из источников, которые используются при создании фрагментов описаний, является Open Directory Project. Чтобы никакие поисковые системы (поддерживающие метатеги) не использовали эту информацию для описания страницы, добавьте следующий тег:

<meta name="robots" content="noodp">

Чтобы только для Google запретить использовать эту информацию в описании страницы, добавьте тег:

<meta name="googlebot" content="noodp">

Если метатег "robots" используется для других команд, их можно объединить. Пример:

<meta name="googlebot" content="noodp, nofollow">

Пример использования описания:

<meta name="description" content="Информация для WEB-разработчиков,
    программистов и студентов ВУЗ-ов, изучающх WEB-технологии">

Поисковые запреты

Как сказать поисковой машине, что определенный участок кода не нужно индесировать или что по определенной ссылке не нужно следовать?

Каждый поисковик тут изобретает свой велосипед:
Yandex рекомендует заключать подобный текст в теги <noindex>,
Google дописывать у ссылок атрибут rel="nofollow",
Yahoo добавлять класс class="robots-nocontent".

Тег noindex

Запретить индексирование можно не только для файлов, но также и для их частей. Для того, чтобы запретить индексирование определенных частей файлов (текстовых), необходимо пометить их специальными тегами <noindex></noindex>.

При этом, тег noindex не должен нарушать вложенность других тегов. Понимает только ПС Яндекс.

rel="nofollow"

Чтобы указать поисковой системе не идти по ссылке, в теге a можно задать атрибут rel="nofollow":

<a rel="nofollow" href="htmlweb.ru">WEB-технологии</a>

Данный атрибут не влияет на индексацию ссылки. В большинстве поисковиков (кроме Google) переход по ней все-таки осуществляется. Единственная задача данного атрибута - сообщить поисковой системе, что рейтинг со страницы, на которой ссылка размещена, не должен передаваться странице, на которую данная ссылка ведет.

Если вам необходимо уменьшить количество внешних ссылок на странице, заключите их в теги
<noindex>здесь ссылки</noindex>
или
<!--noindex-->здесь ссылки<!--/noindex-->

class="robots-nocontent"

Несколько примеров того, как применять этот атрибут для различных целей и различных вариантов синтаксиса:

<div class="robots-nocontent">
    Это навигационного меню сайта и является общим на всех страницах.
    Она содержит много терминов и слов, не связанных с сайтом
</div>
<span class="robots-nocontent">
Это часть заголовка, которая присутствует на всех страницах сайта
    и не связана с какой-либо конкретной страницей
</span>
<p class="robots-nocontent">
    Это Юридическая информация требуется на каждую страницу сайта
</p>

Как часто индексировать документ поисковому роботу?

Вебмастер может "сказать" поисковому роботу или файлу bookmark пользователя, что содержимое того или иного файла будет изменяться. В этом случае робот не будет сохранять URL, а браузер пользователя внесет или не внесет это файл в bookmark. Пока эта информация описывается только в файле /robots.txt, пользователь не будет знать о том, что эта страница будет изменяться.

Мета-таг document-state может быть полезен для этого. По умолчанию, этот мета-таг принимается с content="static".

<meta name="document-state" content="static">
<meta name="document-state" content="dynamic">

Зеркала

Как исключить индексирование поисковой системой генерируемых страниц или дублирование документов, если есть зеркала сервера?

Генерируемые страницы - страницы, порождаемые действием CGI-скриптов. Их наверняка не следует индексировать, поскольку если попробовать провалиться в них из поисковой системы, будет выдана ошибка. Что касается зеркал, то негоже, когда выдаются две разные ссылки на разные сервера, но с одним и тем же содержимым. Чтобы этого избежать, следует использовать мета-таг URL с указанием абсолютного URL этого документа (в случае зеркал - на соответствующую страницу главного сервера).

<meta name="url" content="absolute_url">


Ещё почитать по теме:

.