Мария Моева и Андрей Липатцев, команда качества поиска Google
В последнее время широко обсуждаются случаи появления конфиденциальной информации в результатах поиска, поэтому мы решили напомнить веб-мастерам о том, как индексируется контент и как обеспечить индексацию только предназначенных для этого страниц. Одновременно мы хотели бы еще раз рассказать пользователям о мерах, которые следует принимать при обнаружении своих конфиденциальных данных в Интернете.
Прежде всего нужно понять, что если ваши документы содержат конфиденциальную информацию, следует хорошо подумать, прежде чем помещать их на веб-сервер.
Если конфиденциальные данные всё же должны быть размещены на сайте, их следует защитить, поместив в раздел, требующий регистрации и ввода пароля. Так как поисковые системы не располагают паролями и не имеют функциональной возможности для их ввода, доступ к данным остаётся возможным только для тех, у кого есть соответствующие права.
Если владелец сайта разместит информацию в Интернете и не ограничит доступ роботам поисковых систем для сканирования и индексирования, скорее всего, эта информация будет найдена, проиндексирована и появится в результатах поиска. В этом и заключается суть работы поисковых систем: находить, структурировать информацию и делать её доступной для пользователей. Поэтому, если у вас есть веб-сайт, где размещены данные, отображение которых в результатах поиска нежелательно, на вас лежит ответственность — установить соответствующие ограничения. Ниже более подробно описывается, как это сделать.
Предотвращение сканирования и индексирования конфиденциальных данных поисковыми системами
Существует ряд способов, позволяющих веб-мастерам воспрепятствовать сканированию и индексированию личных и конфиденциальных данных поисковыми системами.
запрет на сканирование в файле robots.txt
Файл robots.txt — первый, на который обращает внимание поисковый робот при заходе на сайт, ещё до того, как он обратит внимание на какие-либо страницы. В этом файле можно указать, сканирование каких частей сайта вы хотели бы запретить при помощи команды Disallow.
Например, если вы не хотите, чтобы сканировалась папка на сайте, содержащая изображения, то в файле robots.txt можно указать следующее:
Важно помнить, что указание определённой страницы в файле robots.txt предотвратит её сканирование нашей системой, но при наличии на неё ссылок с других страниц (на вашем или других сайтах) мы всё равно можем проиндексировать её. В результате адрес страницы (URL), а также, возможно, и другая общедоступная информация, как например, анкорный текст ссылок ведущих на неё, могут появится в результатах поиска Google.
предотвращение индексирования при помощи мета-тега noindex
Этот тег можно разместить в исходном коде вашей страницы (в разделе ), тем самым запретив поисковым системам индексировать страницу, даже при обнаружении ссылок на неё с других страниц. Тег выглядит следующим образом:
<meta name=»robots» content=»noindex»>
Обратите внимание, что тег следует разместить на каждой странице, индексирование которой необходимо запретить.
предотвращение индексирования при помощи заголовка HTTP X-Robots-tag
Эффект тот же самый, как и при использовании мета-тега noindex, но этот приём особенно полезен для нетекстового содержимого, когда нет возможности разместить мета-тег в исходном коде. Ниже приведён пример применения тега X-Robots-tag в заголовке HTTP-ответа, позволяющего запретить индексацию страницы.
HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)
Если соответствующая страница всё ещё существует, но была обновлена (например, с неё были удалены ваше имя или телефонный номер), следует запросить удаление сохранённой копии этой страницы.
Если с веб-мастером связаться не удаётся, о содержимом можно сообщить напрямую в Google в следующих случаях: