Мария Моева и Андрей Липатцев, команда качества поиска Google
В последнее время широко обсуждаются случаи появления конфиденциальной информации в результатах поиска, поэтому мы решили напомнить веб-мастерам о том, как индексируется контент и как обеспечить индексацию только предназначенных для этого страниц. Одновременно мы хотели бы еще раз рассказать пользователям о мерах, которые следует принимать при обнаружении своих конфиденциальных данных в Интернете.

Прежде всего нужно понять, что если ваши документы содержат конфиденциальную информацию, следует хорошо подумать, прежде чем помещать их на веб-сервер.

Если конфиденциальные данные всё же должны быть размещены на сайте, их следует защитить, поместив в раздел, требующий регистрации и ввода пароля. Так как поисковые системы не располагают паролями и не имеют функциональной возможности для их ввода, доступ к данным остаётся возможным только для тех, у кого есть соответствующие права.

Если владелец сайта разместит информацию в Интернете и не ограничит доступ роботам поисковых систем для сканирования и индексирования, скорее всего, эта информация будет найдена, проиндексирована и появится в результатах поиска. В этом и заключается суть работы поисковых систем: находить, структурировать информацию и делать её доступной для пользователей. Поэтому, если у вас есть веб-сайт, где размещены данные, отображение которых в результатах поиска нежелательно, на вас лежит ответственность — установить соответствующие ограничения. Ниже более подробно описывается, как это сделать.

Предотвращение сканирования и индексирования конфиденциальных данных поисковыми системами

Существует ряд способов, позволяющих веб-мастерам воспрепятствовать сканированию и индексированию личных и конфиденциальных данных поисковыми системами.

  • запрет на сканирование в файле robots.txt

Файл robots.txt — первый, на который обращает внимание поисковый робот при заходе на сайт, ещё до того, как он обратит внимание на какие-либо страницы. В этом файле можно указать, сканирование каких частей сайта вы хотели бы запретить при помощи команды Disallow.

Например, если вы не хотите, чтобы сканировалась папка на сайте, содержащая изображения, то в файле robots.txt можно указать следующее:

User-agent: *
Disallow: /images/

Файл robots.txt можно легко создать в соответствующем разделе наших Инструментов для веб-мастеров или написать самостоятельно, проверив правильность составления особым инструментом, также доступным в Инструментах для веб-мастеров.

Важно помнить, что указание определённой страницы в файле robots.txt предотвратит её сканирование нашей системой, но при наличии на неё ссылок с других страниц (на вашем или других сайтах) мы всё равно можем проиндексировать её. В результате адрес страницы (URL), а также, возможно, и другая общедоступная информация, как например, анкорный текст ссылок ведущих на неё, могут появится в результатах поиска Google.

Дополнительные сведения об использовании файла robots.txt для блокирования содержимого сайтов можно найти в нашем справочном центре.

  • предотвращение индексирования при помощи мета-тега noindex

Этот тег можно разместить в исходном коде вашей страницы (в разделе ), тем самым запретив поисковым системам индексировать страницу, даже при обнаружении ссылок на неё с других страниц. Тег выглядит следующим образом:

<meta name=»robots» content=»noindex»>

Обратите внимание, что тег следует разместить на каждой странице, индексирование которой необходимо запретить.

Дополнительные сведения об использовании тега noindex можно найти в нашем справочном центре.

  • предотвращение индексирования при помощи заголовка HTTP X-Robots-tag

Эффект тот же самый, как и при использовании мета-тега noindex, но этот приём особенно полезен для нетекстового содержимого, когда нет возможности разместить мета-тег в исходном коде. Ниже приведён пример применения тега X-Robots-tag в заголовке HTTP-ответа, позволяющего запретить индексацию страницы.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

Дополнительные сведения об использовании тега X-Robots-tag можно найти на сайте code.google.com (на английском).

Меры, которые следует предпринять при непреднамеренной индексации конфиденциальных данных

Для веб-мастеров:

  • Чтобы полностью удалить содержимое следует:

  • При желании сохранить содержимое, но запретить его индексацию следует:

Для пользователей, обративших внимание на наличие их личных сведений на каком-либо сайте:

Дополнительные сведения об оформлении запросов на удаление данных можно найти в нашем справочном центре.

http://feedproxy.google.com/~r/blogspot/LMWz/~3/S3mPtT7mVAk/blog-post_02.html