Что такое robots.txt ? - Компьютеры и интернет - Каталог статей

		Пятница, 18.07.2025
	Свежие новости

Главная | Регистрация | Вход

Приветствую Вас Гость | RSS

Меню сайта

Категории каталога

Спорт [10]

Кино [1]

Здоровье [12]

Компьютеры и интернет [11]

Научные статьи [10]

Недвижимость [10]

Путешествия [12]

Работа и бизнесс [10]

Интимное [13]

Наш опрос

Главная » Статьи » Компьютеры и интернет

Что такое robots.txt ?

Файл robots.txt необходим для того, чтоб запретить сетевым роботам (web crawlers, например, поисковым ботам) доступ к части содержимого сайта. Для определенного сайта файл robots.txt может быть только один и находится исключительно в корневой дирректории сайта (т.е. /robots.txt). Так как URL чувствительны к регистру, то необходимо помнить, что название файла robots.txt пишется строчными буквами. Правила запрета или разрешения на индексацию разделяются между собой пустой строкой. Первая строка правила содержит информацию об сетевом роботе User-agent: и имя этого робота (если правило распространяется на всех роботов, то ставится звездочка ). Следующие строки содержат информацию об запрещенных или разрешенных для индексации дирректорий (Disallow:). Если имя дирректории отсутствует, то индексация разрешена. Каждой инструкции Disallow соответствует одня дирректория. Если нужно закрыть несколько дирректорий, то для каждой необходимо писать свою инструкцию Disallow. Запрет индексации всего сервера* Для того, чтобы запретить индексацию всего сервера необходимо создать в корневой дирректории файл robots.txt содержащий следующие строчки: User-agent: Disallow: / В первой стоке определяется правило для всех роботов , а во второй задается запрет на доступ от корневой дирректории и выше. Запрет индексации для одного робота User-agent: BadBotDisallow: / Разрешение индексации всего сервера Для того, чтобы разрешить индексацию всего сервера пишем: User-agent: Disallow: Аналогичного эффекта можно добиться создав пустой файл robots.txt. Разрешение индексации только для одного робота* User-agent: WebCrawlerDisallow:User-agent: Disallow: / Запрет индексации отдельных дирректорий* Для запрета индексации отдельных дирректорий они записываются по одной после диррективы Disallow: User-agent: Disallow: /cgi-bin/Disallow: /tmp/Disallow: /private/ Запрет индексации отдельных файлов* Одним из способов является размещение всех необходимых для запрета файлов в отдельную дирректорию и установки на нее запрета индексации. Или же просто перечислить все запрещаемые файлы: User-agent: Disallow: /~user/private.htmlDisallow: /~user/emails.htmlDisallow: /~user/contacts.html Использование мета-инструкций для запрета индексации* Отметим, что вместо файла robots.txt можно использовать мета-инструкций (&ltMETA NAME="ROBOTS">) в заголовке HTML документа (). Например, &ltMETA NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> запрещает поисковому боту индексацию документа (NOINDEX) и анализ ссылок на странице (NOFOLLOW). Однако не все поисковые роботы анализируют эту мета-инструкцию. Источник:http://design.originweb.info
Категория: Компьютеры и интернет \| Добавил: mknews (04.11.2007)
Просмотров: 1094 \| Комментарии: 1 \| Рейтинг: 0.0/0 \|

Всего комментариев: 0

Форма входа

Поиск

Друзья сайта

Flash-Games

Статистика

Сайт управляется системой uCoz