Воскресенье, 24.11.2024
Свежие новости
Меню сайта
Категории каталога
Спорт [10]
Кино [1]
Здоровье [12]
Компьютеры и интернет [11]
Научные статьи [10]
Недвижимость [10]
Путешествия [12]
Работа и бизнесс [10]
Интимное [13]
Наш опрос
Интересен ли вам наш сайт ?
Всего ответов: 122
Главная » Статьи » Компьютеры и интернет

Что такое robots.txt ?
Файл robots.txt необходим для того, чтоб запретить сетевым роботам (web crawlers, например, поисковым ботам) доступ к части содержимого сайта. Для определенного сайта файл robots.txt может быть только один и находится исключительно в корневой дирректории сайта (т.е. /robots.txt). Так как URL чувствительны к регистру, то необходимо помнить, что название файла robots.txt пишется строчными буквами.

Правила запрета или разрешения на индексацию разделяются между собой пустой строкой. Первая строка правила содержит информацию об сетевом роботе User-agent: и имя этого робота (если правило распространяется на всех роботов, то ставится звездочка *). Следующие строки содержат информацию об запрещенных или разрешенных для индексации дирректорий (Disallow:). Если имя дирректории отсутствует, то индексация разрешена. Каждой инструкции Disallow соответствует одня дирректория. Если нужно закрыть несколько дирректорий, то для каждой необходимо писать свою инструкцию Disallow.

Запрет индексации всего сервера

Для того, чтобы запретить индексацию всего сервера необходимо создать в корневой дирректории файл robots.txt содержащий следующие строчки:

 User-agent: *Disallow: /
В первой стоке определяется правило для всех роботов *, а во второй задается запрет на доступ от корневой дирректории и выше.

Запрет индексации для одного робота

 User-agent: BadBotDisallow: /

Разрешение индексации всего сервера

Для того, чтобы разрешить индексацию всего сервера пишем:

 User-agent: *Disallow:
Аналогичного эффекта можно добиться создав пустой файл robots.txt.

Разрешение индексации только для одного робота

 User-agent: WebCrawlerDisallow:User-agent: *Disallow: /

Запрет индексации отдельных дирректорий

Для запрета индексации отдельных дирректорий они записываются по одной после диррективы Disallow:

 User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /private/

Запрет индексации отдельных файлов

Одним из способов является размещение всех необходимых для запрета файлов в отдельную дирректорию и установки на нее запрета индексации. Или же просто перечислить все запрещаемые файлы:

 User-agent: *Disallow: /~user/private.htmlDisallow: /~user/emails.htmlDisallow: /~user/contacts.html

Использование мета-инструкций для запрета индексации

Отметим, что вместо файла robots.txt можно использовать мета-инструкций (&ltMETA NAME="ROBOTS">) в заголовке HTML документа (). Например,

 &ltMETA NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
запрещает поисковому боту индексацию документа (NOINDEX) и анализ ссылок на странице (NOFOLLOW). Однако не все поисковые роботы анализируют эту мета-инструкцию.

Источник:http://design.originweb.info

Категория: Компьютеры и интернет | Добавил: mknews (04.11.2007)
Просмотров: 1077 | Комментарии: 1 | Рейтинг: 0.0/0 |
Всего комментариев: 0
Имя *:
Email *:
Код *:
Форма входа
Поиск
Друзья сайта
Статистика
Copyright MyCorp © 2024
Сайт управляется системой uCoz