Файл /robots.txt предназначен для указания всем
поисковым роботам индексировать информационные сервера так, как
определено в этом файле, т.е. только те директории и файлы сервера,
которые НЕ описаны в /robots.txt. Это файл должен содержать 0 или более
записей, которые связаны с тем или иным роботом (что определяется
значением поля agent_id), и указывают для каждого робота или для всех
сразу что именно им НЕ НАДО индексировать. Тот, кто пишет файл
/robots.txt, должен указать подстроку Product Token поля User-Agent,
которую каждый робот выдает на HTTP-запрос индексируемого сервера.
Например, нынешний робот Lycos на такой запрос выдает в качестве поля
User-Agent:
Lycos_Spider_(Rex)/1.0 libwww/3.1
Если робот Lycos не нашел своего описания в
/robots.txt - он поступает так, как считает нужным. При создании файла
/robots.txt следует учитывать еще один фактор - размер файла. Поскольку
описывается каждый файл, который не следует индексировать, да еще для
многих типов роботов отдельно, при большом количестве не подлежащих
индексированию файлов размер /robots.txt становится слишком большим. В
этом случае следует применять один или несколько следующих способов
сокращения размера /robots.txt:
указывать директорию, которую не следует индексировать, и,
соответственно, не подлежащие индексированию файлы располагать именно в
ней
создавать структуру сервера с учетом упрощения описания исключений в /robots.txt
указывать один способ индексирования для всех agent_id
Описание параметров, применяемых в записях /robots.txt
[...]+ Квадратные скобки со следующим за ними знаком + означают, что
в качестве параметров должны быть указаны один или несколько терминов.
Например, после "User-Agent:" через пробел могут быть указаны один или
несколько agent_id.
[...]* Квадратные скобки со следующим за ними знаком *
означают, что в качестве параметров могут быть указаны ноль или
несколько терминов. Например, Вы можете писать или не писать
комментарии.
[...]? Квадратные скобки со следующим за ними знаком ?
означают, что в качестве параметров могут быть указаны ноль или один
термин. Например, после "User-Agent: agent_id" может быть написан
комментарий.
..|.. означает или то, что до черты, или то, что после.
WS один из символов - пробел (011) или табуляция (040)
NL один из символов - конец строки (015) , возврат каретки (012) или оба этих символа (Enter)
User-Agent: ключевое слово (заглавные и прописные буквы роли не играют). Параметрами являются agent_id поисковых роботов.
Disallow: ключевое слово (заглавные и прописные буквы роли не
играют). Параметрами являются полные пути к неиндексируемым файлам или
директориям.
# начало строки комментариев, comment string - собственно тело комментария.
agent_id любое количество символов, не включающих WS и NL,
которые определяют agent_id различных поисковых роботов. Знак *
определяет всех роботов сразу.
path_root любое количество символов, не включающих WS и NL, которые определяют файлы и директории, не подлежащие индексации.
Расширенные комментарии формата
Каждая запись начинается со строки User-Agent, в
которой описывается каким или какому поисковому роботу эта запись
предназначается. Следующая строка: Disallow. Здесь описываются не
подлежащие индексации пути и файлы. КАЖДАЯ запись ДОЛЖНА иметь как
минимум эти две строки (lines). Все остальные строки являются опциями.
Запись может содержать любое количество строк комментариев. Каждая
строка комментария должна начинаться с символа # . Строки комментариев
могут быть помещены в конец строк User-Agent и Disallow. Символ # в
конце этих строк иногда добавляется для того, чтобы указать поисковому
роботу, что длинная строка agent_id или path_root закончена. Если в
строке User-Agent указано несколько agent_id, то условие path_root в
строке Disallow будет выполнено для всех одинаково. Ограничений на длину
строк User-Agent и Disallow нет. Если поисковый робот не обнаружил в
файле /robots.txt своего agent_id, то он игнорирует /robots.txt.
Если не учитывать специфику работы каждого поискового робота,
можно указать исключения для всех роботов сразу. Это достигается
заданием строки
User-Agent: *
Если поисковый робот обнаружит в файле /robots.txt несколько записей с
удовлетворяющим его значением agent_id, то робот волен выбирать любую
из них.
Каждый поисковый робот будет определять
абсолютный URL для чтения с сервера с использованием записей
/robots.txt. Заглавные и строчные символы в path_root ИМЕЮТ значение.
В примере 1 файл /robots.txt содержит две записи.
Первая относится ко всем поисковым роботам и запрещает индексировать все
файлы. Вторая относится к поисковому роботу Lycos и при индексировании
им сервера запрещает директории /cgi-bin/ и /tmp/, а остальные -
разрешает. Таким образом сервер будет проиндексирован только системой
Lycos.
Знаете ли Вы, что cогласно релятивистской мифологии "гравитационное линзирование - это физическое явление, связанное с отклонением лучей света в поле тяжести. Гравитационные линзы обясняют образование кратных изображений одного и того же астрономического объекта (квазаров, галактик), когда на луч зрения от источника к наблюдателю попадает другая галактика или скопление галактик (собственно линза). В некоторых изображениях происходит усиление яркости оригинального источника." (Релятивисты приводят примеры искажения изображений галактик в качестве подтверждения ОТО - воздействия гравитации на свет) При этом они забывают, что поле действия эффекта ОТО - это малые углы вблизи поверхности звезд, где на самом деле этот эффект не наблюдается (затменные двойные). Разница в шкалах явлений реального искажения изображений галактик и мифического отклонения вблизи звезд - 1011 раз. Приведу аналогию. Можно говорить о воздействии поверхностного натяжения на форму капель, но нельзя серьезно говорить о силе поверхностного натяжения, как о причине океанских приливов. Эфирная физика находит ответ на наблюдаемое явление искажения изображений галактик. Это результат нагрева эфира вблизи галактик, изменения его плотности и, следовательно, изменения скорости света на галактических расстояниях вследствие преломления света в эфире различной плотности. Подтверждением термической природы искажения изображений галактик является прямая связь этого искажения с радиоизлучением пространства, то есть эфира в этом месте, смещение спектра CMB (космическое микроволновое излучение) в данном направлении в высокочастотную область. Подробнее читайте в FAQ по эфирной физике.