Статья на тему Интернет » Интересное в сети » Что такое robot .txt

Что такое robot .txt

Поисковые системы — верный путь получения небольшой, но очень активной аудитории

Общеизвестен тот факт, что сегодня для привлечения сколько-нибудь значительной аудитории недостаточно создания красивого и содержательного сайта. Конечно, семь-восемь лет назад все обстояло совсем иначе. В то время число полезных и интересных русскоязычных веб-проектов было невелико, а поэтому аудитория с радостью приветствовала хорошие новинки. С тех пор все изменилось. В современном Рунете невозможно создать посещаемый проект, если не привлекать к нему внимание людей с помощью всевозможных маркетинговых способов — от обычных баннерообменных сетей до рекламы в оффлайновых СМИ.

загрузка...

Однако надо признаться, что все эти способы относительно дороги. Причина этого очень проста. Любая реклама охватывает слишком широкую аудиторию, включающую в себя и людей, не заинтересованных в данном веб-проекте. К счастью, есть один совершенно бесплатный способ привлечь на сайт пусть и небольшую, но зато заинтересованную и очень активную аудиторию. Речь идет, конечно же, о поисковых системах.

Поисковые системы — бесплатный способ получения небольшой, но очень активной аудиторииИ действительно, именно в поисковых системах люди ищут нужные им сайты. И именно оттуда на веб-страницы попадает лучшая, целевая аудитория. Именно поэтому к индексированию сайта в поисковых системах нужно относиться с предельной серьезностью. Вообще-то, когда об этом заходит речь, то все сразу вспоминают о правильном подборе ключевых слов, о различных секретах, помогающих «поднять» сайт на верхние строчки результатов поиска по определенным фразам, и прочих подобных вещах. В принципе, все это верно. Размещение веб-проекта в поисковой системе — действительно настоящее искусство. Однако нельзя забывать и о технической стороне этого процесса. И вот здесь не обойтись без специального файла — robots.txt. Именно о нем мы сегодня и будем говорить.

Robots.txt — это текстовый файл, предназначение которого заключается в указании «паукам» поисковых систем, какие файлы и папки можно индексировать, а какие нетRobots.txt — это текстовый файл, единственное предназначение которого заключается в указании «паукам» поисковых систем, какие файлы и папки можно индексировать, а какие нет. На первый взгляд, это кажется не очень важным. Однако такая точка зрения ошибочна в корне. Многие файлы, особенно некоторые скрипты или форумы, лучше оставлять без индексирования. Почему? Все очень просто. Поисковая система «запоминает» точный адрес индексируемой страницы и информацию, которая на ней содержится. Однако что делать, если адреса быстро меняются? Давайте возьмем для примера форум. Определенные сообщения, которые «паук» проиндексировал на первой странице, завтра могут оказаться на второй, а через месяц — вообще где-нибудь в архиве. Таким образом, пользователь, получив от поисковой системы конкретный адрес, не найдет по нему интересующих его данных. Ну, а во многих случаях он вообще попадет на страницу с ошибкой или заглавную страницу сайта. Именно поэтому пренебрегать созданием файла robots.txt перед индексированием веб-проекта не стоит.

Итак, мы уже выяснили, что robots.txt — текстовый файл. Однако нужно учитывать, что он имеет собственный формат. Кроме того, есть еще пара нюансов, которые просто необходимо знать каждому веб-мастеру. Оказывается, robots.txt должен быть обязательно записан в кодировке Unix и размещен в корневом каталоге сайта. А теперь давайте подробно остановимся на формате этого файла.

Весь файл состоит из записей, каждая из которых, в свою очередь, состоит из двух полей. Первая всегда представляет собой одну строку следующего формата: User-agent: . Фактически, эта часть является своеобразным обращением, указывающим, для каких именно поисковых система записаны следующие команды. Так, например, для «паука» Google это будет выглядеть так: User-agent: googlebot. Таким образом, у веб-мастера есть возможность разрешить индексировать определенные папки или файлы одним поисковым системам и запретить это делать другим. Если же вам такая возможность не нужна, то можно использовать специальный символ подстановки «звездочка», который указывает, что следующий за ним блок команд предназначен для всех «пауков» без исключения.

Узнать имя нужного «паука» очень простоНаверняка у многих читателей уже возник вопрос — как же узнать названия «пауков» тех или иных поисковых систем. Вообще-то, сделать это достаточно просто. На сайтах многих крупных поисковых систем существуют специальные разделы помощи веб-мастерам. Там вы наверняка найдете нужное вам имя. В противном случае придется воспользоваться логами веб-сервера. Для этого достаточно выбрать из них все обращения к файлу robots.txt, из которых можно выбрать подходящее имя. Учтите, что в названии «паука» обычно присутствует название поисковой системы или хотя бы его часть.

Второе поле каждой записи файла robots.txt состоит из одной или более строчек следующего формата: Disallow: . Под параметром «значение» здесь скрывается файл или папка, которые запрещено индексировать данному «пауку». То есть в самом простом случае robots.txt примерно выглядит так:

User-agent: *
Disallow: forum.php
Disallow: /cgi-bin/

Данный пример не позволяет ни одному «пауку» индексировать файл forum.php и содержимое папки cgi-bin. Однако стоит учитывать, что веб-мастеру совсем не обязательно указывать запрещенные объекты конкретно, поскольку во многих случаях перечисление заняло бы много места и времени. На самом деле, для решения этой проблемы стандарт позволяет использовать только начальные символы файлов или папок. Так, например, строка Disallow: /for запретит индексирование всех файлов и папок, имя которых начинается на for (например, файла forum.php и папки forum со всем ее содержимым). Кроме того, стандартом предусмотрено две «общих» команды. Так, запись просто Disallow: разрешает индексирование всего сайта без исключений, а Disallow: / полностью запрещает индексирование любого объекта.

В файлы robots.txt можно вставлять комментарииВ файлы robots.txt можно вставлять комментарии. Они должны начинаться с символа #. Вообще-то, согласно стандарту, комментарии можно делать в любом месте файла, в том числе, и в значащих строках. Однако многие современные «пауки» «не понимают» этого. Поэтому лучше всего комментарии, если они нужны, оформлять в отельной строке. Таким образом вы можете избежать некоторых досадных недоразумений.

Кроме того, при создании файла robots.txt нужно быть предельно внимательным. Дело в том, что часто веб-мастера допускают мелкие, но досадные ошибки в синтаксисе, приводящие к игнорированию команд «пауками». Так, например, нужно обязательно учитывать, что пустая строка в файле robots.txt является значащей — она представляет собой разделитель двух записей. Кроме того, не стоит забывать, что нельзя указывать несколько команд в одной строчке. Каждая из них должна располагаться отдельно и предваряться выражением Disallow:.

Создание файла robots.txt не представляет собой ничего сложногоВот, собственно, и все «премудрости» файла robots.txt. Видите — все очень просто. По крайней мере, если следовать стандарту. На самом же деле, многие «пауки» имеют дополнительные параметры. Так, например, googlebot (поисковая система Google) позволяет запрещать индексирование всех файлов с определенным расширением одной командой (например, так: Disallow: *.php). Ну, а «паук» «Яндекса» умеет обрабатывать специальную директиву Host для указания основного зеркала сайта, а также некоторые выражения SSI. Поэтому, если вы решите заняться файлом robots.txt серьезно, перед этим лучше всего внимательно изучить особенности и возможности разных «пауков» для достижения наилучшего результата.

Ссылки по теме

Статья получена: hostinfo.ru

загрузка...

Постоянная ссылка на статью "Что такое robot .txt":

Рассказать другу

Оценка: 4.0 (голосов: 16)

Поиск по базе статей:

Темы статей

Новые статьи

Противовирусные препараты: за и против

Добро пожаловать в Армению. Знакомство с Арменией

Крыша из сэндвич панелей для индивидуального строительства

Возможно ли отменить договор купли-продажи квартиры, если он был уже подписан

Как выбрать блеск для губ

Чего боятся мужчины

Как побороть страх перед неизвестностью

Газон на участке своими руками

Как правильно стирать шторы

Как просто бросить курить

Вместе с этой статьей обычно читают:

Что такое ESP?

Новейшие автомобили все больше и больше имеют различной электронной начинки. Наш сегодняшний рассказ посвящен только одной электронной системе ESP, которая последнее время начинает устанавливаться не только на автомобили бизнес-класса, но и на микролитражки. До недавнего времени не то, что расшифровку, но и о существовании системы ESP знали только специалисты или заядлые автолюбители, которые изучают всю автомобильную прессу.

» Немецкие автомобили - 26024 -

ЧТО ТАКОЕ «ХОРОШО», ЧТО ТАКОЕ «ПЛОХО»

...в принципе, где-то внутри и раньше было желание не только "выговориться" на эту неиссякаемую тему, но и поделиться опытом, связанным с эксплуатацией и ремонтом автомобилей. У меня их было четыре. С 1983 по 1992 год - "Москвич-2140", с 1992 по 1995 год - "ВАЗ-21043", с 1995 по 1999 год - "Форд-Сьерра" и с 1999 по н/в - "Мерседес".

» Немецкие автомобили - 3392 -

Что такое октановое число?

От свойств главного расходного материала - бензина - зависят как технические параметры двигателя, так и его надежность и долговечность. Основной характеристикой автомобильного бензина является октановое число, которым обозначается его детонационная стойкость. Детонация - самопроизвольное воспламенение топливовоздушной смеси, которое нарушает правильный ход процесса сгорания, что приводит к падению мощности и повышению токсичности отработавших газов.

» Разное - 4433 -

Что такое социальный поисковик?

В одной из предыдущих статей мы кратко останавливались на социальном поиске, предлагаемом поисковой системой Yahoo. Компания Yahoo научилась не просто предоставлять информацию, но и делиться ею. Теперь пользователь может оставить комментарий к странице, которую он считает интересной, а также добавить дополнительный полезный контент.

» Продвижение и оптимизация - 2854 -

Dmoz: каждый четвертый сайт имеет ошибки в robot .txt

Эндрю Вустер (программный инженер Apple) провел исследование файлов robots.txt на сайтах из каталога Dmoz. В ходе своего исследования HTTP заголовков он разработал собственного «паука» и собрал большую базу доменов. Скормив своему пауку эту базу ресурсов из Dmoz, Эндрю Вустер получил MySQL базу, в которой сохранялись содержание robots.txt, HTTP заголовки и полный ответ сервера.

» Продвижение и оптимизация - 3197 -