Статья на тему Интернет » Продвижение и оптимизация » Индексирование документов поисковыми роботами

Индексирование документов поисковыми роботами

Наиболее эффективными и результативными средствами раскрутки веб-сайтов являются регистрация в каталогах и индексирование поисковыми системами. В статье изложены основные сведения об начальном этапе подготовки ресурса к регистрации, а именно о работе с метатегами.

Краткая справка

Поисковая система представляет собой более сложную структуру и состоит из трех компонентов:

Робот (spider):
Программа, которая просматривает веб-страницы, считывает (индексирует) их содержимое, следуя по ссылкам, найденным внутри документов. Возобновляет работу через определенный период времени.
Индексы:
База данных о проиндексированных роботом документах.
Поисковый механизм:
Программа, проверяющая в соответствии с запросом пользователя содержание индексов.

Следует сказать, что поисковые системы, в отличие от встроенных в каталоги поисковых двигателей, ищут не в пределах определенной серверными настройками базы данных, а по всей Сети, выводя страницы, находящиеся в их индексах (реестрах данных, где хранится информация о проиндексированных ресурсах).

загрузка...

Именно последним и занимаются так называемые поисковые роботы (spiders, wanderers, robots). При обращении к серверу робот проверяет наличие файла robots.txt в его корневой директории, в котором могут быть вручную установлены правила индексирования тех или иных документов текущего узла. Однако, не все роботы "умеют" читать указанную в этом файле информацию: часть из них не поддерживает специальный стандарт описания правил индексирования файлов - Standard for Robot Exclusion. К сожалению, сегодня не все веб-мастера и ведущие Интернет-проектов имеют представление об этом стандарте, к тому же не каждый системный администратор, настраивающий веб-сервер, придает применению правил описания для поисковых роботов должное внимание.

Но данная статья будет посвящена не стандарту Standard for Robot Exclusion, что требует изучения специальных параметров описания правил и работы с веб-сервером, а тому, как правильно подготовить веб-документ для индексирования поисковыми роботами.

Релевантность документов

Когда пользователь вводит в строке запроса поисковой системы какое-то слово или словосочетание, робот обращается ко всем проиндексированным страницам. Количество полученных результатов может достигать десятков и даже сотен тысяч. Робот выводит результаты по критерию наибольшего соответствия содержания документов запросу пользователя, который называется релевантностью. Другими словами, самые подходящие страницы будут размещены в начале результирующего списка, выдаваемого поисковой системой. На релевантность влияют факторы ключевых слов, речь о которых и пойдет.

Количество ключевых слов

Под количеством ключевых слов (keywords) подразумевается их частота присутствия в документе (не путать с указанием ключевых слов в мета-тегах, разговор о которых пойдет чуть ниже). То есть страница, на которой робот обнаружит 15 раз запрошенное пользователем слово, будет более релевантна, чем та, которая содержит это слово всего 3 раза. Этот фактор как правило зависит от тематики ресурса и профессиональной этики веб-мастера. Логично допустить, что если страница называется "Лучшие бесплатные программы для Unix", в ее тексте навряд ли можно встретить слова "эротика", "макияж" или "трубопровод". Зато "система" или "Unix" могут встретиться десятки раз. Но когда вопрос траффика перерастает в вопрос жизни или смерти, некоторые веб-мастера идут на неэтичный шаг: указывают в документе ключевые слова, совершенно не имеющие отношения к теме ресурса. Делается это обычно очень мелким шрифтом, в самом низу страницы или цветом, совпадающим с задним фоном. Реже эти методы берут на вооружение люди, стремящиеся искусственным путем повысить релевантность своих документов: одно и тоже ключевое слово указывается большое количество раз.

Густота (плотность) ключевых слов

Под густотой (плотностью) ключевых слов принято понимать степень отношения количества ключевых слов к остальным словам в пределах документа. Поисковые роботы считают более релевантной страницу с конкретным словосочетанием, нежели документ, в котором есть помимо этого словосочетания другие слова и фразы. Например, документ, содержащий только два слова "коммерческое предложение", будет идти в результирующем списке впереди страницы, содержащей помимо сочетания слов "коммерческое предложение" еще и другие слова.

Расположение ключевых слов

Такой подход имеет, как минимум, три больших минуса: во-первых, исходный размер HTML-файла заметно увеличивается, во-вторых, при выдаче результатов поисковики выводят данные, указанные в заголовке (TITLE), что делает название найденных документов малопривлекательными, в-третьих, пользователю будет довольно сложно поместить страницу с таким длинным заголовком в папку Favorites/Bookmarks. Кроме этого, на релевантность документов влияет наличие выделенных фрагментов текста (теги форматирования STRONG, , EM, U, I, H1, H2 и др.) и внесение ключевых слов в комментарии, поле альтернативного текста ALT и мета-теги (им будет посвящена отдельная часть статьи). Комментарии обособляются символами !-- и -- и могут включать абсолютно любую информацию (она в окне браузера не отображается)

Поле альтернативного текста ALT, предназначенное для появления подсказок к графическим элементам при наведении на них курсора, тоже имеет большой вес, когда речь заходит о релевантности страниц. Для сравнения приведу следующий пример: на странице абстрактного предприятия "Фирма" размещена кнопка about.gif размером 5 Кб со ссылкой, ведущей в раздел, рассказывающий об истории возникновения предприятия. Три варианта использования поля альтернативного текста ALT:

IМG SRC=about.gif ALT="about.gif, 5 Кб"
IМG SRC=about.gif ALT="Об истории"
IМG SRC=about.gif ALT="История возникновения ООО Фирма"

Релевантность страниц согласно порядку применения поля будет изменяться от первого варианта к последнему: документ, где кнопке присвоено поле "История возникновения ООО Фирма", будет иметь более высокую релевантность, чем тот, чья кнопка имеет значение тега "about.gif, 5 Кб".

Мета-теги

META NAME="keywords" CONTENT="........."

Здесь в значении атрибута CONTENT следует указывать ключевые слова и словосочетания. Делается это через запятую. Сюда можно добавить слова, которые не встречаются в документе (или встречаются крайне мало), но имеют отношение к тематике сайта (что снова повысит релевантность). Не стоит избегать указания словосочетаний: во-первых, многие пользовательские запросы состоят из нескольких слов, а во-вторых, документ с указанием в качестве keywords целой фразы, будет иметь большую релевантность, чем страница, где вместо ключевой фразы определены ее отдельные слова (например, "электронные магазины" или "электронные" и "магазины"). В среднем допускается указывать до 150-200 символов в качестве ключевых слов.
META NAME="description" CONTENT="........."

Значение атрибута CONTENT в данном случае уместно использовать, если в самом документе нет (или очень мало) тематического описания вашего сайта. Дело в том, что большинство поисковых систем в результирующем списке рядом с заголовком выводит 70-150 символов, относящихся к характеристике найденного документа. Если робот не обнаружит данного значения, его внимание будет обращено к проверке страницы с целью нахождения текста, характеризующего документ, и дальнейшего вывода этого текста в результирующем списке. Оптимальным решением является параллельное использование значений ключевых слов и описания (возможно дублировать ключевые слова в конструкции META NAME="description" CONTENT="...").
META NAME="robots" CONTENT="........."

Эта конструкция предназначена для того, чтобы указать поисковому роботу, индексирующему ваш сайт, что надо добавлять в индексы, а что нет. Последний случай не является редким, т.к. существует множество ситуаций, когда просто необходимо запретить индексирование: чаты, баннерные показы и пр. Есть шесть возможных значений атрибута CONTENT для данной конструкции:
- ALL (разрешение индексации документа со всеми присутствующими в нем гиперсвязями);
- NONE (запрет индексации документа со всеми присутствующими в нем гиперсвязями);
- INDEX (разрешение индексации документа);
- NOINDEX (запрет индексации документа);
- FOLLOW (разрешение индексации присутствующих гиперсвязей);
- NOFOLLOW (запрет индексации присутствующих гиперсвязей);

Если этот мета-тег пропущен или не указано значение атрибута CONTENT, то поисковый робот понимает их отсутствие как конструкцию CONTENT="INDEX, FOLLOW" (эти два значения - INDEX и FOLLOW аналогичны ALL).

Проблемы индексирования страниц

Однако в процессе подготовки страниц к индексированию роботами пользователь может столкнуться с целым рядом затруднений (или значительно позже, что еще хуже):

Страницы с фреймам
В Сети огромное количество сайтов, созданных с применением многооконной структуры (фреймов), а большинство поисковых систем не умеют с ними работать. Что же делать пользователю, который хочет, чтобы его ресурс был проиндексирован? Оказывается, выход есть. Если вы когда-нибудь работали с фреймами, то знаете, что подобно роботам некоторые браузеры их не поддерживают, для чего в документе, определяющем адреса загрузки составных страниц, ставится парный тег . В нем обычно пишут что-то вроде "Ваш браузер не поддерживает фреймы", дается ссылка на последнюю версию MSIE или NN, а в лучшем случае - линк на безфреймовый вариант сайта. Разумеется, информация, заключенная в данный тег, не отображается браузерами, имеющими поддержку фреймовых структур. Посему туда можно поместить подробное описание вашего сайта, указать ключевые слова и словосочетания. И потом нельзя забывать заголовок начальной страницы (TITLE), в котором тоже следует определить ключевые слова.
Невозможность индексирования
Причин затруднениям индексирования может быть несколько: некоторые поисковые роботы индексируют страницы, расположенные только в зоне .RU и соответствующих ей городских зонах, посему, если ваш сайт размещен на зарубежном сервере, в индексы он не попадет; некоторые спайдеры имеют ограничение на занесение в индексы не более какого-то числа ресурсов с одного домена; в конце концов, возможно, что вы случайно вместо значения INDEX мета-тега указали NOINDEX или сделали синтаксическую ошибку в составлении конструкции тегов мета-данных, влияющих на процесс индексирования веб-документов.

Мета-теги по сути имеют два основных атрибута - HTTP-EQUIV и NAME. Первый можно отождествить с HTTP-заголовками, и мета-теги с этим атрибутом на ряде серверов могут быть автоматически преобразованы в HTTP-заголовки. Нас больше интересует атрибут NAME, а точнее - его значения "keywords", "description" и "robots", как влияющие на индексирование поисковыми спайдерами. Веб-страница имеет ряд особых мест, поместив ключевые слова в которые, можно надеяться на более высокую релевантность в индексах поисковых систем. Прежде всего это самое начало документа: текст, содержащий ключевые слова в верхней части страницы, заметно повысит релевантность. Также часто включают ключевые слова между парными тегами TITLE. Многие допускают ошибку, загромождая заголовок ключевыми словами.Под количеством ключевых слов (keywords) подразумевается их частота присутствия в документе (не путать с указанием ключевых слов в мета-тегах, разговор о которых пойдет чуть ниже). То есть страница, на которой робот обнаружит 15 раз запрошенное пользователем слово, будет более релевантна, чем та, которая содержит это слово всего 3 раза. Этот фактор как правило зависит от тематики ресурса и профессиональной этики веб-мастера. Логично допустить, что если страница называется "Лучшие бесплатные программы для Unix", в ее тексте навряд ли можно встретить слова "эротика", "макияж" или "трубопровод". Зато "система" или "Unix" могут встретиться десятки раз. Но когда вопрос траффика перерастает в вопрос жизни или смерти, некоторые веб-мастера идут на неэтичный шаг: указывают в документе ключевые слова, совершенно не имеющие отношения к теме ресурса. Делается это обычно очень мелким шрифтом, в самом низу страницы или цветом, совпадающим с задним фоном. Реже эти методы берут на вооружение люди, стремящиеся искусственным путем повысить релевантность своих документов: одно и тоже ключевое слово указывается большое количество раз. Как известно, одними из наиболее эффективных и результативных средств раскрутки веб-сайтов являются регистрация в каталогах Интернет-ресурсов и индексирование поисковыми системами. Но если первый метод в большинстве случаев зависит исключительно от того, как устроена процедура занесения информации о ресурсе в базу данных каталога, то подход пользователя к индексированию веб-документов поисковиками с полной уверенностью можно назвать индивидуальным и вполне предсказуемым. Регистрируясь в каталоге, пользователь вносит в установленные формы данные о сайте так, как он хочет. Однако, далеко не всегда информация о ресурсе будет отображена впоследствии в каталоге в первозданном виде: администраторы многих подобных серверов по-своему редактируют описание ресурсов, руководствуясь при этом собственными доводами и правилами.

загрузка...

Постоянная ссылка на статью "Индексирование документов поисковыми роботами":

Рассказать другу

Оценка: 4.0 (голосов: 16)

Поиск по базе статей:

Темы статей

Новые статьи

Противовирусные препараты: за и против

Добро пожаловать в Армению. Знакомство с Арменией

Крыша из сэндвич панелей для индивидуального строительства

Возможно ли отменить договор купли-продажи квартиры, если он был уже подписан

Как выбрать блеск для губ

Чего боятся мужчины

Как побороть страх перед неизвестностью

Газон на участке своими руками

Как правильно стирать шторы

Как просто бросить курить

Вместе с этой статьей обычно читают:

Если у вас украли все документы

• Несмотря на все трудности современной жизни, нашим людям все еще свойственно сострадание. Поэтому не спешите впадать в длительную депрессию, если у вас украли все документы. Меня обокрали.

» Разное - 5497 -

Chery QQ: Ручной робот

В тесте участвуют автомобили: Chery QQ Маленькому "китайцу" Cherry QQ дали "автомат". Малыш «Чери-QQ» (его также называют «Свит») на рынке не новичок.

» Познавательное про авто - 6141 -

10 ключевых моментов поискового аудита

В чем одно из основных отличий новичка в SEO от профессионала? Когда первому предлагают заняться продвижением сайта - он спешит согласиться. Когда подобное предложение поступает профессионалу, как правило, он сначала проводит аудит сайта, а уже затем оглашает свои условия.

» Продвижение и оптимизация - 2537 -

Подготовка сайта для индексирования в поисковых системах

Индексирующие поисковые системы - сегодня основные поставщики новых посетителей на сайт. В то же время алгоритмы работы поисковиков никогда не публикуются, на что у разработчиков есть все основания - борьба с замусориванием поисковиков (поисковым спамом или спамдексингом) отнимает много сил и средств у коллектива любого поискового проекта. Вопрос о том, как попасть на первую страницу результатов поиска по профильным, то есть точно относящимся к тематике сайта, запросам, вол ...

» Продвижение и оптимизация - 5974 -

Поисковые роботы

Эта проблема побудила исследователей Интернет на проведение экспериментов с автоматизированной навигацией по Сети, названной “роботами”. Веб-робот - это программа, которая перемещается по гипертекстовой структуре Сети, запрашивает документ и рекурсивно возвращает все документы, на которые данный документ ссылается. Эти программы также иногда называют “пауками”, ” странниками”, или ” червями” и эти названия, возможно, более при ...

» Продвижение и оптимизация - 3521 -