Вы можете обратить внимание на то, что в результатах поиска могут появляться ссылки без названия, имеющие лишь сетевые адреса. Это означает, что такой сайт уже обнаружен роботом, но еще полностью не обработан.
Если вам повезет, ваш сайт может попасть в каталог GoogleGoogle, как и многие другие поисковые системы, имеет свой каталог ссылок. Каждый владелец сайта может подать заявку на включение его в этот каталог. Для этого есть специальная страница. Но подача заявки не означает, что сайт будет включен в каталог и что даже при его включении в каталог он будет иметь более высокое место в списках ответов на запрос, нежели его в каталоге не будет.
Можно отказаться от индексирования отдельных страницТехнология обработки сайтов роботом Google заключается в исследовании всех ссылок, ведущих со страниц сайта. Поэтому целесообразно проектировать свой сайт так, чтобы как можно больше ссылок на внутренние страницы шло с заглавной страницы вашего проекта, а внутренние были связаны друг с другом перекрестными ссылками. В этом случае вероятность того, что будет проиндексировано наибольшее число имеющихся страниц, увеличивается. Но здесь есть своя опасность — могут быть проиндексированы страницы, которые бы вы не хотели предъявлять для индексирования. Либо на ваших страницах есть много ссылок на другие сайты, но вам было бы нежелательно, чтобы робот приходил на них от вас. Об исключении таких ситуаций вам придется позаботиться самостоятельно — либо написанием специального файла robots.txt, либо добавлением в заголовках страниц, не требующих индексации, специального метатэга с ключевыми словами NOINDEX и NOFOLLOW. Это будет выглядеть примерно так: . Аналогично следует поступать и в тех случаях, когда вы не хотите, чтобы ваши страницы попадали в кэш Google. Для этого надо использовать еще одно ключевое слово метатэга — NOARCHIVE.
Но вот вы определились с перечнем страниц, которые должны быть проиндексированы, а какие нет, нужно ли сохранять в архиве поисковика ваши страницы или нет. Теперь рассмотрим, какие рекомендации предлагают разработчики Google для того, чтобы поисковый робот полностью и правильно проиндексировал ваш сайт. Вот они:
- сайт должен иметь понятную иерархию и текстовые ссылки. Каждая страница должна быть достижима хотя бы через одну статическую ссылку;
- создайте для удобства пользователей карту сайта со ссылками, ведущими на основные его разделы. Если таких ссылок будет свыше 100, следует разделить карту на несколько страниц;
- добавьте на сайт страницу, на которой бы дано краткое и ясное описание представленной на сайте информации;
- подумайте, по каким словам могут искать ваш сайт пользователи Сети и включите их в ваши тексты;
- попытайтесь там, где возможно, заменить текстом рисунки, содержащие важные названия, ссылки. Робот Google не может распознать текст, сохраненный в изображениях;
- проверьте корректность содержания тэгов TITLE и ALT;
- проверьте работоспособность всех ваших ссылок;
- если вы используете динамические страницы, то помните, что поисковые роботы редко индексируют их, значительно реже, чем статические страницы;
- ограничьте количество ссылок на свои страницы в разумных пределах — нежелательно, чтобы их было более ста.
И еще несколько чисто технических советов:
- используйте для тестирования своего сайта текстовый браузер, например, Lynx. Это связано с тем, что большинство поисковых роботов просматривают ваш сайт с такими же ограничениями, как и Lynx. Это означает, что использование Javascript, куков, идентификаторов сессий, фреймов или флеш-роликов накладывает ограничение на просмотр сайта с помощью текстового браузера. Следовательно, и поисковый робот может не увидеть части ваших страниц;
- если вы все же используете идентификатор сессии, постарайтесь доработать код таким образом, чтобы поисковый робот мог обходить ваш сайт без «предъявления» идентификатора. В противном случае поисковый робот не будет в состоянии отличить идентичные ссылки, ведущие на одну и ту же страницу, но отличающиеся лишь идентификатором;
- проверьте, поддерживает ли ваш веб-сервер условие в заголовке html-страницы "If-Modified-Sience". Наличие такой возможности позволит серверу информировать поисковик о том, произошли ли какие-либо изменения в содержании сайта с момента предыдущего индексирования;
- разместите в корневой директории вашего сайта файл robots.txt, даже если в нем ничего не требуется указывать;
- если для формирования содержания сайта используется специализированная система управления, проверьте, имеется ли в ней возможность экспорта вашего содержания, чтобы поисковый робот мог проиндексировать и сохранить ваши страницы.
Для определения «ИЦ» Google использует около 100 параметровНо вот вы выполнили все пожелания Google, а индекс вашего сайта не изменился, либо уменьшился. В чем может быть дело? Одна из причин может заключаться в том, что при расчете индекса цитирования учитываются не только ссылки, ведущие на ваш сайт, не только его структура, но и весомость тех проектов, на которых стоят ссылки на ваш проект. А может быть кто-то из них убрал ссылку на ваш сайт? Или появились более информативные сайты вашей тематики, и в результате индекс вашего сайта стал ниже. Проверить, какие сайты имеют ссылки на ваш проект, можно с помощью специального запроса. Наберите в строке поиска текст "link:[ваш полный адрес]" и посмотрите результат. И помните о том, что частота обновления индекса — четыре недели.
Даже при выполнении всех рекомендаций нет никакой гарантии, что Google проиндексирует все страницы вашего проекта — ведь количество индексируемых поисковиком страниц превышает три миллиона. Для того, чтобы были безусловно проиндексированы все ваши страницы, следует воспользоваться платной службой Google. Обратившись туда и подписав соглашение, вы можете быть уверены, что теперь все страницы, сколько бы их не было, будут просмотрены поисковым роботом и включены в индекс поисковой системы.
И в заключение — еще одна особенность Google. Хотя все работы по поиску, индексации и расчету релевантности происходят полностью автоматически, одна из работ может выполняться и вручную. Это — удаление сайта (страницы) из индекса. Оно может быть связано с разными причинами, в том числе и с несоответствием стандарным требованиям, хотя могут быть и иные варианты. Но из-за чего в действительности был исключен тот или иной сайт или страница, никогда не комментируется.
Ссылки по теме
Статья получена: hostinfo.ru