В Интернете все происходит стремительно, ежедневно рождаются, умирают и переводятся на новые технологии отдельные страницы, целые сайты и даже огромные порталы. В связи с этим множество гиперссылок ежедневно становятся неактуальными. Это доставляет серьезное неудобство сайтостроителям: создал месяц назад страничку, а уже сегодня половина ссылок с нее ведет «в никуда». Естественно, посетители такой странички раздражены и начинают поминать недобрым словом ее создателя, который, в общем-то, не сильно виноват. Ведь не проверять же ему ежедневно вручную работоспособность сотен ссылок на всех страницах своего сайта!
Программы этого типа часто называют "линк-валидаторами" от английских слов link — ссылка и valid — действительныйВпрочем, некоторая доля его вины есть: владелец сайта не озаботился установкой одной из множества программ, которые автоматически проверяют гиперссылки на живучесть. Одна из популярных программ этого класса — Xenu's Link Sleuth, ее мы и рассмотрим в этой статье. Популярность этого валидатора объясняется тремя причинами. Во-первых, работать с Xenu на удивление просто, а в результате получается очень подробный и обстоятельный отчет обо всех имеющихся на сайте ссылках. Во-вторых, Xenu работает довольно быстро, что немаловажно. В-третьих, программа абсолютно бесплатна — скачивай с сайта дистрибутив и работай в свое удовольствие.
Обратите внимание: адрес в Интернете (URL) должен заканчиваться символом «слеша» /
Готовимся к анализу сайта |
Запустив программу, выбираем в меню File пункт Check URL (Проверить URL). В результате откроется диалоговое окно Xenu's starting point (смотрите иллюстрацию). Первым делом укажем страницу, с которой Xenu начнет исследование гиперссылок. Это может быть адрес (URL) стартовой страницы нашего сайта — например, /redir.php?url=www.oursite.ru%2F%3C%2Fu%3E. Точно так же можно указать отдельную страницу сайта — например, /redir.php?url=www.oursite.ru%2Fpage.html%2F%3C%2Fu%3E. Наконец, это может быть HTML-документ, сохраненный на жестком диске локального компьютера — например, file:///D:\probe.html.
Теперь зададим область исследования. Должен ли Xenu проверять работоспособность ссылок, которые уводят за пределы нашего сайта? Если должен, то поставим отметку в поле Check External Links. Затем перечислим адреса, которые имеют прямое отношение к нашему сайту, хотя и не соответствуют URL главной страницы. Например, к внутренним страницам отнесем все те, адреса которых начинаются с /redir.php?url=forum.oursite.ru%3C%2Fu%3E%2C то есть главные страницы разделов нашего сайта. Наконец, перечислим начала адресов, которые совсем не нужно проверять. Это могут быть адреса счетчиков (например, /redir.php?url=top100.rambler.ru%3C%2Fu%3E%29 или баннерных сетей (например, /redir.php?url=www.linkexchange.ru%3C%2Fu%3E%29.
Xenu проверяет и страницы, доступ к которым осуществляется по безопасному протоколу SSL (адреса таких страниц начинаются с префикса https://)
Окно настроек программы |
В принципе, все готово, можно начинать анализ гиперссылок. Однако стоит сразу же выполнить некоторые дополнительные настройки, воспользовавшись кнопкой More options. Здесь пользователь указывает, какие данные должны быть включены в результирующий отчет, о котором я расскажу чуть ниже. Однако сразу же обратите внимание на последнюю строчку в этом окне: Orphan files. В Xenu есть функция обнаружения файлов-сирот (orphan). Прежде чем запускать ее, программа спросит логин и пароль доступа к вашему веб-серверу или к вашей папке на сервере хостинг-провайдера. После этого Xenu зайдет на сервер и проверит, нет ли на нем файлов, на которые не ссылается ни одна страница вашего сайта. Такое часто бывает: владелец сайта удалил веб-страницу, а относящиеся к ней файлы — нет. Беда не слишком большая, но лишний мусор на сервере еще никому на пользу не пошел.
Кроме того, есть возможность указать, сколько ссылок одновременно Xenu будет испытывать «на прочность» (от одной до ста, в примере на иллюстрации выбрано значение 30) и на какую «глубину» исследуемого сайта он будет заглядывать (вплоть до уровня 999). В случае если для доступа к каким-либо страницам требуется вводить логин и пароль, Xenu будет спрашивать их, если в настройках отметить опцию Ask for password when needed.
Еще одна опция — Treat redirections as errors — заставляет программу рассматривать все страницы с редиректами как ошибку. Редирект — автоматическое перенаправление с текущей страницы на другую. Функция? в общем-то? полезная, но замедляющая загрузку страниц, поэтому имеет смысл там, где это возможно, заменять редиректную ссылку на прямой адрес.
Вот теперь нажмем на кнопку OK и начнем процесс проверки гиперссылок. Скорость выполнения этой операции сильно зависит от заданных условий. Например, по Сети исследование проводится гораздо медленнее, чем на локальном диске, и так далее. Но рано или поздно мы получим в главном окне программы список всех встреченных в указанной области поиска гиперссылок, подробную информацию о каждой из них и результирующий отчет в виде отдельного HTML-документа.
В главном окне программы по каждой гиперссылке будет представлена следующая информация:
- Адрес ссылки (URL). Кстати, можно настроить программу таким образом, что она будет показывать только неработающие ссылки из числа проверенных.
- Статус, то есть результат проверки. Статусов несколько:
- ok — обозначает, что все в порядке, такие строчки окрашены в зеленый цвет.
- no such host — по указанному адресу ничего не найдено, ссылка не работает, строчка окрашена в красный цвет.
- skip type — так отмечаются ссылки, не подлежащие проверке, например, адреса электронной почты или ссылки на Java-скрипты. Такие строчки окрашены в коричневый цвет.
- user skip — Xenu обнаружил данную ссылку, но она исключена пользователем из области поиска. Цвет — коричневый.
- pending — этот статус временно присваивается каждой ссылке, когда Xenu ее обрабатывает. Цвет ссылки — серый.
- Тип страницы, ее размер (в байтах), заголовок (содержимое тега <TITLE> или отметка о переадресации, redir) и некоторую другую служебную информацию.
На иллюстрации виден результат анализа нашего сайта, вернее, его фрагмент. Строки отчета отсортированы по статусу, присвоенному программой каждой ссылке. Выделенная строчка содержит адрес, не ответивший на запрос Xenu. Вообще говоря, это не означает, что адрес «умер» навсегда. Вполне вероятно, что во время анализа произошел какой-то технический сбой на соответствующем сервере. Однако звоночек прозвенел — адрес нужно проверить более тщательно, уже вручную. Может быть, имеет смысл связаться с владельцами данного сайта и узнать у них подробности происходящего.
Отправь отчет по e-mail |
Кстати, Xenu предоставляет еще одну полезную возможность: отправлять отчет об обнаруженных неработающих ссылках по электронной почте. Так что можно исследовать сайт своего друга и сообщить ему результаты исследования. Как это сделать? Взгляните на первую иллюстрацию «Готовимся к анализу сайта». Видите кнопку e-mail? Она используется именно в этих целях. При ее нажатии открывается диалоговое окно, в котором можно указать тему послания, адреса отправителя и получателя письма, а также SMTP*-сервер для его отправки. Если отметить опцию e-mail only if there are broken links, то отчет будет отправлен только в случае обнаружения «битых» ссылок.
В заключение скажем об HTML-отчете, который выдает Xenu по результатам исследования. Он очень подробный и состоит из нескольких разделов:
- Неработающие ссылки, отсортированные по адресам.
- Неработающие ссылки, отсортированные по страницам, на которых они обнаружены.
- Ссылки, которые работают, но с помощью функции редиректа перенаправляют посетителей на другие страницы.
- Ссылки протоколов FTP* и Gopher*. Xenu, к сожалению, не работает со ссылками по протоколу Gopher, и не проверяет FTP-ссылки в случае работы через прокси. Однако в любом случае выдается полный список обнаруженных ссылок, работающих по этим протоколам, так что пользователь может проверить их самостоятельно, вручную.
- Список страниц, которые можно сообщить поисковым интернет-системам для индексации.
- Карта (оглавление) сайта, в которой указаны не URL страниц, а их заголовки, то есть содержимое тега <TITLE>.
- Неработающие внутренние ссылки, то есть ссылки, которые должны вести на какие-то страницы нашего же сайта, а ведут «в никуда».
- Список файлов-сирот (orphan).
- Обобщенная статистика исследования: сколько ссылок получили тот или иной статус в результате проверки.
Таким образом, после того как Xenu прошерстит указанную область поиска, в руках пользователя окажется вся информация, с помощью которой неработающие ссылки можно исправить или удалить с сайта. Эту операцию, конечно, придется выполнять вручную. Но так даже лучше, не правда ли? Какой бы интеллектуальной ни была программа, доверять ей удаление неработающих ссылок не стоит. Достаточно и той работы, что выполняет "линк-валидатор". Все остальное хороший вебмастер с удовольствием сделает сам.
Ссылки по теме
Статья получена: hostinfo.ru