Часто ли вы посещаете одни и те же сайты? Давайте не будем говорить о новостных или развлекательных проектах, это специализированные сайты, информация на которых меняется не ежедневно, а ежечасно или даже ежеминутно. Поэтому нет необходимости отслеживать изменения информации на них — она обновляется постоянно, и все об этом знают. Но есть сайты, которые вам интересны либо по вашей работе, либо по вашим увлечениям, но обновляются они нерегулярно. Как часто необходимо вам посещать их, чтобы отыскать новую информацию?
Удобно ли это? Да к тому же можно просто пропустить обновление сайта и получить нужную информацию с запозданием.
Нужна программа, которая могла бы вместо вас в автоматическом режиме следить за появлением обновлений и сообщать вам о них. Такую программу предлагает компания FirstStop WebSearch, LLC. Программа называется Monarch Search. Но ее возможности шире, нежели простой поиск изменений. Давайте рассмотрим, что она обеспечивает.
Программа предназначена для решения наиболее часто востребованных задач анализа сайтов: создания карты сайта и его локальной копии, проведения поиска по сайту и нахождения страниц, содержащих требуемые вам ключевые слова, сравнения текущего содержания сайта и результатов поиска с сохраняемой историей предыдущего просмотра и поиска по сайту, сохранения выбранного контента, а также автоматического сообщения о найденных изменениях. Кроме того, программа может сообщить не только о новом содержании сайта, но и о том, появились ли на нем новые ключевые слова, отправить извещение об изменениях посредством электронной почты, сообщением на мессенджер быстрых сообщений (ICQ), с помощью SMS-сообщения.
При настройке соединения через прокси используйте стандартные настройки браузера
Хотя установка программы никаких сложностей не вызывает, могут возникнуть проблемы при ее использовании. Связано это, как правило, с тем, что в сети, где установлен ваш компьютер, выход в Интернет предоставляется через прокси-сервер. В этом случае вам потребуется те же самые настройки, которые выполнены для браузера, установить и в программе Monarch Search. В качестве примера можно привести последовательность определения настроек прокси-сервера для Internet Explorer 5.5:
- открыть Internet Explorer;
- перейти на закладку Tools строки меню и выбрать пункт «Параметры Интернета»;
- выбрать закладку «Соединения» открывшегося окна;
- перейти по кнопке "Свойства соединения Dial-up" с выбором того соединения, которое вы используете для подключения к Интернету;
- проверить, установлена ли опция "Использовать прокси-сервер";
- проверить также, отмечена ли опция «Расширенные свойства»;
- найти строку HTTP и выписать внесенный в эту строку IP-адрес.
Это значение будет являться адресом прокси-сервера, а номер, следующий за ним, номером порта. Аналогичным образом выполняется поиск настроек прокси-сервера и в других браузерах.
После того как вы определили настройки вашего прокси-сервера, полученную информацию необходимо занести и в настройки программы. Открыв настройки, выберите закладку Connection. Отметьте галочкой Use proxy и введите значения IP-адреса и порта. Если ваш сервер требует авторизации, заполните поля User name и Password. На этой же странице можно установить, сколько попыток должна делать программа, чтобы подключиться к исследуемому сайту. А также в качестве кого эта программа будет себя там «представлять» — это может быть собственное название программы, а можно установить подмену, чтобы программа определялась как какой-либо браузер. (Есть вероятность, что не все сайты разрешат доступ к своей структуре некоей неизвестной программе, работающей в автоматическом режиме.)
Работа с любым сайтом начинается с настройки задачи. Она заключается в определении правил, по которым будет обрабатываться выбранный вами сайт. Озаглавив задачу и вставив адрес сайта, нужно сделать выбор, а что, собственно, и каким образом вы собираетесь искать. Первое, что можно определить, это набор ключевых слов для поиска. В поле, куда вы будете вводить ключевые слова, можно добавлять к каждому из них определенные префиксы, как для включения слова в перечень для поиска, так и для отключения какого-либо слова. Можно определить, что программа будет одинаково верно работать с двумя возможными вариантами написания доменного имени, то есть название, например, my.com.ru будет идентично имени www.my.com.ru.
Отслеживать изменения можно не на всем сайте, а в отдельных его разделах
Можно ограничить объем поиска. Такие сайты, как, к примеру, dni.ru, sec.ru или иные, являются очень большими, чтобы создавать их полную локальную копию и вести поиск по всем присутствующим на сайте страницам. Поэтому можно ограничиться лишь страницами двух-трех уровней либо текущим уровнем и нижележащими страницами (без выхода на параллельные или вышележащие страницы). Можно ограничить поиск страницами, названия которых укладываются в определенные вами критерии с учетом подстановок символов, например page??. А на второй закладке настройки задачи можно определить страницы, которые не должны принимать участие в поиске или проверке сайта на обновление. Так, можно исключить любые изменения имеющегося на сайте форума.
Помимо способа, каким вы подключаетесь к Интернету (непосредственный доступ, доступ через прокси-сервер), на той же закладке можно определить максимальный размер файла, который будет скачиваться, а также максимальное время доступа, при превышении которого будет формироваться сообщение об ошибке. Интересна закладка Offline copy. Здесь вы можете определить, какого типа файлы будут скачиваться и сохраняться для их дальнейшего локального просмотра. Файлы разделены на страницы сайта, графику, видео- и музыкальные файлы, архивные, файлы ActiveX, документы. Расширения, по которым они определяются, уже занесены в программу, но вы можете добавить и собственные расширения, если это потребуется (например, кроме файлов типов doc, xls, pdf, к документам можно добавить файлы с расширением rtf). Здесь же определяется раздел на диске, где будет сохраняться локальная копия. Но можно снять отметку о сохранении, и тогда будет формироваться лишь история анализа сайта.
Следующая закладка предназначена для определения правил поиска обновлений на сайте. Вам предлагается выбрать одну из возможных опций — не проводить сравнение (если вы хотите просто получить локальную копию), сравнивать по изменению вхождения ключевых слов в контент просматриваемых страниц, по изменениям контента в целом, по любым изменениям. А следующая закладка позволяет настроить формирование извещений об обнаруженных изменениях и способ их доставки. Если вы собираетесь с определенной периодичностью выполнять проверку сайта на изменения, вам нужно выставить соответствующие правила на закладке составления расписаний. Здесь можно определить расписание на ежедневную, еженедельную или ежемесячную проверку.
Локальная копия, создаваемая при анализе, помогает лучше понять структуру анализируемого сайта
Завершив настройку задачи, можно переходить и к ее выполнению либо сразу по настройке, либо это будет выполнено по назначенному расписанию. Список всех имеющихся задач можно просмотреть либо через менеджер задач, либо в выпадающем меню. Основное окно программы разделено на две части — в левой отображаются структура сайта, обработанные страницы, графические изображения и, если ведете их поиск, музыкальные и видеофайлы. Структура представлена в виде дерева и взаимосвязей страниц. Для страниц, на которых есть ссылки на другие страницы сайта, они приведены как поддерево ссылок на внутренние страницы. В дальнейшем, выбрав сохраненную информацию о сайте, можно просматривать эти страницы как в локальном окне программы, так и через внешний браузер.
В правой части основного окна программы выдается различная информация по исследованному сайту. На первой закладке — общая информация о задаче, в том числе и о дате последнего обновления информации, результатах поиска по ключевым словам (если они были заданы), расписании проверки сайта. Следующая закладка — отчет по ключевым словам, которые используются на проверенных страницах. Далее — закладка, в которой можно просмотреть выбранную страницу. Специальная информация о наличии файла robots.txt и мета-тегах — на следующей закладке. И на последней — отчет об обнаруженных ошибках. Среди них — отсутствующие страницы или файлы (изображения, документы и другие — ошибка 404), ошибки аутентификации, ошибки доступа. Что интересно, в число ошибок могут попасть и те ссылки, которые не видны на странице, но каким-то образом еще остались в коде. Поэтому программу можно использовать и для анализа наличия ошибок по ссылкам для собственного сайта.
Специальный пункт меню позволяет просматривать историю просмотра отслеживаемого сайта. В окне просмотра показано дерево выполненных проверок, которые можно сортировать либо по наименованию задачи, либо по дате. В правой части этого окна показывается либо титульная страница сайта, который проверялся, либо список изменений, обнаруженных программой с момента предыдущего просмотра сайта. Таким образом, информацию об изменениях можно получать не только через сообщения, отправляемые программой, но и просмотром истории ее работы. Правда, здесь обнаружился и недостаток текущей версии программы — почему-то для разных сайтов начальная страница подставлялась от одного из них либо не подставлялась вообще.
В целом программа оказалась интересной. Получив карту сайта, можно обнаружить на нем даже то, что при реальном подключении к сайту можно и не заметить (скрытые страницы, документацию, иные материалы). Можно найти отсутствующие страницы или материалы. Но все же на текущий момент программа еще не доведена — не все сайты удается проанализировать с ее помощью. Причины разные, и разработчики, фиксируя сообщения от тех, кто попробовал поработать с программой, вводят коррективы в алгоритм ее работы, чтобы с ее помощью можно было работать с любыми сайтами.
По информации руководителя команды разработчиков Евгения Касьяненко, в ближайшие месяцы планируется выпуск линейки новых версий программы. В них, помимо исправлений найденных проблем и ошибок, будет добавлено несколько серьезных улучшений и дополнений, в числе которых: возможности подключения внешних модулей (плагинов) для дополнительной обработки информации по ходу анализа содержимого сайтов; усовершенствования в части хранения, просмотра и увеличения объемов информации из истории анализа сайтов; множество других полезных нововведений. А для того чтобы пользователи могли вовремя узнавать о новых версиях, уже сейчас имеется возможность автоматического обновления программы.
Ссылки по теме
Статья получена: hostinfo.ru