Прекрасна мощь поисковых систем. С их помощью можно найти все — от гвоздя и до звезды. Не говоря уже о тысячах иных полезных и совершенно бесполезных вещей. Недаром их возможностями пользуются миллионы. Очень они удобны, когда нужно искать каждый раз что-то новое, чего еще не доводилось искать.
Задал запрос — получил ответ. В следующий раз — опять все заново. Для любителей задавать повторно одинаковые вопросы придуманы иные возможности, например сохранение их в личных настройках (что удобно в тех случаях, когда запросы сложные, с множественным отбором результатов).
Но вот чего пока российские поисковики не предлагают, так это настройку запросов не только по отбору результатов, но и по ограниченному составу сайтов, на которых должен проводиться поиск. Допустим, вы знаете, что есть десяток-другой сайтов, наиболее уважаемых вами по определенной тематике. И при поиске информации вы хотели бы обращаться каждый раз именно к ним, а не ко всему бесконечному количеству сайтов мирового Интернета. Конечно, можно поочередно заходить на каждый любимый сайт и на нем искать требуемое. Но неудобно, да и не на каждом сайте может оказаться встроенная система поиска.
Ограничить поиск определенным составом сайтов предоставляет поисковая система Rollyo. В ней можно создать собственную поисковую подсистему с тем набором сайтов, которые вы хотите использовать для поиска интересующей вас информации. Система Rollyo является надстройкой к поисковику Yahoo!, использует возможности его поискового движка и проиндексированной им информации и не меняет принципы и правила его функционирования.
Персональный поиск — это обычный поиск, но только по избранным лично вами сайтам
Объединив систему поиска и возможность отбора сайтов для его осуществления, компания «Поисковые технологии» предложила новую поисковую систему — «Персональный поиск». Точнее, это не только система поиска, но еще и система мониторинга отобранных вами сайтов и страниц. «Персональный поиск», в отличие от Rollyo, основывается на собственном поисковом движке. Если вы — владелец сайта и занимаетесь анализом того, какие поисковые системы его индексируют, можете отметить себе название нового «паука» — он будет фиксироваться как Novoteka personal search/1.0. А увидев на своем сайте его следы, знайте, что кто-то добавил ваш сайт в свой индивидуальный список индексируемых сайтов.
Так что же вы можете делать в «Персональном поиске»? Во-первых, создавать и управлять списком сайтов, по которым будет вестись поиск. Во-вторых, выполнять собственно поиск. В-третьих, сохранять настроенные запросы и использовать их в дальнейшем. По сохраненным запросам можно в автоматическом режиме выполнять повторный поиск и получать отчеты на свой почтовый адрес. Это в-четвертых. А в-пятых — можно свою персональную поисковую систему выложить для общего доступа. Пусть и другие посетители ею воспользуются. Хотя угодить на вкус другого человека крайне сложно — у каждого из нас, кто бродит по Сети, свои запросы, свои любимые и наиболее доверенные сайты, на которых мы черпаем информацию.
Начнем с самого простого — создания своей коллекции сайтов. Для добавления сайта нужно заполнить анкету. Фактически это условия индексирования сайта. Вам не обязательно указывать головную страницу — страница (или раздел), с которой начнется индексирование, может лежать и в глубине сайта. Эта страница и будет точкой входа. Таких точек для сайта может быть несколько — возможно, вас интересует информация в разных разделах, которые между собой напрямую не связаны. При создании точки входа нужно помнить, что если вы указываете раздел, то путь к нему обязательно должен завершаться слешем (\), в противном случае индексироваться будут и все остальные каталоги, расположенные том же уровне.
Не все сайты индексируются — не поддерживаются скрипты, флеши, иные программные средства
Что происходит при индексировании сайта? Система «Персональный поиск» произведет закачку всех затребованных страниц. Поэтому вам нужно указать объем дискового пространства, которое вы хотели бы выделить под данный сайт (если точек входа на сайт несколько, то размер диска выделяется для всех одновременно). Общий размер выделяемого для персональной поисковой системы дискового пространства первоначально ограничен размером в 200 мегабайт, но при превышении этого размера может быть увеличен до гигабайта. (Это на сегодняшний день, пока идет тестирование проекта. Как будет выделяться место после перехода на коммерческое использование, пока не говорится.) Разработчики предупреждают, что в настоящий момент могут некорректно выкачиваться и индексироваться сайты, в которых для формирования страниц применяются JavaScript, Flash и другие программные средства.
Следующий параметр — глубина выкачки: на сколько уровней вглубь от точки входа будет индексироваться сайт. Максимальное значение установлено в семь уровней, но всегда ли вы будете использовать такую глубину? К тому же и выделенное вами место может закончиться раньше, чем будут закачаны и проиндексированы все подпадающие под задание страницы. И здесь нужно отметить еще один момент — частоту переиндексации. Она может быть установлена как ежедневное обновление данных, так и как обновление раз в неделю или месяц. А можно и не обновлять — все зависит от исходного сайта, насколько часто он обновляется. В процессе выкачивания страницы сохраняются в кеше системы, поэтому при частой переиндексации обновляться будут только новые, остальные будут браться из кеша. Тем не менее индекс каждый раз будет строиться заново.
Если вы хотите, чтобы при индексировании каталога были учтены и уводящие за его пределы ссылки, нужно выбрать опцию «Выходить за пределы подкаталога». В противном случае отслеживание внешних ссылок выполняться не будет. А можно установить еще ограничивающие или запрещающие маски. В первом случае индексироваться будут только те страницы, которые отвечают указанным маскам, пусть даже в разделе находятся и другие страницы (ограничение действует только на страницы, принадлежащие по подчиненности одной из точек входа). Во втором случае страницы, соответствующие маске, наоборот, индексироваться не будут. Второе ограничение имеет преимущество перед первым, поэтому страницы, подпадающие под запрет, не будут проиндексированы даже в том случае, если они попали под ограничивающие установки.
Система обеспечивает полную индексацию всех сайтов не реже раза в сутки
После того как вы полностью заполните анкету, сайт будет проиндексирован. Время, затрачиваемое на эту работу, зависит как от объема сайта, так и от загрузки сервиса в целом. Но пока большой загрузки нет, поэтому индексирование выполняется довольно быстро (10-15 минут — и формируется индекс). После выполнения этой операции в списке сайтов для каждого будет отображаться общее количество проиндексированных страниц, а в случае повторной индексации — и количество новых. И вот что интересно — если при очередной переиндексации сайт окажется недоступным, то все ранее проиндексированные страницы будут удалены. Возможно, это и хорошо, если сайт больше не существует, но недоступность может быть вызвана и другими причинами, не связанными с самим сайтом, и тогда придется ждать следующей переиндексации, чтобы заново скачались и проиндексировались страницы.
Реален вопрос — а что будет происходить с теми сайтами, которые попадают в индивидуальные списки разных пользователей? Как будет происходить их индексирование? В первую очередь для второго и последующего пользователя будут браться из кеша уже скачанные страницы, если они попадают в обе выборки. И только в случае расхождения будут заново скачиваться дополнительные. Но сам индекс для каждого пользователя будет строиться свой собственный.
Теперь о том, как использовать подготовленный поиск. Для чего вы его создавали? Наверняка для выполнения поисковых запросов. Поэтому на первом месте — операции поиска. Это может быть простой вариант, при котором вы задаете ключевое слово или фразу, либо расширенный вариант поиска. При использовании расширенного варианта вы можете ограничить поиск определенными датами, подразделами сайта (страницами, URL которых начинается с указанного вами префикса), искать только в заголовках страниц и так далее. Но и в том, и в другом варианте вы можете добавить еще одну настройку поиска — искать ли по всем своим сайтам, какому-либо отдельно взятому сайту либо по всей информации, хранящейся в вашем кабинете.
Последние пять запросов, выполненных вами, сохраняются в списке, и результаты, полученные по ним, можно получить повторно (они, как и индексы, и исходные страницы, сохраняются на сервере). Понятно, что в этом случае скорость выдачи результатов несколько увеличивается. Но заново запрос не выполняется. А вот если вы создадите запрос и разместите его в разделе «Сохраненные запросы», то сможете раз за разом выполнять его и получать каждый раз обновленные результаты. Формирование сохраняемого запроса идентично созданию обычного. Отличие только в том, что вы можете указать периодичность, с которой будет выполняться этот запрос, и определить время, когда результаты выполнения запроса будут отправляться на ваш почтовый адрес (на чужой адрес перенаправить результаты нельзя). Сохраненные запросы можно модифицировать, приводя их в соответствие с вашими изменяющимися потребностями.
И есть еще один раздел поисковой системы, который относится уже к мониторингу сайтов или их страниц. Это — архив. С определенной вами периодичностью он будет отслеживать появление изменений на конкретных страницах интересующих вас сайтов. Например, можно отслеживать появление новых сообщений в форумах или блогах, изменение цен в онлайновых магазинах, курсы валют и так далее. Процесс отслеживания заключается в сохранении в архиве копии заявленной страницы. (При этом не будут сохраняться таблицы стилей и другие элементы, представленные отдельными файлами, а только код самой страницы.) В архиве может быть сохранено несколько версий одной и той же страницы, что позволяет отслеживать последовательность ее изменения. При достижении верхнего ограничения по количеству версий более новая будет «выталкивать» из архива самую старую.
Архив — это средство для мониторинга страниц
Добавить страницу в архив можно как вводом ее конкретного адреса в Сети, так и отметкой требуемой страницы в результатах поиска и добавлением ее в архив. Для удобства в архиве можно создать иерархию папок, в которых вы будете размещать страницы. Результаты скачивания могут, как и результаты сохраненных запросов, отправляться на ваш электронный адрес.
И, наконец, публикация вашей поисковой системы для широкого доступа. Таких публикаций на основе вашей персональной поисковой системы может быть несколько, отличаться они будут определяемыми вами параметрами. Поисковая страница, не защищенная паролем (а вход в ваш личный кабинет выполняется по логину и паролю), будет располагаться на сайте public.novoteka.ru. Пример такой поисковой страницы можно увидеть здесь. Но результаты поиска и форму для запросов можно разместить и на своем сайте. Для этого нужно сгенерировать код поисковой формы, ссылку на таблицу стилей (или создать на ее основе собственный стиль). И все. Ваша личная поисковая система по избранным сайтам готова, доступна и работает. Единственный недостаток подобной личной поисковой системы, которую вы предоставляете всем желающим, в выводе в результатах запросов рекламы от «Бегуна». Что ж, бесплатный сыр только в мышеловке.
Остается добавить, что тестирование новой поисковой системы будет продолжаться еще месяц, после чего она будет доступна для общего пользования.
Ссылки по теме
Статья получена: hostinfo.ru