Поисковая система, работающая по принципу p2p-сети, аналогично, например, SETI@home, это самая что ни на есть сущая реальность, и называется она Grub.org. Её создатели а это компания LookSmart, надеются через несколько месяцев охватить весь Интернет все 10 миллиардов страниц.
К столь амбициозным планам надо относиться с известной долей скептицизма, однако нельзя не признать, что чем больше корней у дерева, тем быстрее и лучше оно растёт и тем крепче держится.
Корней у Grubияна много, но должно быть гораздо больше для эффективной деятельности...
Но обо всём по порядку, а потому начнём издалека с теории.
Большинство нынешних поисковых систем, при всех их внутренних и внешних различиях, используют один и тот же принцип: имеется некий "робот" или "паук", сборщик информации, который носится по всей доступной ему части Интернета, собирая в единую базу информацию о находящихся в этом сегменте сайтах (индексируя их).
Робот один, и каким бы мощным он ни был, всё равно, охватить весь Интернет пока ни одному не под силу. Ежедневно появляется или обновляется по два миллиона веб-страниц.
Отраслевой лидер, Google который, индексирует, по последним данным, 3 083 324 652 страницы. Больше трёх миллиардов.
Скажете, о великий гугль? О да. Проблема в том, что всего в Интернете приблизительно 10 миллиардов страниц, а следовательно, Google со всем его величием охватывает всего одну треть.
Google охватывает три миллиарда страниц. Но это всего треть Интернета. |
А вот компания LookSmart размахнулась на все десять миллиардов. Каким образом?
С помощью распределённой системы "пауков", каждый из которых будет облазить только вверенный ему участок Интернета, используя вычислительные мощности компьютера, на котором он установлен.
Разработкой системы Grub в течение трёх лет занимались три человека во главе с неким Кордом Кэмпбеллом (Kord Campbell). В январе 2003 года их купила поисковая компания LookSmart, очевидно, узрев за пиринговым поисковиком великое будущее.
Идея действительно выглядит очень умно и перспективно всем миром, как говорится, создать идеальный поисковик. Но тут есть одно большое "но": для его эффективной работы нужно насколько возможно большее количество пользователей, которые скачали бы себе "скринсейвер", под которым прячется клиентская программа, выполняющая роль локального "паука".
Чем больше таких клиентских программ будет установлено и запущено в действие, тем больше будет зона охвата. Так что в определённый момент совместными усилиями удастся проиндексировать все 10 миллиардов страниц.
Как видим, система аналогична SETI@home: вычислительные мощности получаются за счёт компьютеров, на которые установлен клиент.
Теоретически при должном количестве пользователей совокупная производительность распределённой системы Grub оставит далеко позади Google с его кластерами из тысяч PC (фактически, ядром отраслевого лидера является кластерный суперкомпьютер).
Корд Кэмпбелл, создатель системы Grub. |
Сейчас Grub установлен у приблизительно полутора тысяч пользователей (на главной странице сайта Grub.org имеется обновляемая в режиме реального времени статистика), и за сутки активные пользователи проиндексировали более 60 миллионов страниц.
Робот системы Google за сутки обегает порядка 150 миллионов страниц, и его индекс обновляется раз в месяц.
Однако увеличение мощности это одно, а вот эффективное её использование, получение более адекватных результатов это совсем другое. Главная проблема, на самом деле, не расширить базу поиска, а выяснить, когда какие ресурсы обновляются.
Google решил эту проблему по-александр-макендонски: на сайте Google.com, к вящему восторгу пользователей, появился аккумулятор новостей (news.google.com), который индексирует регулярно обновляемые сайты.
Удастся ли это сделать LookSmart благодаря Grub?
И вообще, как они надеются привлечь новых пользователей? Да, когда был выпущен скринсейвер, количество пользователей скакнуло с полутора сотен до полутора тысяч, с соответствующим увеличением охвата системы.
Но тут возникает положение заколдованного круга: с одной стороны, для эффективной работы поисковика требуется большое количество пользователей. Без них никаких практических оснований для установки к себе на компьютер чёрт знает чего и не наблюдается, а следовательно и нужному количеству пользователей неоткуда взяться.
SETI@home вышла из положения с помощью грамотного пропагандистского хода: каждому пользователю компьютеров намекнули на очень небольшую, но всё же реальную возможность того, что именно с его компьютера поступят данные, благодаря которым удастся найти внеземной разум.
Что предлагает Grub?
| ||
Во-первых, уже сейчас рекомендуется размещать клиентскую программу на сервере, "поближе к данным" тогда они будут индексироваться в первую очередь.
Во-вторых, обещана возможность не только индексировать страницу, но и производить "анализ ссылок" (на этом основана работа системы PageRank, определяющая адекватность результатов поиска запросу пользователя).
Во-третьих, система Grub в итоге позволит производить семантический (смысловой) анализ контента Сети. Да, всего контента. И именно смысловой анализ, при котором поиск осуществляется не по ключевым словам, а по смысловому содержанию того или иного документа.
А для этого нужны исполинские вычислительные мощности, особенно, когда речь идёт о миллиардах веб-страниц.
Откуда им взяться?
Совокупная производительность распределённого "суперкомпьютера" системы SETI@home составляет 52 терафлопа (52 триллиона операций с плавающей точкой в секунду). Это в пять раз больше самого мощного на Земле японского суперкомпьютера "симулятор Земли" (Earth Simulator), у которого "за душой" всего 10 терафлопов.
Всю эту мощь обеспечивает "всего-навсего" четыре миллиона компьютеров причём не обязательно слишком мощных.
В общем, из Grub может получиться нечто весьма и весьма могучее. Главной проблемой был и остаётся вопрос привлечения новых пользователей.
Установить себе скринсейвер-клиент Grub'а можно отсюда.
Статья получена: Membrana.ru