![]() |
Алексей Тутубалин |
Алексей Тутубалин — «отец» Russian Apache (русской модификации интернет-сервера Apache), создатель проекта Russian Internet Survey (мониторинг российского сегмента Интернета), руководитель проекта Rambler Top100 с 2000 по конец 2001 года. В настоящий момент Алексей Тутубалин является партнером компании «Ашманов и партнеры» и активно занимается совершенствованием антиспамерских технологий, предлагаемых этой компаний. В нашем интервью с Алексеем — беседа об этих технологиях и методах работы и развитии спам-фильтра «Спамтест».
Алексей, спасибо, что согласились ответить на наши вопросы. С вашего разрешения, сразу перейду к основной теме нашего разговора...
На каких основных принципах построена работа антиспамерского фильтра?
Основных отличий от других продуктов три: активное использование лингвистических методов (анализ содержания текста); регулярный, до раза в час, выпуск обновлений базы данных для пользователей; анализ графики в письмах.
Хороший антиспам-фильтр должен объединять сразу много методовНо сегодня хороший антиспам-фильтр должен объединять сразу много методов, анализировать нужно все «свойства» письма — текст, заголовки, откуда пришло и так далее. Какой-то один метод не может дать удовлетворительного качества на больших потоках почты к разным пользователям. Мы с самого начала пошли этим путем, и внутри фильтра поддерживается несколько способов обнаружения спама.
Используется ли в нем фильтрация по спискам IP-адресов?
Когда мы проектировали наш фильтр, а затем выходили с ним на рынок, фильтрация по RBL (динамическим спискам IP) была наиболее распространенным методом. Поэтому мы вынуждены были его поддержать. В то же время, на большинстве известных нам инсталляций фильтрация по IP/RBL неактивна. В настройках «по умолчанию» она тоже выключена.
Использование только блокировки по IP — не дает приличных результатовПро RBL'и хочется сказать особо. Использование только этого метода фильтрации на сегодняшний день не дает приличных результатов — доля отловленного спама, в лучшем случае, составляет чуть больше половины, но достигается это при неприемлемом количестве ложных срабатываний. Я даже делал на этот счет специальное исследование. При этом, как дополнительный признак спама, в сочетании с другими методами, использовать RBL'и вполне можно. Главное, чтобы почта не отвергалась только на основании данных RBL.
Про то, что бывают RBL «технические», а бывают «политические», тоже написано уже довольно много. При этом использование RBL подразумевает осознанность — системный администратор должен понимать политику используемых RBL, понимать, насколько она соотносится с политикой его компании, понимать, что решение о почте делегируется «третьей стороне», и вообще следить за тем, что происходит с используемым сервисом.
Что бывает, когда эти простые правила не соблюдаются, все видели на примере Osirusoft — e-mail в мире стоял на ушах (и в среднем — не ходил) несколько дней; совсем недавно аналогичный случай приключился и с RBL monkeys.com (правда, после предупреждения и, по всей видимости, по ошибке).
Какова приблизительная эффективность использования антиспамерского фильтра «Спамтест», если, например, мне приходит в день 1000 писем со спамом?
Приблизительная эффективность «Спамтеста» — от 84% до 96%К сожалению, среднего пользователя не существует, поэтому оценки будут весьма приблизительны. На тех потоках спама, которые мы получаем в первозданном виде (без промежуточных фильтров) и в реальном времени — эффективность распознавания — от 84 до 96 процентов (данные за последние дни) — это включая категорию «возможно спам». Если кто-то получает такой же спам, «как и все», но по какой-то причине с задержкой в час-другой, то эффективность может быть и выше. Тот, кто попадает под конкретную рассылку первым — может ее и получить целиком, если на момент возникновения она фильтром не распознается. Бывают «пробои» — когда спамеры находят эффективный способ обходить фильтр, и эта технология становится массовой — в этом случае приходится искать технологическое лекарство, что занимает некоторое время.
Каков примерно процент ложных срабатываний, и что можно сделать, чтобы его понизить?
Ложные срабатывания мы можем обнаружить только по жалобам пользователейЛожные срабатывания мы можем обнаружить только по жалобам пользователей. Процент весьма невелик — наши фильтры обрабатывают до сотни миллионов сообщений в неделю, при этом жалоб мы получаем единицы в неделю, в худших случаях — пару десятков в неделю, включая и попытки спамеров нас обмануть. Понижать долю ложных срабатываний можно заведением белых списков, другого пути не дано.
![]() |
Журнал «Спамтест» |
ЗАО «Ашманов и партнеры» в настоящее время предлагает три основных антиспамерских продукта: онлайновая проверка на спам ("Спамтест"), корпоративная и провайдерская версии антиспамерского фильтра. Насколько сильно они отличаются друг от друга с точки зрения эффективности действия? Есть ли серьезные отличия в механизме отбора спама?
Это все — один продукт. Корпоративная версия продается под маркой "Kaspersky Antispam", ISP-версия — как «Kaspersky Antispam» и под нашим именем. Есть еще Kaspersky Antispam для OEM, но продукт все равно тот же самый. Основное отличие между этими вариантами — в механизме и логике лицензирования. Для Kaspersky Antispam техническую поддержку оказывают специалисты «Лаборатории Касперского» и мы, для «Спамтеста» — только мы. На сервере «Спамтест» установлена наша версия для ISP с настройками по умолчанию.
Еще есть технологические новинки. Они, в первую очередь, тестируются на почтовом потоке нашей компании, затем попадают на «Спамтест» и к крупнейшим партнерам, затем — в Spamtest/ISP и Kaspersky Antispam.
На Mail.ru, где используется ваш фильтр, есть ссылка «пожаловаться на спам». Эти жалобы как-нибудь обрабатываются и помогают ли они совершенствовать фильтр?
Конечно. Эти жалобы — один из существенных источников спама, не распознаваемого фильтром. Фактически, за исключением ложных жалоб, которых довольно много, весь этот поток идет в обновление базы данных.
Насколько часто фильтр модифицируется, и как это происходит?
Обновление базы данных фильтра выходит 10-15 раз в суткиЕсли говорить об изменениях, видимых для пользователей, то обновления выходят раз в несколько месяцев, при необходимости — чаще. Они доступны в виде "сервис-пака" или новой версии. База данных и часть правил фильтрации обновляются в режиме 24x7, обновления доступны по FTP/HTTP. Выходят обновления 10-15 раз в сутки.
Сколько человек работает над развитием фильтра?
Технологиями в настоящее время занимаются 4 человека.
Как вы относитесь к созданию Национальной антиспамерской коалиции? Как вы относитесь к ее работе?
К созданию коалиции мы относимся непосредственно. Насколько мне известно, инициатором был Игорь Ашманов, озвучивший идею среди крупных игроков рынка. Любая координация работы, в виде коалиции или не в виде коалиции — полезна, отношение хорошее.
В аналитическом отчете ЗАО «Ашманов и партнеры» за 2003 год содержатся крайне неутешительные прогнозы на тему роста количества спама в 2004 году. Как вы считаете, каким образом можно попробовать радикально решить проблему спама, или же это невозможно в принципе?
Возможность анонимной отсылки почты, имеющаяся система ее маршрутизации и так далее — это существенные свойства современной системы e-mail. Отказ от какого-то из этих механизмов приведет к тому, что пострадают и «невинные пользователи». Поддержание их ведет к тому, что стопроцентной технологической панацеи создать не получится. Аналогия с вирусами: технологически возможно сделать операционную систему, защищенную от вирусов (желательна аппаратная поддержка, но она не обязательна). При этом придется пожертвовать совместимостью со старыми версиями и еще — пользовательской возможностью запустить произвольную программу. Однако накопленный парк техники (и пользовательских навыков) таков, что замена его и переобучение будут стоить невообразимо дорого. Хотя техническая возможность победить вирусы — имеется. То же и со спамом. Чтобы победить его технологически — нужно избавляться от старых механизмов и намеренно не иметь совместимости со "старым e-mail". Я сомневаюсь, что индустрия Интернета на такое может пойти — это очень похоже на одномоментный переход с правостороннего движения на левостороннее. Какие-то плавные действия, вероятно, возможны, но никто пока не предложил способа такого перехода на новые технологии, кроме «естественной смерти» (как это случилось, скажем, с gopher и wais). С другой стороны, не все так мрачно. Имеющиеся на сегодняшний день технологические методы борьбы позволяют уменьшить проблему на полтора-два порядка. Их массовое внедрение на эти самые полтора-два порядка удорожит рекламный контакт, что сделает спам-рекламу неконкурентоспособной.
Как вы относитесь к нынешней ситуации в Интернете, при которой использование устаревших технологий и приводит к появлению бешеного количества спама и вирусов? Можно ли что-то с этим сделать, и если да, то каким образом?
«Это наша родина». Я отношусь к этому как к данности — это обратная сторона популярности. В мире существуют миллионы почтовых систем и сотни тысяч — их администраторов. Считать пользователей — задача совершенно безнадежная. Я не знаю метода, как построить их всех в шеренгу и заставить что-то сделать (скажем, перейти на Linux и новый, пусть даже невообразимо крутой, протокол передачи почты). Крупнейшие игроки (в первую очередь, массовые почты) будут пытаться как-то договориться между собой и для начала улучшить обмен данными внутри «консорциумов», а дальше будет видно. С другой стороны, для сколько-нибудь квалифицированных пользователей ни спам, ни вирусы большой проблемы не составляют. Для магистральных каналов передачи данных — тоже. В этом смысле, умение с этим всем безобразием справляться — становится конкурентным преимуществом.
Ссылки по теме
Статья получена: hostinfo.ru