При анализе данных, которые расположены в Сети, часто бывает важно захватить только нужную информацию и отсечь совершенно бесполезную для дальнейшего анализа сетевую рекламу. Для этого исследователь Интернета должен каким-то образом отредактировать веб-страницу, а потом сохранить только нужную ему информацию. Самым примитивным способом выполнить подобную каталогизацию данных является сохранение всей веб-страницы на локальный диск пользователя с возможным последующим за этим редактированием. Если у вас собралось около сотни таких страниц, вы начинаете использовать какие-то каталогизаторы данных, например плагин ScrapBook для Firefox, которые умеют делать все необходимое для обработки веб-информации. Но сообщество разработчиков Firefox не стоит на месте.
Постоянно появляются все новые и новые расширения. Стараниями разработчиков появилось отдельное расширение, предназначенное специально для предварительной обработки информации. Сегодня речь пойдет про Aardvark — специализированное внешнее расширение Firefox, предназначенное для организации предварительной обработки данных, находящихся на веб-странице.
УстановкаДля того чтобы установить внешнее расширение Aardvark, можно перейти на одну из страниц одного из самых больших веб-сайтов — сборников внешних расширений для Firefox — The Extensions Mirror. Установка указанного внешнего расширения происходит в несколько необычной для Firefox манере — сначала расширение следует сохранить на локальном компьютере пользователя. Для этого следует воспользоваться контекстным меню гиперссылки «Install», которая расположена на указанной выше странице. После чего следует дождаться загрузки файла расширения. Благодаря тому, что размер внешних расширений для Firefox обычно не превышает сотни-другой килобайт, этот процесс проходит достаточно быстро даже на системах, которые подключены к Сети с помощью модема. Для загрузки Aardvark в базу расширений вашего браузера следует открыть только что загруженный файл с помощью пункта меню браузера "Файл — Открыть файл" либо просто с помощью сочетания «горячих» клавиш — "Ctrl + O" и подтвердить свое желание установить этот плагин нажатием кнопки «Установить сейчас» в появившемся окне «Установка программного обеспечения». После установки расширения следует выключить все работающие копии браузера. После повторного включения браузера ваш плагин будет готов к работе.
ВозможностиРасширение Aardvark предназначено специально для обработки веб-страниц перед, возможно, следующей за этим распечаткой или сохранением. Для того чтобы включить расширение, следует загрузить веб-страницу, которая вас заинтересовала и данные которой вы хотели бы в дальнейшем сохранить или просто распечатать. Далее следует активировать само расширение, выбрав в контекстном меню окна контента браузера пункт «Start Aardvark». После того как вы активировали это расширение, попробуйте навести курсор мыши на один из элементов веб-оформления выбранной вами страницы. Aardvark выделит его красным квадратом, внизу которого выведет название выделенного html-тега и его атрибут id. Следует учесть, что после перезагрузки текущего содержимого страницы (например, кнопкой «Обновить» браузера или «горячей» клавишей F5) расширение следует активировать повторно. К сожалению, в данный момент Aardvark не предоставляет возможности активации с помощью «горячих» клавиш.
Выделенный Aardvark\'ом тег изображения |
В отличие от многих других плагинов Firefox это расширение управляется исключительно «горячими» клавишами (кроме его функции активации), которые действуют соответственно только в активном режиме работы Aardvark (после его включения в контекстном меню браузера). Перечислим встроенные команды расширения:
- W (Wider, шире) — позволяет выделить более обширную область, чем текущее выделение;
- N (Narrower, уже) — отменяет действие последней введенной команды «W»;
- R (Remove, удалить) — позволяет удалить текущий элемент веб-оформления, при этом занимаемое удаленным элементов оформления место не сохраняется пустым;
- E (Erase, очистить) — функция очистки элемента при одновременном сохранении занимаемого им пространства;
- I (Isolate, изолировать) — выполняет операцию изолирования элемента, все невыделенные элементы оформления просто уничтожаются;
- U (Undo, возвратить) — дает возможность отмены последней операции удаления ("R") или изолирования ("I");
- C (Colorize, раскрасить) — этот режим позволяет раскрасить элементы оформления, присваивая для их заднего плана случайные цвета;
- B (Black on white, черно-белый) — устанавливает для текущего элемента веб-оформления режим вывода черным текстом по белому фону;
- V (View Source, просмотр «исходников») — дает возможность просмотра исходного кода выделенного элемента оформления. Режим имеет возможность форматирования HTML-кода, а также выполняет при выводе на экран его цветовую раскраску;
- D (De-widthify, забрать фиксированные по ширине свойства тегов) — удаляет любые параметры тега, заставляющие его вписаться в определенную ширину;
- Q (Quit, прекратить) — выключить активный режим работы Aardvark. После этой команды плагин отключается. Для следующего запуска Aardvark необходимо опять выбрать пункт «Start Aardvark» из контекстного меню окна показа документа Firefox.
W — шире, N — ужеДополняющие друг друга функции «W» (Wider — шире) и «N» (Narrower — уже) позволят пользователю плагина более точно «прицелиться» к нужному ему элементу дизайна веб-страницы. Возможность очень полезна, если вы хотите выделить всю таблицу, а в текущий момент захватили только одну из ее ячеек. После однократного нажатия этой клавиши при условии наличия выделенной ячейки расширение возьмет в красный квадрат строку этой таблицы. Иначе говоря, вы выделяете интересующий вас фрагмент оформления и с помощью нажатия «W» просматриваете элемент, в который он вложен. После многократного нажатия вы перейдете к тегу «body» вашей веб-страницы. Функция «N» позволяет вернуть процесс расширения выделения на один шаг назад.
R — удалить, I — выделить, E — очиститьГруппа функций ("R" — удалить, «I» — выделить, «E» — очистить) для удаления тегов позволит вам забрать ненужные элементы дизайна. Например, можно сначала удалить ненужные для сохранения меню и баннеры «горячей» клавишей «R», потом забрать содержимое несущественных элементов оформления (вроде декоративных рисунков) с помощью функции «E», а затем выделить нужную вам часть материала и нажать «I». В итоге вы получите только нужную информацию с минимальным графическим оформлением. Если вы неудачно удалили один из элементов дизайна, последнюю операцию можно отменить с помощью функции «U». При этом следует быть достаточно внимательными, поскольку отменяется именно последняя операция удаления или выделения.
C — раскрасить«Горячая» клавиша «C» позволяет придать некоторым элементам дизайна веб-страницы фоновый цвет. К сожалению, фоновые цвета выбираются в случайном порядке. Данная функция будет достаточно полезной при разборке дизайна «чужой» веб-страницы, поскольку она позволяет наглядно выделить элементы дизайна.
B — черно-белыйКак дополнение к функции раскрашивания плагин содержит функцию и для очистки цветовых атрибутов элементов дизайна. Данная возможность, несомненно, поможет исследователям Сети отделить дизайн «пестрого» сайта от его контента.
V — исходный кодОдна из самых интересных функций, встроенных в данный плагин, скрывается под, казалось бы, привычным названием «Просмотр исходного кода» ("V"). Разработчики плагина предложили функцию, позволяющую просмотреть структурированный исходный код выделенного фрагмента. При этом вложенные в другие элементы будут изображены внутри областей, относящихся к содержащим их тегам. Фактически эта функция позволяет более подробно проанализировать структуру сайта, чем встроенные функции самого браузера.
Внешний вид окна просмотра исходного текста веб-страницы |
D — забрать фиксированные ширины элементовФункция «D» предназначена для очистки атрибутов тегов, которые заставляют их занять определенную ширину. Таким образом, например, можно раздвинуть на всю ширину экрана фрагмент, который занимает в дизайне сайта только строго оговоренную ширину. Данная функция является крайне полезной для «вытягивания» содержания статей из графического оформления содержащих их веб-сайтов.
Недостатки расширенияРасширение Aardvark имеет несколько существенных недочетов. Один из них заключается в отсутствии возможности многоуровневой отмены произведенных действий. Например, при удалении ненужных элементов оформления вы сможете отменить только последнюю операцию. Также нет возможности вести каталог сохраненных и отредактированных страниц, для этого нужно будет воспользоваться другим плагином или функцией сохранения, которая встроена в браузер.
Преимущества расширенияДанный плагин позволяет производить достаточно подробный анализ содержимого веб-страницы подручными средствами. Вы можете достаточно оперативно проанализировать, каким образом расположены «скелетные» таблицы или другие элементы, связующие дизайн веб-сайта. Очень полезной является встроенная функция структурированного просмотра исходного кода. С помощью возможности раскраски вы сможете провести небольшую презентацию возможностей заинтересовавшего вас веб-сайта.
ПрименениеПлагин, безусловно, окажется очень полезным для тех, кто по роду деятельности постоянно собирает информацию, расположенную на веб-сайтах. Применение этого плагина в комплексе с другими инструментами анализа, вроде плагина Firefox ScrapBook, позволяет вам получить достаточно большой набор функций для повседневного использования. Даже несмотря на наличие в расширении определенных недостатков, Aardvark позволяет пользователям Firefox все более эффективно проводить сбор и анализ сетевой информации, используя только подручные средства. Ну и, безусловно, радует тот факт, что в списке «Что сделать» этого плагина находится достаточно много нужных возможностей, перечень которых длиннее, чем список текущих возможностей плагина, в несколько раз.
Ссылки по теме
Статья получена: hostinfo.ru