РЕКЛАМА |
|
|
Главная » 2014 » Январь » 7 » A-Parser это быстрый парсер с уклоном на универсальность
18:12 A-Parser это быстрый парсер с уклоном на универсальность |
Что такое A-Parser?
Это быстрый парсер с уклоном на универсальность, удобность и прозводительность.
На данный момент умеет парсить:
Поисковые системы
- Google
- Bing
- Yahoo
- Yandex
- QIP - парсинг яндекса через search.qip.ru с выдачей до 5000 результатов с одного запроса
- Парсер AOL, реализованный через парсер Net::HTTP с опциями Parse custom result, Use pages и др.
Каждый парсер может парсить ссылки, анкоры, сниппеты, количество страниц
Для гугла умеет обходить ограничение в 1000 результатов(скоро и для всех
остальных парсеров так же будет), т.е. по одному запросу собирает всю
выдачу
Парсеры кейвордов
Сервисы поиска ключевых слов
-
Yandex WordStat - собирает все кейворды и количество показов до
указанной страницы. Так же собирает дополнительные кейворды, показы по
главному кейворду и дату обновления статистики. Может сам подставляет
найденные ключевые слова в запросы до указанного уровня.
Подсказки поисковых систем
- Подсказки и релейтед кеи Google
- Подсказки и релейтед Bing
- Подсказки, релейтед и трендовые кеи Yahoo
- Подсказки и релейтед Yandex
Для подсказок гугла умеет автоматически собирать все кеи(подстановки до
указанного уровня), для всех остальных парсеров такая возможность скоро
так же появится
Параметры сайтов и доменов
-
Rank::Ahrefs - парсер количества беклинков с сервиса ahrefs.com, парсит
общее число беклинков, количество ссылающихся страниц, количество
уникальных IP-адресов, подсетей класса C и количество уникальных доменов
- SE::Google::Position - проверка позиции домена по ключевому слову в гугле
- Google PageRank - PR страниц и доменов
- SE::Google::SafeBrowsing - проверка домена в блеклисте гугла(подпись harm в выдачи)
- SE::Yandex::TIC - проверка тематического индекса цитирования домена в Яндексе(тИЦ)
- DMOZ - наличие сайта в каталоге DMOZ
- Google TrustRank - проверка сайта на траст гугла(дополнительный блок ссылок в выдаче и т.п.)
- Whois - дата экспайра домена
- Bing LangDetect - проверка языка домена\ссылки
- Net::DNS - парсер резолвит домены в IP адреса
-
Rank::Category - автоматически определяет категорию сайта на английском
языке, категории такие же как в dmoz.org, например google.com -
Computers/Internet/Searching
-
Rank::CMS - определение более 200 видов CMS на основе признаков.
Определяет все популярные форумы, блоги, CMS, гестбуки, вики и множество
других типов движков
Парсеры различных сервисов
-
SE::Yandex::Direct - парсер direct.yandex.ru, парсит список всех
объявлений(титл, текст, домен) и кол-во объявлений по определенному
запросу
SE::Google::Images - парсер Google Images, парсит прямые ссылки на картинки, сниппеты, разрешение и размер
SE::Bing::Translator - переводчик через сервис www.bing.com/translator/, поддерживает все языки сервиса, включая автоопределение языка оригинала текста
Парсинг контента
-
HTML::LinkExtractor - парсит внешние и внутренние ссылки с указанного
сайта, может ходить по внутренним ссылкам до выбранного уровня.
- Net::HTTP - скачивает указанную страницу, поддерживает многостраничный парсинг.
Планируется еще много парсеров в ближайшем будущем, все созданно для того чтобы быстро добавлять новые парсеры.
Обработка и фильтрация результатов
- Фильтрация любого результата по вхождению строки, эквивалентности строк, регулярному выражению, больше, меньше, равно и т.п.
- Уникализация любого результата по строке, домену, главному домену, папке, строке без учета параметров.
- Парсинг любого результата с использованием регулярных выражений.
Не было бы никакого A-Parser'а если бы не он не имел все
нижеперечисленные преимущества, оставляя остальные парсеры далеко в
стороне:
- Полностью интерактивный мега-юзабильный веб интерфейс
- Быстрое добавление заданий - Quick Task, когда не нужны никакие настройки, а хочется только побыстрому спарсить результаты
- Расширенный редактор заданий, позволяет комбинировать несколько
парсеров в одном задании, к примеру можно одновременно парсить ссылки со
всех парсеров поисковых систем, делать уник по всем результатам прямо в
процессе работы и т.д.
- Очередь заданий - статистика в реальном времени, выполнение одновременно нескольких заданий и т.д.
- Встроенные подсказки для элементов управления позволяют просматривать хелп непосредственно в интерфейсе
- Поддержка русского и английского языка
-
- Поддержка двух самых популярных платформ - Linux и Windows,
производительность под Windows фактически не отличается от Linux версии
- User API - интеграция возможностей парсера в свои скрипты, подробнее тут: User API, взаимодействие с другими программами и скриптами
- Открытая разработка, багтрекер, выслушивание всех мнений и их реализация
- Первоклассная тех поддержка, знакомая многим по моему старому проекту - A-Poster'у
- Данный список можно еще долго продолжать, в ближайшее время все уникальные возможности и подробное их описание появится в Wiki
|
Просмотров: 1560 |
Добавил: kara4un
| Рейтинг: 0.0/0 |
|
|
Ваша реклама |
Здесь ваша реклама |
|