Разработка графического интерфейса для веб-парсера

Руководитель: Дмитрий Калашников, Никита Толстиков (Marketing Research)

Город стажировки: Санкт-Петербург

Проект:

Для решения задач, связанных с анализом использования технологий и языков программирования, был разработан универсальный парсер, работа которого полностью определяется с помощью конфигурационного файла. Однако, создание конфигурационного файла занимает большое количество времени и требует специальных знаний о семантике операций. Более того, из-за сложной иерархической структуры легко совершить ошибку при задании селекторов. В рамках стажировки необходимо разработать графический интерфейс, который позволит создавать конфигурационный файл на основе взаимодействия с веб-сайтом. На текущий момент предполагается, что реализация будет в виде плагина к веб-браузеру.

Задачи:
  • анализ существующих решений на возможность их переработки под существующий парсер;
  • выбор браузера, для которого будет реализован плагин.
 
Реализация:
  • выделение списка элементов, имеющих идентичный селектор;
  • определение способа пагинации на сайте;
  • переходы по сслыкам со странице;
  • создание последующего описания обработки страницы после перехода по ссылке;
  • заполненение форм;
  • генерация конфигурационного файла.
Требования:
  • уверенное знание JavaScript, CSS, HTML;
  • опыт работы с XPath будет плюсом;
  • опыт создания плагинов к веб-браузерам является огромным плюсом;
  • знание Java.
 

Презентация проекта 25 мая 2016