jsoup — это библиотека на основе Java для работы с контентом на основе HTML. Он предоставляет очень удобный API для извлечения и обработки данных, используя лучшие методы DOM, CSS и jquery-подобные. Он реализует спецификацию WHATWG HTML5 и анализирует HTML в том же DOM, что и современные браузеры.
Библиотека jsoup реализует спецификацию WHATWG HTML5 и анализирует содержимое HTML в том же DOM, что и в современных браузерах.
Библиотека jsonp обеспечивает следующие функциональные возможности.
Поддержка множественного чтения — он читает и анализирует HTML, используя URL, файл или строку.
Селекторы CSS — могут находить и извлекать данные, используя обход DOM или селекторы CSS.
DOM Manipulation — может манипулировать HTML-элементами, атрибутами и текстом.
Предотвращать атаки XSS — он может очищать пользовательский контент от заданного безопасного белого списка, чтобы предотвратить атаки XSS.
Tidy — выводит чистый HTML.
Обрабатывает недействительные данные — jsoup может обрабатывать незамкнутые теги, неявные теги и может надежно создавать структуру документа.