Parse html с использованием perl
-
27-10-2019 - |
Вопрос
У меня есть следующий HTML-
<a href="http://address.com">John</a>: I really <b>love</b> <b>soccer</b>;
Я хочу проанализировать его в CSV, где я бы
имя = Джон
Комментарий = я действительно люблю футбол.
Ключевые слова = любовь, футбол
В приложении консоли любая помощь очень ценится.
Решение
Вот пример, как сделать анализ с Html :: treebuilder:
use HTML::TreeBuilder;
my $html = HTML::TreeBuilder->new_from_content(<<END_HTML);
<a href="http://address.com">John</a>: I really <b>love</b> <b>soccer</b>;
END_HTML
my $name = $html->find('a')->as_text; # "John"
my @keywords = map { $_->as_text } $html->find('b'); # "love", "soccer"
my $comment = $html->as_text; # "John: I really love soccer; "
Убираться $comment
остается как упражнение.
Другие советы
На CPAN много HTML -анализаторов, мой предпочтительный Html :: treebuilder :: xpath
Текст :: CSV поможет вам генерировать CSV из извлеченных данных.
Не связан с StackOverflow