Parse html с использованием perl

https://stackoverflow.com/questions/7319756

27-10-2019
|

Вопрос

У меня есть следующий HTML-

<a href="http://address.com">John</a>: I really <b>love</b> <b>soccer</b>;

Я хочу проанализировать его в CSV, где я бы

имя = Джон

Комментарий = я действительно люблю футбол.

Ключевые слова = любовь, футбол

В приложении консоли любая помощь очень ценится.

Решение

Вот пример, как сделать анализ с Html :: treebuilder:

use HTML::TreeBuilder;

my $html = HTML::TreeBuilder->new_from_content(<<END_HTML);
<a href="http://address.com">John</a>: I really <b>love</b> <b>soccer</b>;
END_HTML

my $name     = $html->find('a')->as_text;               # "John"
my @keywords = map { $_->as_text } $html->find('b');    # "love", "soccer"
my $comment  = $html->as_text;                          # "John: I really love soccer; "

Убираться $comment остается как упражнение.

Другие советы

На CPAN много HTML -анализаторов, мой предпочтительный Html :: treebuilder :: xpath

Текст :: CSV поможет вам генерировать CSV из извлеченных данных.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow