Welche Perl-Module für gut für Daten munging?

https://stackoverflow.com/questions/3800456

25-09-2019
|

Frage

Vor neun Jahren, als ich anfing zu Parsing HTML und freiem Text mit Perl Ich las das klassische Daten Mungen mit Perl . Weiß jemand, wenn David das Buch zu aktualisieren, oder wenn es ähnliche Bücher oder Webseiten, auf denen die neuen Analysemodule wie XML-Zweig , Regexp-Grammatiken , etc, erklärt?

Ich gehe davon aus, dass in den letzten neun Jahren noch einige Module so gut sind, wie sie waren, einige bisher sind, aber mit neuen interessanten Methoden und einige haben eine besseren Ersatz. noch ist zum Beispiel Parse-RecDescent die einzige Option für freie Textanalyse oder werden die Perl 6 beeinflusst Regexp-Grammatiken seinen Ersatz in vielen Szenarien ?

Ich habe vier Jahre ohne aktive HTML, XML oder Text Data Mining mit Perl, also wahrscheinlich in diesem Bereich mein Toolkit ist ein bisschen veraltet. Daher jedes Feedback für HTML und DOM-Manipulation, Link Extraktion / Verifizierung, Web-Prüfung wie Mechanize, XML Manipulation und freie Textanalyse, von Leuten, die in diesem Bereich mit der aktuellen CPAN-Module auf dem neuesten Stand ist bis wird mehr als willkommen.

Einige neue Ergänzungen zu meinem Toolkit:

noch in meinem Toolkit:

HTML-TABLEEXTRACT # seit 2006 nicht mehr aktualisiert
WWW-Mechanize
Parse-RecDescent
HTML-TokeParser
URI-Escape-
[mehr ...]

Lösung

Es ist unwahrscheinlich, dass es jemals eine zweite Auflage von „Data Mungen mit Perl“ sein. Ich habe Angst, dass die Wirtschaft einfach nicht stapeln.

Aber du hast Recht, dass Technologie auf einem langen Weg seit 2001 bewegt hat, und es gibt viele neue und Module verbessert, die viel von der gleichen Fläche abdecken wie die Module in dem Buch besprochen, zum Beispiel, kann ich nicht erinnern, das letzte Mal habe ich XML :: Parser oder XML :: DOM. Ich scheine in diesen Tagen XML :: LibXML für die Mehrheit meiner XML-Arbeit zu verwenden. Auch, natürlich, meine Diskussion von Datenbanken ist unvollständig, weil es nicht DBIx :: Klasse nicht erwähnt.

Vielleicht wäre es eine interessante Idee, einige dieser Informationen durch einige Beiträge über mein Perl Blog zu aktualisieren. Ich werde darüber nachdenken. Vielen Dank für die Idee.

Andere Tipps

re: Parse::RecDescent <=> Regexp::Grammars

Damian Conway zitiert wurde, zu sagen, dass die Regexp::Grammars ist der Nachfolger Parse::RecDescent . Aber selbst dann, wenn Parse::RecDescent noch bekommt den Job für Sie erledigt dann weiter verwenden. Das Werkzeug, das Sie gut kennen, ist besser als das Werkzeug, das Sie nicht wissen!

Allerdings, wenn Leistung ein wichtiges Thema ist, und Sie laufen Perl 5.10+ dann betrachten Regexp::Grammars .

Hope Dave hat nichts dagegen, aber hier ist sein erster Parse::RecDescent Beispiel von < em> Daten Mungen mit Perl (11.1.1) umgewandelt Regexp::Grammars :

use 5.010;
use warnings;
use Regexp::Grammars;

my $parser = qr{
    <Sentence>

    <rule: Sentence>        <subject> <verb> <object>
    <rule: subject>         <noun_phrase>
    <rule: object>          <noun_phrase>
    <rule: noun_phrase>     <pronoun> | <proper_noun> | <article> <noun>

    <token: verb>           wrote | likes | ate
    <token: article>        a | the | this
    <token: pronoun>        it | he
    <token: proper_noun>    Perl | Dave | Larry
    <token: noun>           book | cat
}xms;

while (<DATA>) {
    chomp;
    print "'$_' is ";
    print 'NOT ' unless $_ =~ $parser;
    say 'a valid sentence';
}

__DATA__
Larry wrote Perl
Larry wrote a book
Dave likes Perl
Dave likes the book
Dave wrote this book
the cat ate the book
Dave got very angry

NB. Für diejenigen, die Sie haben das Buch nicht nur „ Dave sehr wütend bekam “ ist ein ungültiger Satz:)

/ I3az /

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow