Analyse problematischer XML in Querypath (Punkte in Elementen)

https://stackoverflow.com/questions/6351004

28-10-2019
|

Frage

Ich versuche, eine NewsML (http://www.iptc.org/std/newsml-G2/2.7/examples/Listing2_Newsml-G2_Complete.xml) Dokument mit Querypath zu analysieren. Aber ich habe Probleme mit den Punkten in einigen Elementen, wie <body.head>.

In einigen Firefox -Querypath -Plugins kann ich dem Punkt mit einem Backslash entkommen, aber in der PHP -PEAR -Bibliothek funktioniert dies nicht.

Irgendwelche Ideen?

(Ich suche eine Lösung innerhalb von Querypath, nicht für Problemumgehungen)

Lösung

In der Vergangenheit habe ich die ordentliche PHP -Erweiterung (http://us3.php.net/Manual/en/book.tidy.php) verwendet, um HTML/XML aufzuräumen, bevor sie an Querypath weitergegeben werden.

Der oben genannte XML ist ziemlich sauber und auch ziemlich klein.

Wenn das einzige Problem Punkte in Elementnamen sind, würde die Vorverarbeitung mit einem regulären Ausdruck wahrscheinlich auch funktionieren. Und es wäre die schnellste Lösung. Ich vermute, Sie könnten eine machen preg_replace('/<body\./g', '<body-', $xml) Und lassen Sie es reparieren. (Das würde ersetzen body.content mit body-content usw.)

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow