Frage

auf "Köper" Dokumentation es steht geschrieben:


In der Standardeinstellung Köper werden die Seiten laufen durch ordentlich vor der Verarbeitung Sie. Dies ist standardmäßig aktiviert, da die Python Bibliotheken, dass Parse HTML sind sehr schlecht mit falsch im Umgang HTML , und wird oft Rückkehr zu falschen Ergebnissen auf „real Welt“Webseite. Um dies zu deaktivieren Merkmal, Set config-do_run_tidy 0


Aber wo ist dieses ordentlich Programm befindet sich innerhalb von Köper ? Ich habe " Köper 0.9 " und in „Twill sah "Ordnerinhalt - ich kann einfach nicht finden dort eine solche Datei (oder ein Modul), die genannt werden würde‚ ordentlich

War es hilfreich?

Lösung

verwendet Köper die Commandline Version ordentlich, wenn auf dem System installiert. die Methode, die ordentlich reinigen Sie Ihren Code ruft in der utils.py und den Namen ‚run_tidy‘ befindet. seine durch den Befehl ‚tidy_ok‘ genannt, die in commands.py

definiert ist,

Wenn use_tidy auf true gesetzt ist (die es standardmäßig ist) die _cleanup_html Methode in ConfigurableParsingFactory ruft die run_tidy Methode

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top