Wo ist „sauber“ aus „Köper“?
Frage
auf "Köper" Dokumentation es steht geschrieben:
In der Standardeinstellung Köper werden die Seiten laufen durch ordentlich vor der Verarbeitung Sie. Dies ist standardmäßig aktiviert, da die Python Bibliotheken, dass Parse HTML sind sehr schlecht mit falsch im Umgang HTML , und wird oft Rückkehr zu falschen Ergebnissen auf „real Welt“Webseite. Um dies zu deaktivieren Merkmal, Set config-do_run_tidy 0
Aber wo ist dieses ordentlich Programm befindet sich innerhalb von Köper ? Ich habe " Köper 0.9 " und in „Twill sah "Ordnerinhalt - ich kann einfach nicht finden dort eine solche Datei (oder ein Modul), die genannt werden würde‚ ordentlich ‘
Lösung
verwendet Köper die Commandline Version ordentlich, wenn auf dem System installiert. die Methode, die ordentlich reinigen Sie Ihren Code ruft in der utils.py und den Namen ‚run_tidy
‘ befindet. seine durch den Befehl ‚tidy_ok
‘ genannt, die in commands.py
Wenn use_tidy auf true gesetzt ist (die es standardmäßig ist) die _cleanup_html
Methode in ConfigurableParsingFactory ruft die run_tidy
Methode