Wie kann ich HTML-Escape-Zeichen / Entitäten als Text extrahieren, wenn Web-Schaben? (Rubin & nokogiri)
-
22-09-2019 - |
Frage
In meinem Rubin + mechanize (nokogiri) Skript Ich benutze dieses Stück Code:
row.at_xpath('td[3]/div[1]/a/text()').to_s.strip
auf einem Forum, in dem die Post-Titel html aussieht wie:
<a href="showthread.php?t=233891" ></body> on Footer ?</a>
und ich erhalte von XPath diese Zeichenfolge </body> on Footer ?
Ich mag bekommen, was ich im Web-Browser sehen kann </body> on Footer ?
Wie kann ich das tun, für alle HTML-Escape-Zeichen / Entitäten?
Lösung
Bitte schauen Sie href="https://stackoverflow.com/questions/1600526/how-to-encode-decode-html-entities-in-ruby">, zu unescape htmlentities
oder
Es ist ein Rubin-Paket namens htmlentities
Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow