Wie kann ich den Inhalt einer Webseite in R lesen und analysieren

https://stackoverflow.com/questions/1844829

12-09-2019
|

Frage

Ich möchte den Inhalt einer URL lesen (eq, http://www.haaretz.com/ ) in R. ich frage mich, wie kann ich es tun

Lösung

Nicht wirklich sicher, wie Sie die Seite bearbeiten wollen, weil es wirklich chaotisch. Wie wir href="https://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags"> wieder gelernt in dieser berühmten Stackoverflow Frage

Hier ist ein Beispiel für den Anfang:

require(RCurl)
require(XML)
webpage <- getURL("http://www.haaretz.com/")
webpage <- readLines(tc <- textConnection(webpage)); close(tc)
pagetree <- htmlTreeParse(webpage, error=function(...){}, useInternalNodes = TRUE)
# parse the tree by tables
x <- xpathSApply(pagetree, "//*/table", xmlValue)  
# do some clean up with regular expressions
x <- unlist(strsplit(x, "\n"))
x <- gsub("\t","",x)
x <- sub("^[[:space:]]*(.*?)[[:space:]]*$", "\\1", x, perl=TRUE)
x <- x[!(x %in% c("", "|"))]

Dies führt zu einem Zeichen Vektor meist nur die Homepage Text (zusammen mit einigen Javascript):

> head(x)
[1] "Subscribe to Print Edition"              "Fri., December 04, 2009 Kislev 17, 5770" "Israel Time:Â 16:48Â (EST+7)"           
[4] "Â Â Make Haaretz your homepage"          "/*check the search form*/"               "function chkSearch()"

Andere Tipps

Am besten kann das XML-Paket sein - siehe zum Beispiel dieses vorherige Frage .

Ich weiß, dass Sie für R. fragen Aber vielleicht Python + beautifullsoup ist der richtige Weg hier? Dann haben Sie Ihre Analyse mit R Sie den Bildschirm mit beautifullsoup gekratzt haben?

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow