Unterscheiden Sie zwischen HTML / XHTML und Klartext in einem RSS-Beschreibung Element
Frage
Lange Version:
Diejenigen, die Standardisierung Alptraum der RSS-Familie, wissen dass RSS nicht Sie Informationen zur Verfügung stellen, wenn zum Beispiel die „Beschreibung“ Element enthält nur Text oder HTML oder XHTML.
Ich verwende derzeit die ROME-API zu konvertieren von verschiedenen RSS-Versionen zu Atom 1.0. Das Rom-API wird glücklich analysieren, um die RSS und spätere Ausgabe eines Feed Atom. zum Glück Atom hat ein Mittel eine Zusammenfassung zu erklären, Text, HTML oder XHTML enthalten.
Beispiel. RSS:
<item>
<link>http://www.schwarzwaelder-bote.de/wm?catId=79039&artId=14737088&rss=true</link>
<title>Analyse: Winter reißt Löcher in Straßen und Kassen</title>
<description><img src="http://www.schwarzwaelder-bote.de/cms_images/swol/dpa-InfoLine_rs-images/20100306/1192a_24128948.thumbnail.jpg" alt="Schlagloch" title="" border="0">&nbsp;& ;nbsp;&nbsp;Berlin (dpa) - Von Schnee und Eis befreit sind Deutschlands Straßen, und jetzt geht es ans große Aufräumen....</description>
</item>
wird: ATOM:
<entry>
<title>Analyse: Winter reißt Löcher in Straßen und Kassen</title>
<link rel="alternate" href="http://www.schwarzwaelder-bote.de/wm?catId=79039&artId=14737088&rss=true" />
<author>
<name />
</author>
<id>http://www.schwarzwaelder-bote.de/wm?catId=79039&artId=14737088&rss=true</id>
<summary type="text"><img src="http://www.schwarzwaelder-bote.de/cms_images/swol/dpa-InfoLine_rs-images/20100306/1192a_24128948.thumbnail.jpg" alt="Schlagloch" title="" border="0">&nbs p;&nbsp;&nbsp;Berlin (dpa) - Von Schnee und Eis befreit sind Deutschlands Straßen, und jetzt geht es ans große Aufräumen....</summary>
</entry>
Das Problem ist type="text"
die Feed-Leser wie Firefox erzählt den Inhalt der Zusammenfassung als Text zu machen. -> Sie erhalten alle HTML-Quelle sehen
Kurzversion : Wie erkenne ich, dass der Inhalt der Beschreibung Element (X) HTML, damit ich den richtigen Typ Attribut festlegen
Lösung
Heh, mein opa verwendet diese Zeitung zu lesen :)
Ein sehr primitive Ansatz zur Erkennung HTML könnte alle Tags aus der Quelle werden Strippen (in PHP, würden Sie das mit strip_tags()
tun) und sehen, ob das Ergebnis unterscheidet sich vom Original. Mit Bezug auf das Chaos, das RSS ist, müssen Sie diese zweimal laufen, einmal vor, einmal nach einem html_entity_decode()
, obwohl, so dass beide Unternehmen codiert und nicht-kodierenden Tags zuverlässig erhalten erkannt.
In der Regel, das sollte auf halben Weg zuverlässige Ergebnisse liefern, aber dann sah ich den ö
in dieser:
<title>Analyse: Dem Mutigen geh<F6>rt die Urne</title>
Welche Art von Codierverfahren ist das? Ich habe noch nie gesehen, dass vor. Das wäre natürlich (mis) als HTML-Tag interpretiert. Ist das etwas Atom spezifisch?