Unterscheiden Sie zwischen HTML / XHTML und Klartext in einem RSS-Beschreibung Element

https://stackoverflow.com/questions/2396902

25-09-2019
|

Frage

Lange Version:

Diejenigen, die Standardisierung Alptraum der RSS-Familie, wissen dass RSS nicht Sie Informationen zur Verfügung stellen, wenn zum Beispiel die „Beschreibung“ Element enthält nur Text oder HTML oder XHTML.

Ich verwende derzeit die ROME-API zu konvertieren von verschiedenen RSS-Versionen zu Atom 1.0. Das Rom-API wird glücklich analysieren, um die RSS und spätere Ausgabe eines Feed Atom. zum Glück Atom hat ein Mittel eine Zusammenfassung zu erklären, Text, HTML oder XHTML enthalten.

Beispiel. RSS:

 <item>
       <link>http://www.schwarzwaelder-bote.de/wm?catId=79039&amp;artId=14737088&amp;rss=true</link>
        <title>Analyse: Winter reißt Löcher in Straßen und Kassen</title>
        <description>&lt;img src="http://www.schwarzwaelder-bote.de/cms_images/swol/dpa-InfoLine_rs-images/20100306/1192a_24128948.thumbnail.jpg" alt="Schlagloch" title="" border="0"&gt;&amp;nbsp;&amp    ;nbsp;&amp;nbsp;Berlin (dpa) - Von Schnee und Eis befreit sind Deutschlands Straßen, und jetzt geht es ans große Aufräumen....</description>
      </item>

wird: ATOM:

<entry>
  <title>Analyse: Winter reißt Löcher in Straßen und Kassen</title>
  <link rel="alternate" href="http://www.schwarzwaelder-bote.de/wm?catId=79039&amp;artId=14737088&amp;rss=true" />
  <author>
    <name />
  </author>
  <id>http://www.schwarzwaelder-bote.de/wm?catId=79039&amp;artId=14737088&amp;rss=true</id>
  <summary type="text">&lt;img src="http://www.schwarzwaelder-bote.de/cms_images/swol/dpa-InfoLine_rs-images/20100306/1192a_24128948.thumbnail.jpg" alt="Schlagloch" title="" border="0"&gt;&amp;nbs    p;&amp;nbsp;&amp;nbsp;Berlin (dpa) - Von Schnee und Eis befreit sind Deutschlands Straßen, und jetzt geht es ans große Aufräumen....</summary>
</entry>

Das Problem ist type="text" die Feed-Leser wie Firefox erzählt den Inhalt der Zusammenfassung als Text zu machen. -> Sie erhalten alle HTML-Quelle sehen

Kurzversion : Wie erkenne ich, dass der Inhalt der Beschreibung Element (X) HTML, damit ich den richtigen Typ Attribut festlegen

Lösung

Heh, mein opa verwendet diese Zeitung zu lesen :)

Ein sehr primitive Ansatz zur Erkennung HTML könnte alle Tags aus der Quelle werden Strippen (in PHP, würden Sie das mit strip_tags() tun) und sehen, ob das Ergebnis unterscheidet sich vom Original. Mit Bezug auf das Chaos, das RSS ist, müssen Sie diese zweimal laufen, einmal vor, einmal nach einem html_entity_decode(), obwohl, so dass beide Unternehmen codiert und nicht-kodierenden Tags zuverlässig erhalten erkannt.

In der Regel, das sollte auf halben Weg zuverlässige Ergebnisse liefern, aber dann sah ich den ö in dieser:

   <title>Analyse: Dem Mutigen geh<F6>rt die Urne</title>

Welche Art von Codierverfahren ist das? Ich habe noch nie gesehen, dass vor. Das wäre natürlich (mis) als HTML-Tag interpretiert. Ist das etwas Atom spezifisch?

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow