Frage

Ich ziehe Artikel aus bestimmten URLs für die Konvertierung in Sätze, aber der Textkörper hat ein zufälliges Verhalten, die Whitespace zwischen einigen Sätzen zu beseitigen, was dazu führt:

Jane went to the store.She bought a dog. The dog was very friendly.It had no teeth.

Einige meines Textes sind Aktiensymbole (az.gan) usw. Daher kann ich nicht einfach einen Raum zwischen allen Zeiträumen einfügen, die keine benachbarte Weißespace haben.

Jane bought several shares of (TY.JPN). She lost all her cash money."Arg!" She cried.

Das obige Beispiel würde die Standardsymbolvariable zerstören.

Neugierig, wenn jemand die Ursache dafür kennt. Ich habe mehrere HTML und DOM ausprobiert. Ich benutze Simple_dom, um den Klartext zu greifen. Obwohl ich das gleiche Ergebnis bekomme, wenn ich es manuell oder mit einem anderen Parsing -Motor mache.

War es hilfreich?

Lösung

Leider habe ich keinen Ansatz für Ihre spezifische Frage, aber ist es möglich, dass der fehlende Raum zwischen Sätzen tatsächlich ein Zeilenausbruch (z. B. n) ist, den Ihr Text -Viewer (was auch immer er ist) nicht zeigt?

Vielleicht versuchen Sie so etwas, um sicherzugehen, um sicherzugehen

var articleContent = ... // get content
articleContent = articleContent.replace(/\n/g, ' NEW LINE ');

Andere Tipps

Versuchen Sie:

$str = trim(preg_replace('~([(].+?[.])\s(.+?[)])~', '$1$2', str_replace('.', '. ', $str)));
Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top