Question

Je tire des articles à partir d'URL spécifiques pour la conversion en phrases, mais le corps de texte a un comportement aléatoire d'éliminer les espaces entre les quelques phrases entraînant:

Jane went to the store.She bought a dog. The dog was very friendly.It had no teeth.

Certains de mon texte est des symboles boursiers (AZ.GAN), etc. Je ne peux pas simplement insérer un espace entre toutes les périodes qui ont pas d'espace adjacent.

Jane bought several shares of (TY.JPN). She lost all her cash money."Arg!" She cried.

L'exemple ci-dessus détruirait la variable de symbole boursier.

curieux de savoir si quelqu'un sait la cause de cela. Je l'ai essayé plusieurs HTML et DOM. J'utilise Simple_DOM pour saisir le texte en clair. Bien que, je reçois le même résultat si je le fais manuellement ou avec tout autre moteur d'analyse syntaxique.

Était-ce utile?

La solution

Malheureusement, je n'ai pas une approche pour votre question spécifique, mais est-il possible que l'espace manquant entre les phrases est en fait un saut de ligne (par exemple, \ n) que votre lecteur de texte (quel qu'il soit) ne vous montre?

Peut-être essayer quelque chose comme ça juste pour que

var articleContent = ... // get content
articleContent = articleContent.replace(/\n/g, ' NEW LINE ');

Autres conseils

Essayez de faire:

$str = trim(preg_replace('~([(].+?[.])\s(.+?[)])~', '$1$2', str_replace('.', '. ', $str)));
Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top