Come si fa a risolvere la spaziatura frase sul testo semplice estratto da HTML?
-
26-10-2019 - |
Domanda
sto tirando articoli da URL specifici per la conversione in frasi, ma il corpo del testo ha un comportamento casuale di eliminare gli spazi bianchi tra alcune frasi con conseguente:
Jane went to the store.She bought a dog. The dog was very friendly.It had no teeth.
Alcuni del mio testo è simboli di borsa (AZ.GAN), ecc Quindi non posso semplicemente inserire uno spazio tra tutti i periodi che non hanno spazi adiacenti.
Jane bought several shares of (TY.JPN). She lost all her cash money."Arg!" She cried.
L'esempio precedente avrebbe distrutto la variabile simbolo azionario.
curioso se qualcuno conosce la causa di questo. Ho provato diversi HTML e DOM. Io uso Simple_DOM per afferrare il testo in chiaro. Anche se, ottengo lo stesso risultato se lo faccio manualmente, o con qualsiasi altro motore di analisi.
Soluzione
Purtroppo non ho un approccio per la tua domanda specifica, ma è possibile che lo spazio mancante tra frasi è in realtà un'interruzione di linea (ad esempio, \ n) che il visualizzatore di testi (qualunque esso sia) non è che vi mostra?
Forse provare qualcosa di simile solo per assicurarsi che
var articleContent = ... // get content
articleContent = articleContent.replace(/\n/g, ' NEW LINE ');
Altri suggerimenti
Prova a fare:
$str = trim(preg_replace('~([(].+?[.])\s(.+?[)])~', '$1$2', str_replace('.', '. ', $str)));