Pregunta

Estoy sacando artículos de URL específicas para la conversión a oraciones, pero el cuerpo de texto tiene un comportamiento aleatorio de eliminar el espacio en blanco entre algunas oraciones que resulta en:

Jane went to the store.She bought a dog. The dog was very friendly.It had no teeth.

Parte de mi texto son símbolos de stock (AZ.Gan), etc. Por lo tanto, no puedo simplemente insertar un espacio entre todos los períodos que no tienen un espacio en blanco adyacente.

Jane bought several shares of (TY.JPN). She lost all her cash money."Arg!" She cried.

El ejemplo anterior destruiría la variable de símbolo de stock.

Curioso si alguien sabe la causa de esto. He probado varios HTML y DOM. Utilizo simple_dom para tomar el texto sin formato. Aunque obtengo el mismo resultado si lo hago manualmente o con cualquier otro motor de análisis.

¿Fue útil?

Solución

Desafortunadamente, no tengo un enfoque para su pregunta específica, pero ¿es posible que el espacio faltante entre las oraciones sea en realidad un inframinado (por ejemplo) que su visor de texto (sea lo que sea) no le muestra?

Tal vez intentar algo como esto solo para asegurarse de

var articleContent = ... // get content
articleContent = articleContent.replace(/\n/g, ' NEW LINE ');

Otros consejos

Trata de hacerlo:

$str = trim(preg_replace('~([(].+?[.])\s(.+?[)])~', '$1$2', str_replace('.', '. ', $str)));
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top