HTMLから抽出されたプレーンテキストの文の間隔をどのように修正しますか?

StackOverflow https://stackoverflow.com/questions/5826066

質問

文章への変換のために特定のURLから記事を引いていますが、テキスト本体には、次のような文の間で空白を排除するというランダムな動作があります。

Jane went to the store.She bought a dog. The dog was very friendly.It had no teeth.

私のテキストの一部はストックシンボル(az.gan)などです。したがって、隣接する白人のないすべての期間の間にスペースを挿入することはできません。

Jane bought several shares of (TY.JPN). She lost all her cash money."Arg!" She cried.

上記の例は、ストックシンボル変数を破壊します。

誰かがこれの原因を知っているかどうか興味があります。いくつかのHTMLとDOMを試しました。 simple_domを使用して平文をつかみます。ただし、手動で、または他の解析エンジンでそれを行うと同じ結果が得られます。

役に立ちましたか?

解決

残念ながら、私はあなたの特定の質問に対するアプローチを持っていませんが、文の間に欠けているスペースが実際にあなたのテキストビューアー(それが何であれ)があなたに見せていないラインブレイク(eg n)である可能性はありますか?

おそらく確認するためだけにこのようなことを試してみてください

var articleContent = ... // get content
articleContent = articleContent.replace(/\n/g, ' NEW LINE ');

他のヒント

やってみてください:

$str = trim(preg_replace('~([(].+?[.])\s(.+?[)])~', '$1$2', str_replace('.', '. ', $str)));
ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top