「lynx -dump」の出力を模倣する HTML to TXT ライブラリ?

https://stackoverflow.com/questions/4161064

08-10-2019
|

質問

問題は本当に具体的です。

HTML コンテンツを取得し、Linux lynx プログラムによって生成されるのと同じ形式でテキストを生成できる Java のライブラリが必要です。

サードパーティサーバーから提供されたデータを Android 上のエンドユーザーに公開する必要があります。データ形式は古いもので、HTML の形式が悪く、Java を使用して読み取ろうとしましたが、時々失敗します (許容できない)。また、毎月成長しており (プレインストールは除外されます)、「最新の」ものに変更するよう説得できません (XML などでの生活は素晴らしいでしょう)。

最短ルート:W3 html2txt サービスをオンラインで使用するためのクラスを作成しました (Google で検索してください)。アプリでは問題なく動作していましたが、苦情が発生し、W3 サービスが時折失敗することに気づきました。それは大したことではありませんが、ブラックボックスロジックは、出力がこの「Lynx のような」テキスト形式であることを期待しています。

したがって、ライブラリがアプリ内で「lynxスタイル」で変換（HTML->TXT）を実行し、W3サービスの停止を回避したいと考えています。それに加えて、Lynx の出力はおそらく私が見た中で最高のもので、最も整理されていてきちんとしています。

皆さんは何かご存知ですか？

解決 2

1年後、私はあきらめます。答えは次のとおりです。 それを処理する方法はなく、Javaに図書館はありません。 少なくとも今のところ。

私はこれを閉じています。ご清聴ありがとうございました。

他のヒント

オオヤマネコスタイルが何を意味するのかわからないので、これを送信することは完全に間違っているかもしれません（もしそうであれば、ごめんなさい）。

しばらく前に、HTML/XML ファイルをチェックするためにコードを使用しました (当時はログに出力するだけでした)

入力ストリーム = context.getResources().openRawResource(id);StringBuffer inLine = new StringBuffer();入力ストリームリーダー isr = 新しい入力ストリームリーダー(in);BufferedReader inRd = new BufferedReader(isr);

文字列テキスト。while（（text = inrd.readline（））！= null）{inline.append（text）;inLine.append(" ");} in.close()；inLine.toString() を返します。

お役に立てれば幸いですが、もっと複雑なものが必要な気がします:P

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow