html到txt库,模仿“ lynx -dump”的输出?
-
08-10-2019 - |
题
问题确实是如此具体。
我需要Java中的库,该库可以使用HTML内容并以与Linux Lynx程序生成的相同格式生成文本。
我需要公开第三方服务器提供的数据,以最终用户在Android上。数据格式是古老的,以良好的HTML格式,以至于我尝试使用Java阅读它,并且偶尔会失败(不可接受)。它也每月都在增长(预先安装排除在外),我不能说服他们更改为“现代”的东西(XML等人的生活很棒)。
最短的路线:我写了一堂课,用于在线使用W3 HTML2TXT服务(Google搜索)。它在应用程序上运行良好,直到我抱怨并注意到W3服务偶尔会失败。这并不是一件很大的交易,但是黑匣子逻辑期望输出以这种“ lynx类似”的文本格式。
因此,我希望一个库在应用程序内部的“ lynx样式”中进行转换(html-> txt),并避免W3服务中的中断。此外,Lynx输出了我所看到的最好的,最有条理和整洁的。
你们知道有什么吗?
解决方案 2
一年后,我放弃了。答案是: 没有办法处理该问题,在Java中没有库。 至少现在。
我要关闭这个。感谢您的关注。
其他提示
不确定您的意思是lynx风格,所以我可能会完全通过提交(如果是这样,请原谅)。
我返回一会儿使用了一些代码来检查html/xml文件(当时我只是在日志中浏览它
inputStream in = context.getResources()。openRawResource(id); StringBuffer inline = new StringBuffer(); InputStreamReader ISR = new InputStreamReader(in); BufferedReader inrd = new BufferedReader(ISR);
字符串文本; while(((text = inrd.readline())!= null){inline.append(text); inline.append(“ n”); } in.close();返回inline.tostring();
我希望它能有所帮助,但我感觉到您需要更复杂的东西:P