HTML To TXT Библиотека, которая имитирует вывод «Lynx -dump»?

StackOverflow https://stackoverflow.com/questions/4161064

Вопрос

Проблема действительно такая особенная.

Мне нужна библиотека в Java, которая может принимать HTML контент и генерировать текст в том же формате, который генерируется программой Linux Lynx.


Мне нужно разоблачить данные, предоставленные 3-го вечеринки, чтобы конечные пользователи на Android. Формат данных древний, в плохо отформатированном HTML, настолько, что я пытался читать его, используя Java, и он иногда не удается (неприемлемый). Он также растет каждый месяц (преинстанол исключается), и я не могу убедить их перейти на «современные» вещи (жизнь будет великолепна в XML и т. Д.).

Кратчайший маршрут: я написал класс для использования службы W3 HTML2TXT Service Online (Google Search его). Он работал нормально в приложении, пока мне не потразнул и не заметил, что сервис W3 терпит неудачу изредка. Это не так большая сделка, но черная логика коробки ожидает, что вывод будет в этом текстовом формате «Lynx Like».

Поэтому я хотел бы библиотеку выполнить преобразование (HTML-> TXT) в «стиле Lynx» внутри приложения и избежать отключений в службе W3. И, кроме того, выводит Lynx, вероятно, лучшее, что я видел, самый организованный и аккуратный.

Вы, ребята, знаете о любом?

Это было полезно?

Решение 2

Через год я сдаюсь. Ответ: Нет способа справиться с этим, без библиотеки в Java. По крайней мере на данный момент.

Я закрываю это. Спасибо за внимание.

Другие советы

Не уверен, что вы подразумеваете под стилем Lynx, поэтому я мог бы быть полностью выключена, отправив это (если так, пожалуйста, извините).

Я использовал какой-то кусок кода, чтобы вернуться к проверке файлов HTML / XML (в то время я просто приглашаю его в журналах

Inputstream In = Context.getResources (). OpenRawResource (ID); Stringbuffer inline = новый stringbuffer (); INPUTSTREAMREADER ISR = новый вход ввода (в); BufferedReader inrd = новый буферреджер (ISR);

Струнный текст; в то время как (((text = inrd.readline ())! = null) {inline.append (текст); Inline.append (« N»); } in.close (); вернуть inline.tostring ();

Я надеюсь, что это поможет, но я получил чувство, что вам нужно что-то более сложное: P

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top