HTML To TXT Библиотека, которая имитирует вывод «Lynx -dump»?
-
08-10-2019 - |
Вопрос
Проблема действительно такая особенная.
Мне нужна библиотека в Java, которая может принимать HTML контент и генерировать текст в том же формате, который генерируется программой Linux Lynx.
Мне нужно разоблачить данные, предоставленные 3-го вечеринки, чтобы конечные пользователи на Android. Формат данных древний, в плохо отформатированном HTML, настолько, что я пытался читать его, используя Java, и он иногда не удается (неприемлемый). Он также растет каждый месяц (преинстанол исключается), и я не могу убедить их перейти на «современные» вещи (жизнь будет великолепна в XML и т. Д.).
Кратчайший маршрут: я написал класс для использования службы W3 HTML2TXT Service Online (Google Search его). Он работал нормально в приложении, пока мне не потразнул и не заметил, что сервис W3 терпит неудачу изредка. Это не так большая сделка, но черная логика коробки ожидает, что вывод будет в этом текстовом формате «Lynx Like».
Поэтому я хотел бы библиотеку выполнить преобразование (HTML-> TXT) в «стиле Lynx» внутри приложения и избежать отключений в службе W3. И, кроме того, выводит Lynx, вероятно, лучшее, что я видел, самый организованный и аккуратный.
Вы, ребята, знаете о любом?
Решение 2
Через год я сдаюсь. Ответ: Нет способа справиться с этим, без библиотеки в Java. По крайней мере на данный момент.
Я закрываю это. Спасибо за внимание.
Другие советы
Не уверен, что вы подразумеваете под стилем Lynx, поэтому я мог бы быть полностью выключена, отправив это (если так, пожалуйста, извините).
Я использовал какой-то кусок кода, чтобы вернуться к проверке файлов HTML / XML (в то время я просто приглашаю его в журналах
Inputstream In = Context.getResources (). OpenRawResource (ID); Stringbuffer inline = новый stringbuffer (); INPUTSTREAMREADER ISR = новый вход ввода (в); BufferedReader inrd = новый буферреджер (ISR);
Струнный текст; в то время как (((text = inrd.readline ())! = null) {inline.append (текст); Inline.append (« N»); } in.close (); вернуть inline.tostring ();
Я надеюсь, что это поможет, но я получил чувство, что вам нужно что-то более сложное: P