Как извлечь значительный текстовый контент из латексного документа

StackOverflow https://stackoverflow.com/questions/4837177

  •  27-10-2019
  •  | 
  •  

Вопрос

Мне нужно извлечь только текст Контент из моего тезиса, написанный в LaTex для автоматической проверки антифаризма. Я знаю только о варианте «проекта», и этого недостаточно.

Я должен опустить:

  • картинки,
  • таблицы и другие фигуры,
  • уравнения,
  • Подписи и сноски.

Также было бы неплохо удалить все ссылки. Вывод должен быть простым (кодированный UTF-8) текстовый файл.

Есть ли простой способ сделать это? Мне не очень нравится копировать его вручную за страницей.

Это было полезно?

Решение

Вы можете попытаться использовать пакет комментариев (или одну из дюжины альтернатив), чтобы повернуть уравнение, рисунок, таблицу и т. Д., В комментирующие среды и renewCommand Сноска [1] {} для удаления сносков. pagestyle {yate} должен удалить заголовки страниц и т. Д., Поэтому запуск pdftOtext в результате должен быть закрыто от того, что вы хотите.

Другие советы

Да : Untex, простой сценарий C. Вы также можете посмотреть детектирование.

Вы можете использовать конвертер документа, как Пандок, или преобразовать выходной PDF в простой текст с чем -то вроде Калибр.

Обычно вам нужна обработка латекса в тексте, скажем, у вас есть

newcommand*{ so} {Stackoverflow index {Stackoverflow} xspace}

...

Я провожу много времени на Итак, бла -бла ....

Просто фильтрация текстового абзаца здесь не даст текст, подобный предполагаемому результату, когда он содержит какие -либо макросы.

Поэтому попытка извлечь вещи непосредственно из файла *. Поэтому, как правило, лучше работать над выводом из обработки латекса. Я бы порекомендовал преобразовать латекс в HTML, а затем из HTML в текст. Вам, вероятно, понадобится какая-то ручная очистка, но я думаю, что это должно быть относительно близко.

Хотя Detex упоминался, однако есть еще один проект, направленный на его улучшение. Это называется OpendeTex, посмотри!

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top