почему PDF-документ может быть недоступен для поиска?[закрыто]

StackOverflow https://stackoverflow.com/questions/1983561

Вопрос

У меня есть PDF-документ с содержимым на арабском языке, и когда я пытаюсь выполнить поиск внутри документа по определенному слову, Adobe reader не возвращает результатов.

похоже, это проблема с форматом...как я могу это исправить?Спасибо.

Это было полезно?

Решение

Существует по крайней мере четыре различных способа поместить текст в PDF-документ (по порядку или вероятности).:

  1. Разместите текст с помощью стандартных текстовых операторов и стандартных шрифтов
  2. Разместите текст с помощью стандартных текстовых операторов нестандартными шрифтами
  3. Нарисуйте одно или несколько изображений, представляющих текст
  4. Разместите текст, вручную нарисовав глифы с помощью различных графических команд PDF

Случай 1, как правило, доступен для поиска.Случай 2 доступен для поиска, если шрифт и кодировка нормальные - если это не так (и это, вероятно, относится к нелатинским шрифтам), то, вероятно, нет надежного способа отобразить закодированные глифы обратно в Unicode (и, кстати, PDF довольно враждебен к Unicode).Случай 3 полностью недоступен для поиска, если не знать больше о том, как был сгенерирован PDF-файл.Случай 4 полностью не поддается поиску.

Тем не менее, все случаи могут быть прочитаны с помощью OCR-движка, который понимает арабский.Я понимаю, что Ирисовый двигатель владеет арабским языком.

Другие советы

На самом деле это может быть не текст, или он может находиться в контейнере, на который Читатель не обращает внимания.Особенно часто текстовые объекты преобразуются в векторные фигуры, когда вы имеете дело со шрифтами, которые большинство людей не собираются устанавливать в своей системе.На экране это выглядит так же, но поиск по нему невозможен.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top