почему PDF-документ может быть недоступен для поиска?[закрыто]
Вопрос
У меня есть PDF-документ с содержимым на арабском языке, и когда я пытаюсь выполнить поиск внутри документа по определенному слову, Adobe reader не возвращает результатов.
похоже, это проблема с форматом...как я могу это исправить?Спасибо.
Решение
Существует по крайней мере четыре различных способа поместить текст в PDF-документ (по порядку или вероятности).:
- Разместите текст с помощью стандартных текстовых операторов и стандартных шрифтов
- Разместите текст с помощью стандартных текстовых операторов нестандартными шрифтами
- Нарисуйте одно или несколько изображений, представляющих текст
- Разместите текст, вручную нарисовав глифы с помощью различных графических команд PDF
Случай 1, как правило, доступен для поиска.Случай 2 доступен для поиска, если шрифт и кодировка нормальные - если это не так (и это, вероятно, относится к нелатинским шрифтам), то, вероятно, нет надежного способа отобразить закодированные глифы обратно в Unicode (и, кстати, PDF довольно враждебен к Unicode).Случай 3 полностью недоступен для поиска, если не знать больше о том, как был сгенерирован PDF-файл.Случай 4 полностью не поддается поиску.
Тем не менее, все случаи могут быть прочитаны с помощью OCR-движка, который понимает арабский.Я понимаю, что Ирисовый двигатель владеет арабским языком.
Другие советы
На самом деле это может быть не текст, или он может находиться в контейнере, на который Читатель не обращает внимания.Особенно часто текстовые объекты преобразуются в векторные фигуры, когда вы имеете дело со шрифтами, которые большинство людей не собираются устанавливать в своей системе.На экране это выглядит так же, но поиск по нему невозможен.