ما التطبيق الذي تستخدمه Google لإظهار مرفقات PDF في Gmail

StackOverflow https://stackoverflow.com/questions/789470

  •  16-09-2019
  •  | 
  •  

سؤال

شاهدت حركة المرور عند عرض Google مرفقات PDF في Gmail في نافذة جديدة. يتم تقديم المحتوى كصور PNG لكل صفحة PDF. ويمكن اختيار نصها. ماذا تستخدم Google على جانب الخادم لإنشاء ملف PNG للحصول على صفحة معينة في ملف PDF؟ كيف يعمل اختيار النص على ملف PNG؟ أيه أفكار؟

هل كانت مفيدة؟

المحلول

يتم عرض المرفقات الافتراضية بشكل آمن https:/docs.google.com/gview., ومع ذلك، اتضح أنك يسمح لك بطلب الملفات عبر HTTP عادي. هذا يجعلها أسهل قليلا لمعرفة ما يجري Wireshark..

كما أشارت، كان من الواضح بالفعل أن PDF يتم تحويله على جانب الخادم إلى PNG (Imagemagick. هو في الواقع حل معقول لهذا الغرض)، والسبب الواضح لهذا هو الحفاظ على التصميم الدقيق بينما لا يزال قادرا على عرض الملف دون الحاجة إلى عارض PDF.

ومع ذلك، من النظر إلى حركة المرور، اكتشفت أن ملف PDF بأكمله يتم تحويله أيضا إلى تنسيق XML مخصص عند الاتصال / GVIEW؟ A = GT & DOBID = & Chan = & Chan = (يتم ذلك بمجرد طلب المستند). كما لم أستطع استخدام Wireshark لنسخ XML الذي لجأته إلى ملحق Firefox رؤوس Live HTTP.. وبعد إليك مقتطف:

<pdf2xml>
    <meta name="Author" content="Bruce van der Kooij"/>
    <meta name="Creator" content="Writer"/>
    <meta name="Producer" content="OpenOffice.org 3.0"/>
    <meta name="CreationDate" content="20090218171300+01'00'"/>
    <page t="0" l="0" w="595" h="842">
        <text l="188" t="99" w="213" h="27" p="188,213">Programmabureau</text>
        <text l="85" t="127" w="425" h="27" p="85,117,209,61,277,21,305,124,436,75">Nederland Open in Verbinding (NOiV)</text>
    </page>
</pdf2xml>

لست متأكدا تماما بعد ما تعرف كل السمات على عنصر النص (باستثناء W و H) ولكن من الواضح أن إحداثيات النص وربما طولها. مثل يتم تقليل استخدامات جافا سكريبت Google (أو ربما أزود، ولكن هذا غير محتمل) معرفة الطريقة بالتحديد كيف تعمل وظيفة اختيار جانب العميل ليست سهلة للغاية. ولكن على الأرجح يستخدم ملف XML هذا لمعرفة النص الذي ينظر إليه المستخدم ثم نسخ إلى حافظة المستخدم.

لاحظ أن هناك أداة مفتوحة المصدر (GPL مرخصة) تسمى PDF2XML التي لها مماثلة ولكن ليس تماما نفس الإخراج. إليك المثال من صفحتها الرئيسية:

<?xml version="1.0" encoding="utf-8" ?>
<pdf2xml pages="3">
  <title>My Title</title>
  <page width="780" height="1152">
    <font size="10" face="MHCJMH+FuturaT-Bold" color="#FF0000">
      <text x="324" y="37" width="132" height="10">Friday, September 27, 2002</text>
      <img x="324" y="232" width="277" height="340" src="text_pic0001.png"/>
      <link x="324" y="232" width="277" height="340" dest_page="2" dest_x="141" dest_y="187"/>
    </font>
    <font size="12" face="AGaramond-Regular" italic="true" bold="true">
      <text x="509" y="68" width="121" height="12">This is a test PDF file</text>
      <link x="509" y="68" width="121" height="12" href="www.mobipocket.com"/>
    </font>
  </page>
</pdf2xml>

نأمل أن تكون هذه المعلومات مفيدة بأي شكل من الأشكال، ولكن مثل أحد الملصقات الأخرى ذكرت الطريقة الوحيدة للتأكد من أن Google لا تتمثل بسؤالهم. إنه خجل ليس لديه قناة IRC الرسمية ولكن لديهم منتدى لأسئلة دعم مستندات Google.

حظا طيبا وفقك الله.

نصائح أخرى

تستخدم Google تطبيق محول PDF غير مفتوح المصدر الذي تم تطويره في المنزل. لذلك أنت أفضل حالا بالنظر إلى الروابط المنشورة بواسطة إجابات أخرى، حيث لا يمكنك الحصول على يديك على إصدار Google. آسف!

إذا كان لديك النص، فيمكنك جعله ما تريده

أكثر تحديدا يجب عليك التحقق من هذا الرابط: PDF إلى PNG باستخدام PHP

لذلك ستكون هناك حاجة Imagemagic.

تحرير: آخر رابط مثير للاهتمام.

تحرير: لقد وجدت هذا في Google، يبدو مثيرا للاهتمام ... حتى تتمكن من استخدام Google APIGoogle Document List Data API وهذا هو blogpost حول هذا الموضوع يتيح لك Google API الآن الحصول على المستندات في العديد من التنسيقات

من غير متأكد من أن Google تستخدمك تحتاج إلى إجابة منها؟ :)

حظا سعيدا !

لمعرفة ما يتم إنشاء ملف PDF، انقر بزر الماوس الأيمن عليه والانتقال إلى خصائص المستند (في Adobe Reader). سيظهر منتج PDF باسم "منتج PDF". أعتقد أن جوجل تستخدم كليهما أمير و itext. (ليس في تركيبة لإنشاء ملفات PDF). خلقت Google بعض التعديلات الرئيسية على الأدوات الأدوات المذكورة أعلاه لإنشاء المنتج النهائي.

حسنا .. قد يكون هذا مجرد أداة PDF2XML تستخدم Google. لقد غيروا فقط عرض الكلمات الكاملة، والارتفاع إلخ وأضفوا السمة P ... التي تبين أن السمة التي تحتوي على الإحداثيات للكلمات داخل الخط. فقط لعبت معها ووجدت :) سوف تستخدم هذا pdf2xml من google: p تحميل، دعهم يتحولون ... استخدام XML لتحويل جدا ... EPUB؟ : P.

قد ترغب أيضا في التحقيق في استخدام Lucence لفهرسة ملفات PDF الكبيرة وخدمة الصفحات ذات الصلة للمستخدمين.

يرى http://www.jguru.com/faq/view.jsp؟EID=1074237. لمزيد من الأفكار.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top