سؤال

هل هناك طريقة (برنامج أو مكتبة) لمعرفة ما يقرب من اللغة التي يكتب وثيقة في؟

ولدي مجموعة من الوثائق والنصوص (~ 500K) في لغات مختلطة لاستيراد في I18N تمكين CMS (دروبال) ..

وأنا لست بحاجة إلى مباريات كاملة، فقط بعض تخمين.

هل كانت مفيدة؟

المحلول

وهناك طريقة سهلة جدا للقيام بذلك، بالنظر إلى أن لديك بيانات إحضار بجميع اللغات المختلفة التي سوف تحتاج إلى تحديد. انه دعا النمذجة ن غرام. أعتقد لينجوا :: تحديد لا هذا بالفعل، ورغم ذلك وهذا هو أفضل رهان بدلا من تنفيذ بنفسك.

نصائح أخرى

وانا اقول أفضل رهان هو البحث عن الكلمات الرئيسية - المقالات، وهذا النوع من الشيء - التي هي فريدة من نوعها في اللغات التي تبحث عنها. "الامم المتحدة" سوف تظهر باللغتين الإسبانية والفرنسية، على سبيل المثال، ولكن "UNE" هو الفرنسي يمكن التعرف في حين أن "UNOS"، على سبيل المثال، هي الأسبانية يمكن التعرف. التشكيل مفيدة جدا - سترى "N" في بلدان أخرى الاسبانية وربما البرتغالية، "ç" باللغة الفرنسية وعدد قليل ... هذا النوع من الشيء

وتحرير - حل بولس هو على الأرجح الأفضل. يبدو أنه يستخدم أساليب مثل ما أشرت، بالإضافة إلى عدد قليل اضافية.

وعن طريق تشغيل جوجل للبحث عن "<لأ href =" http://www.google.com/search؟hl=en&client=firefox-a&rls=org.mozilla٪3Aen-US٪3Aofficial&hs=WWh&q=determine+language + من + ثيقة وbtnG = بحث "يختلط =" نوفولو noreferrer "> تحديد لغة الوثيقة " لقد وجدت العديد من المواقع المختلفة التي سوف تساعدك. الحلقه الثالثة على الصفحة الأولى أدت في النهاية لي إلى وظيفة في مدونة جوجل API هذا هو بالضبط ما تحتاجه.

وجوجل API الترجمة هو بارد، ويحتوي على واجهة REST. ولكني في حاجة إلى إرساله على الكثير من وثيقة كبيرة (نعم، أنا يمكن استخدام مقتطفات)، وحتى لو جوجل جوجل، وأنا لا أعتقد أن هذا المعرض.

والوثيقة هي أيضا ليست لي، ورقم أسأل موكلي إذا كان على ما يرام لإرسالها إلى طرف ثالث (حتى لو كان قريبا أو في وقت لاحق، G <م> سوف الحصول عليها؛).)

وأعتقد أنني سأذهب الحوض الصغير مسار بيرل ...

ويبدو أن هناك وحدة بيرل لذلك: لينجوا :: تحديد

وبول.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top