سؤال

أنا باستخدام مصطلح "المعجمية ترميز" بالنسبة لي عدم وجود أفضل واحد.

كلمة يمكن القول إن الوحدة الأساسية من الاتصالات بدلا من رسالة.Unicode يحاول تعيين قيمة رقمية لكل حرف من الحروف الهجائية.ما هو رسالة إلى لغة واحدة ، هي الصورة الرمزية إلى آخر.Unicode 5.1 يعين أكثر من 100 ، 000 قيم هذه الرموز حاليا.من ما يقرب من 180 ، 000 الكلمات المستخدمة في اللغة الإنجليزية الحديثة, ومن قال أن مع مفردات من حوالي 2000 كلمة ، يجب أن تكون قادرا على التحدث في الشروط العامة.و "المعجمية ترميز" ترميز كل كلمة كل حرف و تغليف لهم داخل الجملة.

// An simplified example of a "Lexical Encoding"
String sentence = "How are you today?";
int[] sentence = { 93, 22, 14, 330, QUERY };

في هذا المثال كل رمز في السلسلة كان ترميز عدد صحيح.مخطط الترميز هنا ببساطة تعيين الباحث القيمة على أساس عمومي الإحصائية ترتيب استخدام كلمة و تعيين ثابت إلى علامة استفهام.

في نهاية المطاف كلمة على حد سواء الإملائية & معنى على الرغم من.أي "المعجمية ترميز" من شأنه الحفاظ على المعنى و القصد من الجملة ككل ، وليس لغة معينة.الجملة الإنجليزية سوف يتم تشفيرها في "...لغة محايدة الذرية عناصر من معنى ..." ثم يمكن أن يعاد إلى أي لغة مع منظم النحوية شكل البنية النحوية.

ما هي أمثلة أخرى من "المعجمية ترميز" التقنيات ؟


إذا كنت مهتما فيها كلمة إحصاءات الاستخدام تأتي من :
http://www.wordcount.org

هل كانت مفيدة؟

المحلول

هناك العديد من المشاكل الرئيسية مع هذه الفكرة.في معظم لغات معنى الكلمة و الكلمة المرتبطة معنى التغيير بسرعة جدا.

لا عاجلا سيكون لديك عدد تعيين كلمة قبل أن معنى الكلمة قد تغير.على سبيل المثال كلمة "شاذ" تستخدم فقط يعني "سعيد" أو "ميلاد سعيد" ، لكنها الآن تستخدم في الغالب يعني مثلي الجنس.مثال آخر هو morpheme "شكرا لكم" التي جاءت في الأصل من الألمانية "انا" التي هي كلمة واحدة فقط.مثال آخر هو "وداعا" الذي هو تقصير من "بارك الله لك".

مشكلة أخرى هي أنه حتى لو واحد يأخذ لقطة من كلمة في أي نقطة من الوقت ، معنى استخدام كلمة تحت الخلاف حتى داخل نفس المحافظة.عندما القواميس يتم كتابة ، فإنه ليس من غير المألوف بالنسبة الأكاديميين المسؤول إلى القول أكثر من كلمة واحدة.

باختصار, أنت لن تكون قادرة على القيام بذلك مع لغة القائمة.سيكون لديك للنظر في اختراع اللغة الخاصة بك ، لهذا الغرض ، أو باستخدام ثابتة إلى حد ما اللغة التي تم اختراعها ، مثل اللغة الوسيطة أو الإسبرانتو.ولكن حتى هذه قد لا تكون مثالية لغرض تحديد ثابت الصرفية في أي وقت مضى القياسية المعجم.

حتى في الصينية ، حيث هناك الخام رسم الخرائط من الحرف إلى المعنى فإنه لا يزال لا يعمل.العديد من الشخصيات تغيير المعاني حسب السياق ، والتي الشخصيات إما تسبق أو postfix لهم.

المشكلة هي في أسوأ حالاته عند محاولة ترجمة بين اللغات.قد تكون هناك كلمة واحدة في اللغة الإنجليزية, التي يمكن استخدامها في مختلف الحالات, ولكن لا يمكن استخدامها مباشرة في لغة أخرى.مثال على ذلك هو "الحرة".في الإسبانية ، إما "ليبر" معنى "الحر" كما في الكلام ، أو "دون مقابل" معنى "الحر" في البيرة يمكن استخدامها (باستخدام الكلمة الخطأ في المكان "الحرة" قد تبدو مضحكة جدا).

وهناك غيرها من الكلمات التي هي أكثر صعوبة إلى المكان معنى في مثل كلمة جميلة في الكورية ؛ عند استدعاء فتاة جميلة, سيكون هناك العديد من المرشحين من أجل الإحلال ، ولكن عند استدعاء الطعام جميلة ، إلا إذا كنت تعني الطعام جيد المظهر ، هناك العديد من المرشحين الآخرين التي هي مختلفة تماما.

ما يتعلق الأمر ، على الرغم من أننا نستخدم فقط عن 200 كلمة في اللغة الإنجليزية ، المفردات لدينا هي في الواقع أكبر في بعض الجوانب لأننا تعيين العديد من المعاني المختلفة على نفس الكلمة.نفس المشاكل تنطبق على الاسبرانتو و الوسيطة و كل لغة أخرى معنى الحديث.خطاب الإنسان ليست واضحة المعالم يتأهل آلة.لذلك, على الرغم من أنك يمكن أن تخلق مثل هذا المعجم حيث كل "كلمة" انها فريدة من نوعها بمعنى أنه سيكون صعب جدا و شبه مستحيل بالنسبة الآلات باستخدام التقنيات الحالية للترجمة من أي لغة الإنسان في المعجم الموحد.

هذا هو السبب في الترجمة الآلية لا تزال تمتص, و لفترة طويلة قادمة.إذا كنت تستطيع أن تفعل أفضل (و آمل أن تتمكن) ثم يجب عليك أن تنظر ربما يفعل ذلك مع نوع من المنح الدراسية و/أو جامعة/التمويل الحكومي ، العمل من أجل الدكتوراه ، أو ببساطة جعل كومة من المال مهما كان يحتفظ الخاص بك السفينة تبخير.

نصائح أخرى

هذا السؤال يعتدى على اللغويات أكثر من البرمجة ، ولكن بالنسبة للغات التي هي عالية الاصطناعية (وجود الكلمات التي تتألف من عدة جنبا إلى جنب morphemes) ، يمكن أن تكون معقدة للغاية المشكلة في محاولة "عدد" جميع الكلمات الممكنة ، بدلا من اللغات مثل الإنجليزية التي هي إلى حد ما على الأقل عزل ، أو لغات مثل الصينية التي هي محل التحليل.

تلك هي الكلمات قد لا يكون من السهل كسر و تحسب على أساس التأسيسية رموزا في بعض اللغات.

هذه المقالة على ويكيبيديا عزل اللغات قد يكون من المفيد في شرح المشكلة.

فإنه من السهل بما فيه الكفاية أن يخترع واحدة لنفسك.تتحول كل كلمة في الكنسي bytestream (أقول أقل حدة متحللة UCS32) ، ثم تجزئة إلى عدد صحيح.32 بت من المحتمل أن يكون كافيا, ولكن إذا لم يكن ثم 64 بت بالتأكيد.

قبل أن أقرع على إعطائك شيئا الإجابة ، نعتبر أن الغرض من يونيكود هو ببساطة تعيين كل الصورة الرمزية معرف فريد.لا إلى رتبة أو نوع أو مجموعة منهم ، ولكن فقط إلى خريطة كل واحد على معرف فريد أن يتفق الجميع على.

كيف سيكون نظام التعامل مع pluralization من الأسماء أو تصريف الأفعال?هل هذه كل الخاصة بهم "Unicode" قيمة ؟

كما الترجمات المخطط ، وربما هذا هو عدم الذهاب إلى العمل دون الكثير من العمل.كنت أود أن أعتقد أنه يمكنك تعيين عدد كل كلمة ، ثم ميكانيكيا أن تترجم إلى لغة أخرى.في الواقع, لغات مشكلة متعددة الكلمات التي وردت نفس "هبت الرياح شعرها مرة أخرى" مقابل "الرياح ساعتك".

لنقل النص ، حيث كنت من المفترض أن الأبجدية في اللغة أنها سوف تعمل بشكل جيد, على الرغم من أنني أتساءل ماذا ستكسب هناك بدلا من استخدام متغير طول القاموس ، مثل الرمز البريدي الاستخدامات.

هذا هو السؤال المثير للاهتمام, ولكن أظن كنت طالبا لأسباب خاطئة.كنت أفكر في هذا المعجمية' Unicode' شيء من شأنها أن تسمح لك لكسر الجمل في اللغة محايدة الذرية عناصر من معنى ومن ثم تكون قادرة على إعادة تشكيل في بعض ملموسة أخرى اللغة ؟ كوسيلة لتحقيق عالمي مترجم, ربما ؟

حتى إذا كنت يمكن ترميز و تخزين أقول الجملة الإنجليزية باستخدام 'المعجمية unicode', لا يمكن أن نتوقع أن قراءته سحرية تجعلها في الصينية حفظ معنى سليمة.

تشبيهك إلى Unicode ، ومع ذلك ، من المفيد جدا.

نضع في اعتبارنا أن Unicode ، بينما 'العالمي' رمز, لا تجسد اللفظ معنى أو استخدام الحرف في السؤال.كل رمز يشير إلى معين الصورة الرمزية في لغة معينة (أو بالأحرى استخدامها من قبل البرنامج النصي مجموعة من اللغات).هو عنصري في التمثيل المرئي مستوى الصورة الرمزية (في حدود نمط التنسيق والخطوط).نقطة رمز Unicode اللاتينية حرف 'A' هو فقط.فمن اللاتينية حرف 'A'.فإنه لا يمكن التلقائى تكون المقدمة مثلا حرف الألف (ﺍ) أو الهنود (Devnagari) حرف 'A' (अ).

حفظ إلى Unicode التشبيه ، المعجمية Unicode قد رمز نقطة لكل كلمة (الكلمة) في كل لغة.Unicode قد يتراوح من التعليمات البرمجية نقاط نصي محدد.الخاص بك المعجمية Unicode أن مجموعة من رموز لكل لغة.كلمات مختلفة في لغات مختلفة ، حتى لو كان لديهم نفس المعنى (المرادفات), يجب أن يكون رمز مختلف نقاط.نفس الكلمة وجود معان مختلفة ، أو النطق مختلفة (عسى) أن يكون رمز مختلف نقاط.

في Unicode لبعض اللغات (ولكن ليس كل) فيها نفس الحرف لها شكل مختلف حسب موقعها في الكلمة - على سبيل المثال ، في العبرية والعربية ، شكل الصورة الرمزية التغيرات في نهاية الكلمة - ثم يظهر رمز نقطة.وبالمثل في المعجمية Unicode ، إذا كلمة له شكل مختلف حسب موقعها في الجملة ، قد تضمن التعليمات البرمجية الخاصة به نقطة.

ربما أسهل طريقة الخروج مع نقاط الرمز للغة الإنجليزية أن قاعدة النظام الخاص بك على معين الطبعة قاموس أوكسفورد و تعيين رمز فريد إلى كل كلمة بالتتابع.سيكون لديك لاستخدام رمز مختلف لكل معنى مختلف من نفس الكلمة ، وسوف تضطر إلى استخدام رمز مختلف عن أشكال مختلفة - على سبيل المثال ، إذا نفس الكلمة يمكن أن تستخدم اسما وكما فعل, ثم سوف تحتاج اثنين من رموز

ثم سيكون لديك لتفعل الشيء نفسه بالنسبة لكل لغة أخرى تريد أن تدرج باستخدام الأكثر حجية قاموس لهذه اللغة.

وهناك احتمالات أن هذا كسسيرسيسي كل جهد أكثر مما يستحق.إذا كنت ترغب في تضمين جميع اللغات الحية ، بالإضافة إلى بعض التاريخي الميتة وبعض خيالية منها - كما Unicode لا - سوف ينتهي مع رمز مساحة كبيرة بحيث التعليمات البرمجية الخاصة بك يجب أن تكون واسعة جدا لاستيعاب ذلك.سوف لا تكسب أي شيء من حيث ضغط - فمن المرجح أن الحكم يمثل سلسلة باللغة الأصلية سوف تأخذ مساحة أقل من نفس الجملة تمثيل رمز.

P. S.بالنسبة لأولئك الذين يقولون هذا هو مهمة مستحيلة لأن معاني الكلمات تتغير ، وأنا لا أرى في ذلك مشكلة.استخدام Unicode القياس ، استخدام الحروف قد تغير (المسلم لا بأسرع ما معنى الكلمات) ، ولكن ليس من أي تهم Unicode أن 'ال' اعتادت أن تكون وضوحا مثل " y " في العصور الوسطى.Unicode لديه رمز نقطة 't', 'h' و 'y' و كل واحد يخدم هذا الغرض.

P. P. S.في الواقع, بل هو من بعض القلق إلى Unicode أن 'عمر الفاروق' أيضا 'œ' أو 'ss' يمكن أن تكون مكتوبة 'س' في الألمانية

هذه هي لعبة مثيرة للاهتمام ممارسة القليل, ولكن أود أن أحثكم على النظر في أنه ليس أكثر من مقدمة مفهوم الفرق في اللغة الطبيعية بين أنواع الرموز.

نوع نسخة واحدة من الكلمة التي تمثل جميع الحالات.رمز واحد العد لكل مثيل من word.اسمحوا لي أن أشرح هذا مع المثال التالي:

"جون ذهب إلى متجر الخبز.اشترى الخبز".

وهنا بعض التردد التهم على سبيل المثال ، مع التهم معنى عدد من الرموز:

John: 1
went: 1
to: 1
the: 2
store: 1
he: 1
bought: 1
bread: 2

علما بأن "" وعدها مرتين-هناك نوعان من الرموز من "إن".لاحظ أنه في حين أن هناك عشر كلمات ، هناك ثمانية فقط من هذه الكلمة إلى التردد أزواج.كلمات يجري تقسيمها إلى أنواع وإرفاقها مع عدد رمزي.

أنواع الرموز هي مفيدة في الإحصائية البرمجة اللغوية العصبية."المعجمية ترميز" من ناحية أخرى, وأود أن انتبه.هذا هو طريق إلى أكثر من الطراز القديم نهج البرمجة اللغوية العصبية مع preprogramming و العقلانية كثيرة.أنا حتى لا أعرف عن أي إحصائية MT أن الواقع يعين محددة "العنوان" إلى كلمة.هناك الكثير من العلاقات بين الكلمات ، من أجل شيء واحد ، لبناء أي نوع من مدروسة العددية الأنطولوجيا ، إذا نحن فقط رمي الأرقام في كلمات تصنيف لهم ، يجب أن يكون التفكير في أشياء مثل إدارة الذاكرة و توزيع السرعة.

أود أن أقترح التحقق NLTK ، اللغة الطبيعية أدوات مكتوبة في بيثون ، أوسع مقدمة في البرمجة اللغوية العصبية و الاستخدامات العملية.

في الواقع تحتاج فقط عن 600 كلمة لمدة نصف لائق المفردات.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top