ما محلل لوسين يمكن استخدامها للتعامل مع النص الياباني؟

StackOverflow https://stackoverflow.com/questions/1625000

سؤال

وأي محلل لوسين يمكن استخدامها للتعامل مع النص الياباني بشكل صحيح؟ يجب أن تكون قادرة على التعامل مع كانجي، هيراغانا، كاتاكانا، روماجي، وأي الجمع بينهما.

هل كانت مفيدة؟

المحلول

ولقد وجدت لوسين-gosen أثناء القيام بعملية بحث للأغراض الخاصة بي:

ومثال تلك تبدو ائق إلى حد ما، ولكن اعتقد انها نوع من الاشياء التي يحتاج اختبارات مكثفة. أنا أيضا قلق حول سياستهم الى الوراء التوافق (أو بالأحرى، انعدام تام للواحد).

نصائح أخرى

وربما يجب عليك إلقاء نظرة في حزمة CJK التي هي في منطقة contrib من لوسين. هناك محلل وtokenizer خصيصا للتعامل مع الصينية، اليابانية، والكورية.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top