Domanda

Forse questo è semplicemente impossibile e dovrei rinunciare a ogni speranza. O forse c'è un modo molto intelligente per farlo che non ho pensato.

Ecco due esempi di quello che ho:

  

??? - ???? (Yabisa,   yaybasu) [y-b-s] [?-?-?] (Per diventare secca,   rigida, rigida) 20:77 yabasan = asciutto.   ??? - ???? (yassara,   yuyassiru) [y-s-r] [?-?-?] (To   facilitare, rendere più facile) 92: 7   nuyassiruhuu = Ci lui facilità.

e

  

Zu Hülfe! zu Hülfe! Aiuto! Aiuto!
  Sonst bin ich verloren! In caso contrario, io sono   perso! Zu Hülfe! Zu Hülfe! Aiuto!   Aiuto! Sonst ich bin   verloren! In caso contrario, sono perduto! der   listigen Schlange zum Opfer erkoren,     Selezionato come offrendo al astuzia   serpente, Barmherzigige Götter! Misericordioso   Di Dio! Schon nahet Sie sich, già si   si avvicina, Schon nahet sie   sich, già si avvicina,

... sarebbe davvero fastidioso per passare attraverso e cancellare una lingua per ulteriore processo di queste righe di testo.

Un modo stavo pensando questo potrebbe essere fatto in NLTK è stato quello di dividere il testo in token, avere qualche modo di conoscere la provenienza di ogni gettone sulla base di un piccolo corpus, e poi chiedere NLTK a 'ricostituire' solo i segni della la mia scelta. E 'solo una fantasia selvaggia?

È stato utile?

Soluzione

È possibile utilizzare nltk.NaiveBayesClassifier per fare il lavoro esattamente come hai detto sopra.

Il seguente collegamento dovrebbe aiutare: http://nltk.googlecode.com/svn/trunk/doc/ libro / ch06.html

E 'un esempio di utilizzo nltk.NaiveBayesClassifier per l'identificazione di genere. si utilizza lo stesso linguaggio per l'identificazione.

Il primo esempio che hai citato funziona bene con nltk.NaiveBayesClassifier in quanto il set unicode è completamente diverso.

Nel secondo esempio, v'è la possibilità di parole come nomi propri scritto lo stesso in entrambe le lingue che potrebbero causare un errore nell'identificazione della lingua.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top