Rubino: c'è uno stemmer che “conosce” verbi irregolari inglesi?
Domanda
C'è un rubino stemmer https://github.com/aurelian/ruby-stemmer , ma 1) non deriva verbi irregolari inglesi 2) non riesce a costruire estensioni native su Windows. Esiste un'alternativa che fissa almeno una parte dei problemi?
Soluzione
Penso che si dovrebbe essere alla ricerca di un lemmatizer (che ha informazioni sulla morfologia e in grado di gestire le parole irregolari), piuttosto che uno Stemmer (che di solito solo lops le estremità delle parole). Vedere questa spiegazione a Manning, Raghavan, e prenotare on-line di Schütze il recupero delle informazioni.
Non ho provato, ma una rapida ricerca sono imbattuto in questo lemmatizer inglese per Ruby: elemma .
A comunemente usato analizzatore morfologico (non-Ruby) inglese che può fare lemmatizzazione è morpha .
Altri suggerimenti
Nessuno dei stemmer sono in grado di gestire i verbi irregolari in inglese.
- https://github.com/ealdent/uea-stemmer - rubino puro, ben -Esame scritto, 2009 anno, ha poco documenti, ma un po 'più di altri, le installazioni su Windows OK
- https://github.com/romanbsd/fast-stemmer puro C, difficile da leggere, dovrebbe essere più veloce allora gli altri (non ho provato le prestazioni), a partire dal 2009 anno, dispone di documenti molto minimale, installa su Windows OK. è il metodo ha effetti collaterali. fare attenzione a creare una copia
- https://github.com/aurelian/ruby-stemmer 2010 anni, non riesce per costruire estensioni native su Windows. Può gestire som altre lingue europee, tranne English
- http://rubyforge.org/projects/stemmer rubino puro, non è stato aggiornato dal 2006 , e non ha alcuna documentazione, installa OK su Windows, non ho capito come funziona
- http://rubyforge.org/projects/stemmer4r - No docs, 2005 anni. non ha cercato
Ho trovato questo mentre googling per ruby ??base NLP http: // mendicantbug.com/2009/09/13/nlp-resources-for-ruby/