Ruby: ¿hay una despalilladora que “sabe” verbos irregulares del inglés?
Pregunta
Hay un rubí despalilladora https://github.com/aurelian/ruby-stemmer , pero 1) no se deriva inglés verbos irregulares 2) falla para construir extensiones nativas en Windows. ¿Hay una alternativa que fija al menos uno de los problemas?
Solución
creo que debe ser la búsqueda de un lematizador (que tiene información sobre la morfología y puede manejar las palabras irregulares) en lugar de un analizador lingüístico (que por lo general sólo lops los extremos de las palabras). Ver este explicación en Manning, Raghavan, y el libro en línea de Schütze en la recuperación de información.
Yo no lo he probado, pero una búsqueda rápida encontré con este lematizador Inglés para Ruby: elemma .
A comúnmente utilizado analizador morfológico (no rubí) Inglés que puede hacer lematización es morpha .
Otros consejos
Ninguno de los analizadores lingüísticos son capaces de manejar los verbos irregulares en Inglés.
- https://github.com/ealdent/uea-stemmer - rubí puro, así -escrito de 2009 año, tiene poco de documentos, pero un poco más que otros, se instala en Windows Aceptar
- https://github.com/romanbsd/fast-stemmer C pura, difícil leer, debería ser más rápido que otros entonces (no probado rendimiento), a partir de 2009 año, tiene muy docs mínimos, se instala en Windows Aceptar. que de método tiene efectos secundarios. tener cuidado para crear una copia
- https://github.com/aurelian/ruby-stemmer 2.010 años, se produce un error para construir extensiones nativas en Windows. Puede manejar som otros idiomas europeos, excepto Inglés
- http://rubyforge.org/projects/stemmer rubí puro, no se ha actualizado desde 2006 y no tiene ninguna documentación, se instala bien en Windows, no me di cuenta de cómo funciona
- http://rubyforge.org/projects/stemmer4r - No hay documentos, 2.005 años. no intente
He encontrado este tiempo buscando en Google para Ruby basado PNL http: // mendicantbug.com/2009/09/13/nlp-resources-for-ruby/