Pregunta

¿Qué es un método confiable para contar automáticamente los caracteres y / o palabras en un archivo .doc o .docx?

El único requisito real es un recuento razonablemente exacta y razonablemente fiable.
Se necesita trabajar con documentos que contienen algo más que el alfabeto latino, por lo que contando caracteres es lo suficientemente bueno para la mayoría de los casos.
El recuento no necesariamente tiene que coincidir con la Palabra de, pero cuanto más cerca mejor.
Puesto que hay tropecientos diferentes aplicaciones que pueden generar archivos .doc, que está bien dejar de contar nada, pero este caso tiene que ser capturable por lo que somos conscientes de que un recuento puede ser inexacta. Para todos los demás casos, el recuento debe ser, por ejemplo, al menos el 99% de precisión al menos el 99% del tiempo.

Estoy abierta en cuanto a las tecnologías involucradas, sino algo que se puede ejecutar en una línea de comandos * NIX se preferiría en gran medida.

¿Hay una solución razonable para esto?

¿Fue útil?

Solución

Aquí hay un enlace a alguna palabra a texto Linux convertidores.

Por ejemplo, podría utilizar

antiword file.doc | wc

para hacer el recuento.

Editar:

Este enlace muestra que AbiWord tiene una interfaz de línea de comandos, que se puede utilizar para convertir el formato .docx a .txt y luego contar las palabras que utilizan "WC". AbiWord es compatible con el formato docx

Otros consejos

Mac OS X tiene soporte para la lectura de archivos de texto incorporados en los marcos del sistema, por lo que si usted tiene que, es fácil. MacRuby muestra:

NSSpellChecker.sharedSpellChecker.countWordsInString(NSAttributedString.alloc.initWithURL(fileURL, documentAttributes:nil), language:nil)

Más portable - a pesar de que da apoyo para docx -. Usted podría conseguir simplemente Antiword y hacer antiword | wc -w

Microsoft ha publicado una especificación en los formatos de archivo binario de Office. Análisis de un archivo .DOC no parece trivial, pero con un poco de atención que debe ser capaz de obtener un resultado fiable y repetible. No tengo idea de lo cerca que va coincide con lo que muestra la palabra - que probablemente dependerá (al menos parcialmente) de cómo se defina "palabra" - por ejemplo, si se tiene en cuenta un grupo de dígitos de una "palabra" o no . Es probable que no se necesita mucho para averiguar cómo Word trata los casos de esa manera, así que conseguir una estrecha coincidencia no debe ser muy difícil.

Si se tiene en cuenta las aplicaciones en línea como una solución, sí, hay una solución.
Esto no tan bonita (en relación con el diseño) sitio ofrece tanto en palabras como recuento de caracteres: http: // allworldphone .com / count-palabras-characters.htm

No creo que hay un límite, y no debería ser un problema para copiar / pegar simplemente el contenido de sus documentos en el área de texto correspondiente y ver el resultado.

En cuanto al 100% o el 99% de precisión, se puede probar con un par de palabras (es decir, 20-50) por ellos contando a sí mismo primero.

Espero que esto ayude. Saludos. Chris

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top