Question

Ce qui est un moyen fiable pour compter automatiquement les caractères et / ou des mots dans un fichier .doc ou .docx?

La seule exigence réelle est un nombre raisonnablement précis et raisonnablement fiable.
Il a besoin de travailler avec des documents contenant autre chose que l'alphabet latin, de sorte que le comptage des caractères est assez bon pour la plupart des cas.
Le nombre ne doit pas nécessairement correspondre la Parole de, mais plus le mieux.
Comme il y a un gazillion applications différentes qui peuvent générer des fichiers .doc, il est normal de ne pas compter quoi que ce soit, mais ce cas doit être capturables donc nous sommes conscients qu'un compte peut être inexacts. Pour tous les autres cas, le nombre doit être, par exemple, au moins 99% de précision au moins 99% du temps.

Je suis ouvert sur les technologies concernées, mais quelque chose qui peut fonctionner sur une ligne de commande * nix serait grandement préféré.

Y at-il une solution raisonnable pour cela?

Était-ce utile?

La solution

Voici un pour un mot-texte Linux convertisseurs.

Par exemple, vous pouvez utiliser

antiword file.doc | wc

pour effectuer le comptage.

Edit:

lien montre que AbiWord dispose d'une interface de ligne de commande, que vous pouvez utiliser pour convertir le format .docx txt puis compter les mots en utilisant « wc ». AbiWord supporte le format docx

Autres conseils

Mac OS X a un support pour la lecture de fichiers Word intégrés dans les cadres du système, donc si vous avez cela, il est facile. échantillon MacRuby:

NSSpellChecker.sharedSpellChecker.countWordsInString(NSAttributedString.alloc.initWithURL(fileURL, documentAttributes:nil), language:nil)

Plus portably - si elle donne le soutien pour docx -. Vous pouvez simplement obtenir Antiword et faire antiword | wc -w

Microsoft a publié un pour les formats de fichiers binaires Office. L'analyse d'un fichier .DOC ne semble pas trivial, mais avec quelques précautions, vous devriez être en mesure d'obtenir un résultat fiable et reproductible. Je ne sais pas à quel point ça va correspondre avec ce que Word affiche - qui dépendra probablement (au moins en partie) sur la façon dont vous définissez « mot » - par exemple, si l'on considère un groupe de chiffres un « mot » ou non . Il ne sera probablement pas prendre beaucoup de choses à comprendre comment Word traite des cas comme ça, obtenant ainsi un match serré ne devrait pas être très difficile.

Si l'on considère les applications en ligne comme une solution, oui, il y a une solution.
Ce pas si joli (en ce qui concerne la conception) site offre à la fois la parole et le nombre de caractères: http: // allworldphone -characters.htm count-mots .com /

Je ne pense pas qu'il y ait une limite, et il ne devrait pas être un problème juste copier / coller le contenu de vos documents dans la zone de texte correspondante et de voir le résultat.

En ce qui concerne la précision de 100% ou 99%, vous pouvez le tester avec quelques mots (à savoir 20-50) par les compter vous en premier.

J'espère que cela aide. Cordialement. Chris

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top