Domanda

Qual è un modo affidabile per contare automaticamente i caratteri e / o parole in un file .doc o .docx?

L'unico vero requisito è un conteggio ragionevolmente accurata e ragionevolmente affidabili.
Ha bisogno di lavorare con i documenti che contengono qualcosa di diverso alfabeto latino, in modo da contare personaggi è abbastanza buono per la maggior parte dei casi.
Il conteggio non deve necessariamente corrispondere la Parola di, ma più e meglio è.
Dato che ci sono un gazillion diverse applicazioni in grado di generare file .doc, va bene a non riuscire a contare nulla, ma questo caso deve essere catturabile quindi siamo consapevoli del fatto che un conteggio può essere impreciso. Per tutti gli altri casi il conteggio deve essere, per esempio, almeno il 99% esatto almeno il 99% del tempo.

Sono aperto per quanto riguarda le tecnologie coinvolte, ma qualcosa che può essere eseguito su una riga di comando * NIX sarebbe molto preferito.

C'è una soluzione ragionevole per questo?

È stato utile?

Soluzione

Ecco un link ad alcuni Linux word-to-text convertitori.

Per esempio si potrebbe usare

antiword file.doc | wc

per fare il conteggio.

Modifica:

Questo link mostra che AbiWord ha un'interfaccia a linea di comando, che è possibile utilizzare per convertire il formato .docx a .txt e poi contare le parole con "wc". AbiWord supporta il formato docx

Altri suggerimenti

Mac OS X ha il supporto per la lettura di file di Word incorporati nei quadri di sistema, quindi se avete che, è facile. campione MacRuby:

NSSpellChecker.sharedSpellChecker.countWordsInString(NSAttributedString.alloc.initWithURL(fileURL, documentAttributes:nil), language:nil)

Più portabile - anche se dà il sostegno per docx -. Si potrebbe ottenere semplicemente Antiword e fare antiword | wc -w

Microsoft ha pubblicato un per i formati di file binari di Office. Analisi di un file .DOC non sembra banale, ma con una certa attenzione si dovrebbe essere in grado di ottenere un affidabile, risultato ripetibile. Non ho idea di quanto strettamente che sarà corrisponde con quello che mostra Word - che probabilmente dipenderà (almeno in parte) da come si definisce "parola" - per esempio, se si considera un gruppo di cifre di una "parola" o no . Probabilmente non ci vorrà molto per capire come Word tratta casi del genere, in modo da ottenere una stretta corrispondenza non dovrebbe essere terribilmente difficile.

Se si considera applicazioni online come una soluzione, sì, c'è una soluzione.
Questo non così bella (per quanto riguarda il design) sito offre sia la parola e conteggio dei caratteri: http: // allworldphone .com / count-parole-characters.htm

Non credo che ci sia un limite, e non dovrebbe essere un problema per basta copiare / incollare il contenuto dei documenti nel corrispondente textarea e vedere il risultato.

Per quanto riguarda la precisione del 100% o 99%, si potrebbe provare con un paio di (cioè 20-50 parole) da contando loro stessi per primi.

Spero che questo aiuta. Saluti. Chris

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top