Text mining su vasta lista di stringhe

https://stackoverflow.com/questions/7302594

22-10-2019
|

Domanda

Ho lista di stringhe. (Abbastanza grande elenco di ID e stringhe sparsi in 4-5 file di grandi dimensioni. Intorno ad un GB ciascuno). Queste stringhe sono formattati in questo modo:

1, Hi

2, Hi Come r u?

2, come r u?

3, dove r u?

3, cosa significa

3, che cosa vuol dire

Ora voglio fare il text mining su queste stringhe e voglio preparare un dendrogramma cui voglio visualizzare le stringhe nel modo seguente

1-Hi

2-Hi Come r u?

 ----How r u?

3-Cosa significa?

 ----what it means?

3-Dove sei?

Questa uscita si basa sulle similitudini di corde dopo la virgola dopo un id (ID supponiamo di una persona che ha usato quelle stringhe) per una particolare persona. Se qualche altra persona utilizzato stesse parole, allora dovrebbe essere raggruppati in base alle stringhe che usava.

Ora, sembra essere un compito semplice. Ma voglio che venga fatto qualcosa come questo su Hadoop / Mahout o qualcosa che può supportare enormi set di dati su macchine Linux cluster. e anche come dovrei affrontare questo problema per la soluzione. Ho provato diversi approcci in Mahout già, in cui ho cercato di creare file di sequenza e vectores seq2sparse e poi cercando di fare il clustering. ma non ha funzionato per me. Qualsiasi aiuto o puntatori nella direzione sarebbe un grande aiuto.

Grazie e saluti, Atul

Soluzione

Credo che ciò che si ha realmente bisogno è il clustering gerarchico. C'era un'implementazione proposto per Mahout, uno è implementata anche in Shogun Toolbox (progettata anche per il calcolo su larga scala). Ma è difficile per garantire che funzionerà, perché l'ingresso sembra essere difficile.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow