Question

Comme mon premier projet dans la science des données, je voudrais choisir les principaux groupes de données bruitées. Je pense qu'un bon exemple serait essayer de choisir certains liens sur une question qui a donné StackExchange un certain nombre de réponses. Le type le plus commun de lien est un lien vers une question sur le réseau SE. La commune suivante est soit des liens de balises ou des liens vers des profils d'utilisateurs. Les liens restants pourraient être des liens aléatoires inclus dans les messages, ce qui est considéré comme le bruit. Idéalement, je suis à la recherche d'une solution où je ne sais pas combien de groupes de liens, il y aura à l'avance.

J'ai mis ma première tentative à l'aide scikit-learn et KMeans. Cependant, ce n'est pas idéal parce que je semble devoir indiquer le nombre de grappes à l'avance, et je pense que les liens aléatoires, bruyants se regrouper de manière incorrecte. Je pense aussi qu'il est plus efficace sur un corpus plus large par rapport à celle relativement faible de jetons URL (bien que ce soit juste une supposition).

Y at-il un moyen de faire ce type de regroupement, où le nombre de grappes est inconnu ou si l'un des groupes est une sorte de grappe contenant des objets divers qui ne correspondent pas étroitement les autres groupes?

Était-ce utile?

La solution

Have you looked at DBSCAN? It is a density-based spatial clustering of data with noise that can define non-linear clusters (unlike k-means).

It doesn't require knowing the number of clusters. However, it does require two parameters (minimum cluster size and neighborhood size) that measure density. But you may be able to estimate them in your particular domain.

Licencié sous: CC-BY-SA avec attribution
scroll top