filtre bayésien pour marquer les doublons

https://stackoverflow.com/questions/1873225

18-09-2019
|

Question

Je collectionne les nouvelles pour certains sujets, puis exécutez bayésien classfier sur eux pour les marquer comme intéressant ou non intéressant. Je vois qu'il ya des nouvelles qui sont différents articles sont essentiellement les mêmes nouvelles. par exemple. - Ben Kingsley visite Taj Mahal avec son épouse - Kingsley romances femme dans les pelouses de Taj

Comment puis-je enseigner le système pour marquer tous ces doublons comme?

Merci Sanjay

La solution

Idée intéressante. Je suppose que cela a été étudié auparavant, un coup d'œil dans une revue de science-maquette devrait se présenter quelques bons pointeurs. Cela dit voici quelques idées que j'ai:

Méthode

Vous pouvez trouver des phrases-clés les plus uniques et voir comment ils correspondent aux phrases-clés avec les autres articles. J'imagine les données publiées par google sur la fréquence des phrases sur le web vous donnerait la ligne de base.

Vous avez besoin d'une certaine façon à la collecte sur le fait que « dans le » est une expression très commune, mais « visites Kingsley » est important. Une fois que vous avez filtré vers le bas tout le texte à seulement les phrases clés que vous pouvez voir combien d'entre eux correspondent.

phrases clés:

ensemble de tous les verbes, noms, noms et nouveaux (nouvelles / mal orthographié) mots
vous pouvez saisir des expressions qui sont dire, entre un et cinq mots à long
supprimer tous ceux qui sont très fréquents (pourrait avoir classificateur sur des phrases communes)
voir combien d'entre eux correspondent entre les articles.
un coulisseau pouvant être commandé pour régler le seuil d'appariement

Il ne va pas être facile si vous écrivez vous-même, mais je dirais que c'est une zone de problème très intéressant.

Exemple

Si nous venons en utilisant les titres et suivre la méthode par la main.

Ben Kingsley visite Taj Mahal avec son épouse créer les mots-clés suivants:

Ben Kingsley
Kingsley
visites Kingsley
femme
Mahal
... etc ...

mais ceux-ci doivent être enlevés car ils sont trop fréquents (donc ne contribuent pas à identifier de manière unique le contenu)

Ben
avec sa femme

une fois que la même chose est faite avec l'autre titre Kingsley romances femme dans les pelouses de Taj vous pouvez comparer et trouver qui correspondent à l'autre tout à fait quelques phrases clés. Ils sont donc sur le même sujet.

Bien que ce soit déjà une grande entreprise il y a beaucoup de chose que vous pouvez faire pour poursuivre la mise en correspondance.

Extensions

Ce sont toutes les façons de couper le mot-clé déposer une fois qu'il est créé.

WordNet serait un bon début pour la recherche dans l'obtention d'un match entre dire « plus » et « étendre ». Ce serait utile que les articles utilisent le même lexique coutume pour leur écriture.
Vous pouvez lancer un Classfier bayésienne sur ce qui compte comme une phrase clé. Il peut être formé en ayant l'ensemble de tous les articles correspondants / non correspondants et leurs phrases clés. Vous devez faire attention à la façon dont vous traitez avec des phrases invisibles car ceux-ci risquent d'être la chose la plus importante que vous rencontrez. Il pourrait même être préférable de l'exécuter sur ce une phrase clé est pas .
Il pourrait même être une idée de calcluate Levenshtein entre certains les phrases clés si rien trouvé d'autre match. Je suppose qu'il est probable qu'il y aura des correspondances trouvées toujours.

J'ai le sentiment que c'est une de ces choses où une très bonne réponse vous obtiendrez un doctorat. Que encore une fois, je suppose qu'il a déjà été fait avant (Google doit avoir un moyen automatique de gratter tous les nouvelles les sites et les adapter en catégories et articles similaires)

bonne chance avec elle.

Autres conseils

Ceci est un problème de classification, mais plus difficile étant donné le nombre de classes distinctes que vous aurez. Une option pourrait être de réduire la taille de chaque document en utilisant Sélection des fonctionnalités ( plus d'info ). La sélection des fonctionnalités consiste à sélectionner le top n termes (hors mots vides , et peut provenant de chaque mot aussi bien). Pour ce faire, en calculant, pour chaque document, information mutuelle ( plus d'info ) de chaque terme, commande les termes de ce nombre et en sélectionnant les termes top n pour chaque document. Cette fonction réduit ensemble de termes top n pour chaque document peut maintenant former la base pour effectuer votre double sélection (par exemple, s'il y a plus de x% termes communs entre tous les documents, encore une fois x calculée par backtesting ),

La majeure partie est couverte dans ce livre gratuit sur recherche d'information .

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow