filtro bayesiano para marcar itens duplicados

https://stackoverflow.com/questions/1873225

18-09-2019
|

Pergunta

Eu coleciono notícias para certos tópicos e, em seguida, corro Bayesian Classfier para marcá-los como interessantes ou não interessantes. Vejo que existem notícias que são artigos diferentes são essencialmente as mesmas notícias. Por exemplo - Ben Kingsley visita Taj Mahal com esposa - Kingsley Romances esposa nos gramados do Taj

Como ensino o sistema a marcar tudo isso como duplicata?

Obrigado Sanjay

Solução

Ideia interessante. Eu acho que isso já foi estudado antes, um olhar em algum diário da Comp-SCI deveria aparecer alguns bons indicadores. Dito isto, aqui estão algumas ideia que tenho:

Método

Você pode encontrar as frases-chave mais unatas e ver como elas combinam com as frases-chave com os outros artigos. Eu imagino os dados publicados por o Google Sobre a frequência de frases na web, daria a você a linha de base.

De alguma forma, você precisa ser retirado do fato de que "no" é uma frase muito comum, mas "Kingsley visita" é importante. Depois de filtrar todo o texto apenas para as frases -chave, você pode ver quantos delas correspondem.

frases chave:

Conjunto de todos os verbos, substantivos, nomes e novas palavras (novas/mistas)
Você pode pegar frases que são dignas, entre uma e cinco palavras
Remova tudo o que é muito comum (pode ter classificador em frases comuns)
Veja quantos deles combinam entre os artigos.
tenha um controle deslizante controlável para definir o limite correspondente

Não será fácil se você escrever isso você mesmo, mas eu diria que é uma área de problemas muito interessante.

Exemplo

Se apenas usarmos os títulos e seguirmos o método à mão.

Ben Kingsley visita Taj Mahal com esposa criará as seguintes palavras -chave:

Ben Kingsley
Kingsley
Kingsley visita
esposa
Mahal
... etc ...

Mas eles devem ser removidos, pois são muito comuns (portanto, não ajudam a identificar exclusivamente o conteúdo)

Ben
com esposa

Uma vez que o mesmo é feito com o outro título Romances Kingsley esposa nos gramados de Taj Em seguida, você pode comparar e descobrir que algumas frases importantes se combinam. Portanto, eles estão no mesmo assunto.

Mesmo que este já seja um grande empreendimento, há muitas coisas que você poderia fazer para promover a correspondência.

Extensões

Essas são todas as maneiras de aparar a palavra -chave definida depois de ser criada.

WordNet Seria um ótimo começo para procurar uma partida entre dizer "mais tempo" e "estender". Isso seria útil, pois os artigos não usarão o mesmo léxico para seus escritos.
Você poderia correr um Classfier bayesiano no que conta como uma frase-chave. Pode ser treinado com o conjunto de todos os artigos correspondentes/não correspondentes e suas frases-chave. Você teria que ter cuidado com a maneira como lida com frases invisíveis, pois é provável que sejam a coisa mais importante que você encontra. Pode até ser melhor executá -lo no que não é uma frase-chave.
Pode até ser uma ideia calcular o Distância de Levenshtein Entre algumas das frases-chave, se nada mais encontrou uma correspondência. Acho que é provável que sempre haja algumas correspondências encontradas.

Tenho a sensação de que essa é uma daquelas coisas em que uma resposta muito boa lhe dará um doutorado. Do que novamente, suponho que já tenha sido feito antes da (O Google deve ter uma maneira automática de raspar todos esses sites de notícias e encaixá -los em categorias e artigos similares)

Boa sorte com isso.

Outras dicas

Este é um problema de classificação, mas mais difícil, dado o número de classes distintas que você terá. Uma opção pode ser reduzir o tamanho de cada documento usando Seleção de recursos (mais informações). A seleção de recursos envolve a seleção do topo n termos (excluindo Pare de palavras, e possivelmente aplicando Stemming para cada palavra também). Fazer isso calculando, para cada documento, o informação mútua (mais informações) de cada termo, ordenando os termos por esse número e selecionando os principais termos para cada documento. Esse conjunto reduzido de recursos dos principais termos para cada documento agora pode formar a base para executar sua seleção duplicada (por exemplo, se houver mais do que x% termos comuns entre quaisquer documentos, novamente x calculados através do teste de backtesting),

A maior parte disso é abordada neste livro gratuito sobre recuperação de informação.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow