Pergunta

Estou curioso, se alguém entende, sabe ou pode apontar-me a literatura abrangente ou código-fonte sobre como o Google criou sua populares recurso bloqueia a passagem. No entanto, se você souber de qualquer outro aplicativo que pode fazer o mesmo por favor postar sua resposta também.

Se você não sabe o que eu estou escrevendo sobre aqui é um link para um exemplo de passagens populares. Quando você olha para a visão geral do livro A modelagem do processo de decisão judicial para aplicações de tecnologia da informação ... Por Georgios N. Yannopoulos você pode ver algo como:

Popular passagens

... direção, indeterminado. Nós temos não resolvido, porque não tivéssemos previsto, a questão que deve ser levantada pelo caso unenvisaged quando ocorre; se algum grau de paz no parque é para ser sacrificado , ou defendida contra, aqueles crianças cujos prazer ou interesse é usar essas coisas. Quando o caso unenvisaged surge, nós enfrentar as questões em jogo, podendo em seguida, resolver a questão, escolhendo entre os interesses concorrentes no maneira que melhor satisfaz nós. Dentro fazendo ... Página 86

Aparece em 15 livros de 1968-2003

Este seria um mundo adequado para jurisprudência "mecânica". Claramente este mundo não é o nosso mundo; humano os legisladores não podem ter tal conhecimento de todas as possíveis combinações de circunstâncias que o futuro pode trazer. Esta incapacidade para antecipar traz consigo um parente indeterminação de objectivo. Quando estamos em negrito o suficiente para enquadrar alguma regra geral conduta (por exemplo, uma regra de que nenhum veículo podem ser levados para o parque), o linguagem utilizada neste contexto correções condições necessárias que nada deve satisfazer ... Página 86

Aparece em 8 livros de 1968-2000

mais

Deve ser um processo padrão de correspondência intensiva. Só posso pensar de modelos n-gram, corpus de texto, detecção plagisrism automática. Mas, às vezes n-gramas são modelos probabilísticos para prever o próximo item em uma sequência e texto corpus (que eu saiba) são criadas manualmente. E, neste caso particular, passagens populares, pode haver uma grande quantidade de palavras.

Estou realmente perdido. Se eu queria criar essa característica um, como ou onde devo começar? Além disso, incluir na sua resposta que linguagens de programação são os mais adequados para este material: F # ou qualquer outro lang funcional, Perl, Python, Java ... (Eu estou me tornando um fã F # eu)

PS: alguém pode incluir o plágio detecção automática-tag, porque eu não posso

Foi útil?

Solução

Leia este papel ACM por Kolak e Schilit, os pesquisadores do Google que desenvolveram Passages popular. Há também alguns slides relevantes deste MapReduce curso ministrado por Baldridge e Lease na Universidade do Texas em Austin.

Outras dicas

Na pequena amostra Olhei, parece que todas as passagens escolhidas foram em linha ou citações em bloco. Apenas um palpite, mas talvez Google Books procura aspas / diferenças de formatação e uma citação, em seguida, usa uma versão analisada da bibliografia para associar a citação com a fonte. Hooray for manuais de estilo.

Esta abordagem é, obviamente, de nenhuma ajuda para detectar plágio, e é de pouca ajuda se o corpus não é em um formato que preserva a formatação do texto.

Se você sabe quais livros são de citar ou fazer referência a outros livros que você não precisa de olhar para todos os livros possíveis apenas os livros que estão citando o outro. Se é muitas vezes números de linha e de página de referência científica estão incluídos no orçamento ou podem ser encontrados na bibliografia no final do livro, então talvez google parses somente este informações?

Google scholar certamente tem as informações sobre citando do papel para papel talvez de livro para livro também.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top