Pregunta

Tengo curiosidad por si alguien entiende, sabe o me puede apuntar a la literatura integral o código fuente de Google sobre cómo creó cuentan con sus bloquea el paso populares. Sin embargo, si usted sabe de cualquier otra aplicación que puede hacer lo mismo por favor enviar su respuesta también.

Si usted no sabe lo que estoy escribiendo aquí hay un enlace a un ejemplo de Pasajes populares. Cuando nos fijamos en la visión general del libro Modelando el proceso de decisión legal para aplicaciones de tecnología de la información ... Por Georgios N. Yannopoulos se puede ver algo como:

  

pasajes populares

     

... dirección, indeterminado. Tenemos   no se resuelva, porque no tenemos   anticipado, la pregunta que se   ser criado por el caso unenvisaged cuando   que se produce; si un cierto grado de   la paz en el parque va a ser sacrificado   a, o defendió contra, aquellos   niños cuyos placer o interés   es el uso de estas cosas. Cuando el   unenvisaged caso se plantea, nos   enfrentarse a los problemas planteados, y   a continuación, resolverán el caso de la elección   entre los intereses en competencia en el   manera que mejor satisface los Estados Unidos. En   haciendo ... Página 86

     

Aparece en 15 libros de 1968-2003

     

Esto sería un mundo apropiado para   jurisprudencia "mecánica". Claramente   este mundo no es nuestro mundo; humano   los legisladores no pueden tener tal conocimiento   de todas las posibles combinaciones de   circunstancias que el futuro puede   traer. Esta incapacidad para anticipar   trae consigo un pariente   indeterminación del objetivo. Cuando estamos en negrita   suficiente para enmarcar alguna regla general de   realizar (por ejemplo, una regla que ningún vehículo   podrán tomarse en el parque), el   idioma que se utiliza en este contexto, correcciones   condiciones necesarias que nada   debe satisfacer ... Página 86

     

Aparece en 8 libros de 1968-2000

     

más

Debe ser un proceso de coincidencia de patrones intensivos. Sólo puedo pensar en modelos de n-gram, corpus de texto, detección automática plagisrism. Pero, a veces, n-gramas son modelos probabilísticos para predecir el siguiente elemento de una secuencia y el texto corpus (que yo sepa) se crean de forma manual. Y, en este caso particular, los pasajes populares, no puede haber una gran cantidad de palabras.

Estoy muy perdido. Si quería crear una operación de este tipo, cómo o dónde debería empezar? Además, incluyen en su respuesta de lo que los lenguajes de programación son los más adecuados para estas cosas: F # o cualquier otro funcional lang, Perl, Python, Java ... (Me estoy convirtiendo en un F # ventilador yo)

PD: alguien puede incluir la etiqueta automática de plagio de detección, porque no puedo

¿Fue útil?

Solución

este documento ACM por Kolak y Schilit, los investigadores que desarrolló Google Pasajes populares. También hay algunas diapositivas relevantes de este curso impartido por MapReduce Baldridge y el arrendamiento de la Universidad de Texas en Austin.

Otros consejos

En la pequeña muestra Miré por encima, parece que todos los pasajes recogidos estaban en línea o citas en bloque. Sólo una suposición, pero tal vez Google Libros busca comillas / diferencias de formato y una citación, a continuación, utiliza una versión analizada de la bibliografía para asociar la cita con la fuente. Hooray para los manuales de estilo.

Este enfoque es, obviamente, de ninguna ayuda a detectar el plagio, y es de poca ayuda si el corpus no está en un formato que conserva el formato de texto.

Si sabe qué libros están citando o hacer referencia a otros libros que no es necesario mirar a todos los posibles libros sólo los libros que están citando entre sí. Si se es a menudo números de línea y las páginas de referencia científica se incluyen en el presupuesto o se pueden encontrar en la bibliografía al final del libro, así que tal vez Google analiza sintácticamente sólo que esta información?

Google scholar ciertamente tiene la información sobre citando del papel a papel tal vez de un libro a otro también.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top