¿Cómo fue característica desarrollada pasajes populares del Google Books'?
-
18-09-2019 - |
Pregunta
Tengo curiosidad por si alguien entiende, sabe o me puede apuntar a la literatura integral o código fuente de Google sobre cómo creó cuentan con sus bloquea el paso populares. Sin embargo, si usted sabe de cualquier otra aplicación que puede hacer lo mismo por favor enviar su respuesta también.
Si usted no sabe lo que estoy escribiendo aquí hay un enlace a un ejemplo de Pasajes populares. Cuando nos fijamos en la visión general del libro Modelando el proceso de decisión legal para aplicaciones de tecnología de la información ... Por Georgios N. Yannopoulos se puede ver algo como:
pasajes populares
... dirección, indeterminado. Tenemos no se resuelva, porque no tenemos anticipado, la pregunta que se ser criado por el caso unenvisaged cuando que se produce; si un cierto grado de la paz en el parque va a ser sacrificado a, o defendió contra, aquellos niños cuyos placer o interés es el uso de estas cosas. Cuando el unenvisaged caso se plantea, nos enfrentarse a los problemas planteados, y a continuación, resolverán el caso de la elección entre los intereses en competencia en el manera que mejor satisface los Estados Unidos. En haciendo ... Página 86
Aparece en 15 libros de 1968-2003
Esto sería un mundo apropiado para jurisprudencia "mecánica". Claramente este mundo no es nuestro mundo; humano los legisladores no pueden tener tal conocimiento de todas las posibles combinaciones de circunstancias que el futuro puede traer. Esta incapacidad para anticipar trae consigo un pariente indeterminación del objetivo. Cuando estamos en negrita suficiente para enmarcar alguna regla general de realizar (por ejemplo, una regla que ningún vehículo podrán tomarse en el parque), el idioma que se utiliza en este contexto, correcciones condiciones necesarias que nada debe satisfacer ... Página 86
Debe ser un proceso de coincidencia de patrones intensivos. Sólo puedo pensar en modelos de n-gram, corpus de texto, detección automática plagisrism. Pero, a veces, n-gramas son modelos probabilísticos para predecir el siguiente elemento de una secuencia y el texto corpus (que yo sepa) se crean de forma manual. Y, en este caso particular, los pasajes populares, no puede haber una gran cantidad de palabras.
Estoy muy perdido. Si quería crear una operación de este tipo, cómo o dónde debería empezar? Además, incluyen en su respuesta de lo que los lenguajes de programación son los más adecuados para estas cosas: F # o cualquier otro funcional lang, Perl, Python, Java ... (Me estoy convirtiendo en un F # ventilador yo)
PD: alguien puede incluir la etiqueta automática de plagio de detección, porque no puedo
Solución
este documento ACM por Kolak y Schilit, los investigadores que desarrolló Google Pasajes populares. También hay algunas diapositivas relevantes de este curso impartido por MapReduce Baldridge y el arrendamiento de la Universidad de Texas en Austin.
Otros consejos
En la pequeña muestra Miré por encima, parece que todos los pasajes recogidos estaban en línea o citas en bloque. Sólo una suposición, pero tal vez Google Libros busca comillas / diferencias de formato y una citación, a continuación, utiliza una versión analizada de la bibliografía para asociar la cita con la fuente. Hooray para los manuales de estilo.
Este enfoque es, obviamente, de ninguna ayuda a detectar el plagio, y es de poca ayuda si el corpus no está en un formato que conserva el formato de texto.
Si sabe qué libros están citando o hacer referencia a otros libros que no es necesario mirar a todos los posibles libros sólo los libros que están citando entre sí. Si se es a menudo números de línea y las páginas de referencia científica se incluyen en el presupuesto o se pueden encontrar en la bibliografía al final del libro, así que tal vez Google analiza sintácticamente sólo que esta información?
Google scholar ciertamente tiene la información sobre citando del papel a papel tal vez de un libro a otro también.