Pregunta

Puede alguien arrojar algo de luz sobre cómo se realiza la búsqueda en sitios web como del.icio.us?

Si entro "js" (1), "javascript" (2) o "java script" (3) como mi consulta en delicious, estoy apuntando a los recursos sobre el Java Script. Sin embargo, dependiendo de la consulta los conjuntos de resultados devueltos son diferentes (sistema vuelve del.icio.us diferente conjunto de marcadores de "js" y consultas "JavaScript").

Así que parece que el sistema no es realmente consciente de que (1) y (2) son sinónimos el uno del otro. En su lugar, se intenta hacer coincidir mi consulta contra marcadores que contienen la cadena de consulta en las etiquetas o bien asociados o el título. ¿Es eso correcto?

¿Cómo "educar" al sistema que todos los (1), (2), (3) están en sinónimos de hecho, ya pesar de la consulta del elegido el usuario debe ver todos los recursos relacionados con Java Script?

¿Es incluso una buena idea para hacer eso?

Gracias, Greg

¿Fue útil?

Solución

Se podría utilizar una herramienta como LSA o TFIDF para tratar de descubrir qué conceptos están contenidos en sus datos. Esto es más probable que lo que hace del.icio.us.

Otros consejos

Sí:. El humano cerebro

En serio: programación revelador Los sinónimos de temas estrechamente relacionados va a ser muy, muy difícil OMI. Hay combinaciones de etiquetas que son muy probable que aparecen juntos, dicen javascript y jquery. Por supuesto, usted puede ser capaz de hacer algo con la información que, por ejemplo, jquery nunca ocurre sin javascript y por lo tanto debe haber algún tipo de subconjunto a ella, pero entonces, en realidad, es que ocurre por sí solo, también. XML y XSLT aparecerán muy a menudo juntos si etiquetados correctamente, pero no son sinónimos y que saben esto, es necesario alguien con conocimiento real de las tecnologías para hacer la llamada.

Yo sugeriría un sistema de pre-filtrado que encuentra candidatos para sinónimos y un administrador hacer el synonymizing real.

No hay una solución perfecta. Se podría declarar explícitamente palabras clave para ser sinónimos, todo lo demás será más o menos conjeturas.

Un enfoque podría ser el uso de una métrica de distancia. En el caso de deliciosa que le agregará el número de veces dos palabras clave se aplican a los mismos marcadores.

Se puede obtener adjudicar de falsos positivos sin embargo. Por ejemplo, puede ser que "ruby" se usa con menos frecuencia, junto con "carriles" que en relación inversa, porque "rieles" implica "ruby" pero "ruby" no "rieles". Esto puede ser una propiedad útil para eliminar a los términos relacionados de sinónimos, que debe estar en uso más o menos de manera intercambiable.

También puede intentar aprovechar WordNet

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top