Buscar en Folksonomías. ¿Cómo hacer frente a un problema sinonimia?
-
21-09-2019 - |
Pregunta
Puede alguien arrojar algo de luz sobre cómo se realiza la búsqueda en sitios web como del.icio.us?
Si entro "js" (1), "javascript" (2) o "java script" (3) como mi consulta en delicious, estoy apuntando a los recursos sobre el Java Script. Sin embargo, dependiendo de la consulta los conjuntos de resultados devueltos son diferentes (sistema vuelve del.icio.us diferente conjunto de marcadores de "js" y consultas "JavaScript").
Así que parece que el sistema no es realmente consciente de que (1) y (2) son sinónimos el uno del otro. En su lugar, se intenta hacer coincidir mi consulta contra marcadores que contienen la cadena de consulta en las etiquetas o bien asociados o el título. ¿Es eso correcto?
¿Cómo "educar" al sistema que todos los (1), (2), (3) están en sinónimos de hecho, ya pesar de la consulta del elegido el usuario debe ver todos los recursos relacionados con Java Script?
¿Es incluso una buena idea para hacer eso?
Gracias, Greg
Otros consejos
Sí:. El humano cerebro
En serio: programación revelador Los sinónimos de temas estrechamente relacionados va a ser muy, muy difícil OMI. Hay combinaciones de etiquetas que son muy probable que aparecen juntos, dicen javascript
y jquery
. Por supuesto, usted puede ser capaz de hacer algo con la información que, por ejemplo, jquery
nunca ocurre sin javascript
y por lo tanto debe haber algún tipo de subconjunto a ella, pero entonces, en realidad, es que ocurre por sí solo, también. XML
y XSLT
aparecerán muy a menudo juntos si etiquetados correctamente, pero no son sinónimos y que saben esto, es necesario alguien con conocimiento real de las tecnologías para hacer la llamada.
Yo sugeriría un sistema de pre-filtrado que encuentra candidatos para sinónimos y un administrador hacer el synonymizing real.
No hay una solución perfecta. Se podría declarar explícitamente palabras clave para ser sinónimos, todo lo demás será más o menos conjeturas.
Un enfoque podría ser el uso de una métrica de distancia. En el caso de deliciosa que le agregará el número de veces dos palabras clave se aplican a los mismos marcadores.
Se puede obtener adjudicar de falsos positivos sin embargo. Por ejemplo, puede ser que "ruby" se usa con menos frecuencia, junto con "carriles" que en relación inversa, porque "rieles" implica "ruby" pero "ruby" no "rieles". Esto puede ser una propiedad útil para eliminar a los términos relacionados de sinónimos, que debe estar en uso más o menos de manera intercambiable.
También puede intentar aprovechar WordNet