Question

Je suis nouveau au traitement du langage naturel et je n'ai pas entendu parler d'un problème similaire encore à la mienne. Je me demandais si quelqu'un pouvait me référer à une méthode pour résoudre mon problème, ou me dire comment ce problème est mentionné dans la littérature académique, afin que je puisse trouver des ressources en ligne.

Voici le problème: De texte (articles de wikipedia, par exemple), je voudrais extraire la hiérarchie des concepts différents qui peuvent s'y trouver. Par hiérarchie, je veux dire un arbre où A est un descendant de B si A ou l'un des parents d'un (transitifs) est définie par B. Par exemple, la distribution normale serait un descendant de la probabilité (puisque la distribution normale est définie à l'aide des probabilités) et des probabilités serait un descendant (ou enfant) des mathématiques. Comme il est transitive, la distribution normale serait aussi un enfant de mathématiques.

Une façon je pensais à résoudre c'est en regardant le nombre de fois qu'un mot A est utilisé seul (appelé A), les mots A et B sont utilisés ensemble (appelés A et B, « ensemble » pourrait être, pour par exemple, dans le même article ou dans le même paragraphe, ou dans la même phrase), et le nombre de fois que le mot B est utilisé seul (appelé B). Soit A et B les mathématiques probabilité. Ensuite, si les rapports (A et B) / A et (A et B) / B sont faibles, il pourrait signifier qu'il n'y a pas de lien direct entre A et B (mais un lien pourrait exister par transitivité). A l'inverse, si A est plus grand que B, A est un concept plus grand que B. Si A et B sont à peu près les mêmes, alors ils sont probablement frères et sœurs (enfants du même parent).

prendre 3 exemples de LET:

  • Mathématiques (A) et la carotte (B). A ET B est très faible par rapport à A et B, donc il n'y a pas de lien direct entre eux (ou seulement un lien indirect par transitivité).
  • Mathématiques (A) et les probabilités (B). A et B est assez élevé par rapport à B, et A est beaucoup plus grand que B, alors B doit être un enfant de A (probabilités est un enfant de mathématiques).
  • Topologie (A) et les probabilités (B). A ET B est relativaly élevée (les textes qui présentent les différents domaines des mathématiques parleront probablement sur le 2), A et B sont à peu près le même ordre de grandeur, si A et B devraient être les enfants d'un même parent. En effet, Topologie et Probabilités sont les enfants de mathématiques.

Cette façon de résoudre le problème est loin d'être parfait, par exemple la «(A) et « probabilité »(B) finirait probablement dire la probabilité est un enfant du (parce que A et B est énorme et A est beaucoup plus grand que B).

Si quelqu'un connaît des papiers sur ce ou a des idées sur la façon dont je pourrais résoudre ce problème, j'apprécierait une certaine direction. , Ne semble que ma solution aussi viable? Comment pourrait-il être amélioré?

Était-ce utile?

La solution

Consulter la taxonomie / ontologie construction / induction. documents pertinents:

  • Construction automatique taxinomie de mots clés par Scalable bayésienne Trees Rose
  • Sujet modèles pour taxonomies
  • OntoLearn Reloaded. Un graphique basée sur l'algorithme pour la taxonomie induction
  • Ontologie population et enrichissement: état de l'art
  • probabilistes Sujet modèles pour l'apprentissage terminologies ontologies
Licencié sous: CC-BY-SA avec attribution
scroll top