Frage

Ich lerne NLP. Ich spiele derzeit mit der Disambiguation mit Wortsinn. Ich plane, den Semcor Corpus als Trainingsdaten zu verwenden, aber ich habe Probleme, die XML -Struktur zu verstehen. Ich habe versucht zu googeln, habe aber keine Ressource erhalten, die die Inhaltsstruktur von Semcor beschreibt.

<s snum="1">
<wf cmd="ignore" pos="DT">The</wf>
<wf cmd="done" lemma="group" lexsn="1:03:00::" pn="group" pos="NNP" rdf="group" wnsn="1">Fulton_County_Grand_Jury</wf>
<wf cmd="done" lemma="say" lexsn="2:32:00::" pos="VB" wnsn="1">said</wf>
<wf cmd="done" lemma="friday" lexsn="1:28:00::" pos="NN" wnsn="1">Friday</wf>
<wf cmd="ignore" pos="DT">an</wf>
<wf cmd="done" lemma="investigation" lexsn="1:09:00::" pos="NN" wnsn="1">investigation</wf>
<wf cmd="ignore" pos="IN">of</wf>
<wf cmd="done" lemma="atlanta" lexsn="1:15:00::" pos="NN" wnsn="1">Atlanta</wf>
<wf cmd="ignore" pos="POS">'s</wf>
<wf cmd="done" lemma="recent" lexsn="5:00:00:past:00" pos="JJ" wnsn="2">recent</wf>
<wf cmd="done" lemma="primary_election" lexsn="1:04:00::" pos="NN" wnsn="1">primary_election</wf>
<wf cmd="done" lemma="produce" lexsn="2:39:01::" pos="VB" wnsn="4">produced</wf>
<punc>``</punc>
<wf cmd="ignore" pos="DT">no</wf>
<wf cmd="done" lemma="evidence" lexsn="1:09:00::" pos="NN" wnsn="1">evidence</wf>
<punc>''</punc>
<wf cmd="ignore" pos="IN">that</wf>
<wf cmd="ignore" pos="DT">any</wf>
<wf cmd="done" lemma="irregularity" lexsn="1:04:00::" pos="NN" wnsn="1">irregularities</wf>
<wf cmd="done" lemma="take_place" lexsn="2:30:00::" pos="VB" wnsn="1">took_place</wf>
<punc>.</punc>
</s>
  • Ich gehe davon aus, dass WNSN "Wort Sinn" ist. Ist es richtig?
  • Was bedeutet das Attribut Lexsn? Wie ist es zu WordNet zugeordnet?
  • Worauf bezieht sich das Attribut PN? (dritte Zeile)
  • Wie wird das RDF -Attribut zugewiesen? (Wieder dritte Zeile)
  • Was sind im Allgemeinen die möglichen Attribute?
War es hilfreich?

Lösung

Das Format ist in der Datei "doc/cxtFile.txt" in der Datei beschrieben Semcor 1.6 Archiv; Aus irgendeinem Grund ist die Dokumentation in späteren Versionen nicht enthalten.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top