自然言語処理に興味がある人にとって良い出発点は何ですか? [閉まっている]

StackOverflow https://stackoverflow.com/questions/212219

  •  03-07-2019
  •  | 
  •  

質問

質問

したがって、最近、ユーザーが送信および生成したテキストから「意味」を導き出すことに対処する必要がある新しいプロジェクトをいくつか思い付きました。

自然言語処理は、これらの種類の問題を処理するフィールドです。最初の調査では、 OpenNLP Hub attemptoプロジェクト。また、stackoverflowには this があります。

研究論文や紹介テキストからAPIまで、誰かが私を良いリソースにリンクできれば、6歳の子供がクリスマスプレゼントを開くよりも幸せになります!

更新

あなたの推奨事項の1つを通して、 opencyc '世界最大かつ最も完全な一般知識ベースと常識推論エンジン」)。さらに驚くべきことに、 UMBEL というopencycの蒸留バージョンであるプロジェクトがあります。 rdf / owl / skos n3構文のセマンティックデータを備えています。

antlr も認識しました。これは、認識エンジン、インタープリター、コンパイラーを構築するためのパーサージェネレーターです。 、および文法記述の翻訳者」。

そして、ここに質問があります。無料でオープンなデータ

stackoverflowコミュニティに感謝します!

役に立ちましたか?

解決

厳しい話ですが、NLPはほとんどの人が思っているよりもはるかに広い分野です。基本的に、言語はいくつかのカテゴリに分割することができ、まったく異なることを学ぶ必要があります。

始める前に、何らかの(密接に関連する)分野の学位を取得しなくても、(少なくとも専門家として)顕著な成功を収めることはできないと思います。多くの理論が関わっていますが、そのほとんどは乾燥したものであり、学ぶのは困難です。あなたは多くの持久力と何よりも必要とするでしょう:時間。

テキストの意味に興味があるなら、それは次の大きなことです。セマンティック検索エンジンはWeb 3.0を開始すると予測されていますが、まだ「そこ」にはほど遠い状態です。テキストからロジックを抽出するには、いくつかの手順が必要です。

  • トークン化、チャンク
  • 語彙レベルでの曖昧性解消(時間は矢印のように飛びますが、フルーツはバナナのように飛びます。)
  • 構文解析
  • 形態学的分析(時制、アスペクト、ケース、数、その他)

頭の上の小さなリスト。 :-)がさらにあり、各ポイントにはさらに多くの詳細があります。たとえば、「解析」と言うとき、これは何ですか? 多くの異なる解析アルゴリズムがあり、同様に多くの解析形式があります。最も強力なものには、ツリー結合文法頭部駆動型フレーズ構造文法。しかし、それらの両方はフィールドでほとんど使用されていません(今のところ)。通常、中途半端な生成アプローチに対処することになり、自分で形態素解析を行う必要があります。

そこからセマンティクスへの移行は大きなステップです。 Syntax / Semanticsインターフェイスは、使用されている構文の セマンティックフレームワークの両方に依存しており、まだ単一の有効なソリューションはありません。セマンティックの面では、古典的な生成セマンティクスがあり、ディスコース表現理論があります。 動的セマンティクスなど。すべてが基づいている論理形式でも、まだ明確に定義されていません。一次論理を使うべきだと言う人もいますが、それで十分とは思えません。その後、Montagueで使用されているような内包的ロジックがありますが、それは過度に複雑で、計算上実行不可能です。動的なロジックもあります(GroenendijkとStokhofがこの機能を開拓しました。素晴らしい機能です!)そしてごく最近、この夏、実際に Jeroen Groenendijk は、新しい形式主義 Inquisitive Semantics を提示しました。これも非常に興味深いものです。

非常に単純なレベルで開始する場合は、 Blackburn and Bos( 2005)、すばらしいものであり、計算セマンティクスの事実上の紹介です! Groenendijk and Stokhof(1982)が提案したように、質問の分割理論(質問への回答は獣です!)をカバーするように最近システムを拡張しましたが、残念ながら、理論はO個人のドメイン。そうするうちに、私はB& Bの実装が少しであることがわかりました。ハック、場所で。それでも、それは本当に、本当にあなたが計算セマンティクスに飛び込むのを助けるでしょう、そしてそれはまだ何ができるかの非常に印象的なショーケースです。また、Pulp Fiction(ムービー)で解決される文法を実装するための追加のクールポイントに値します。

そして、私がそれに取り組んでいる間に、Prologを選択します。計算セマンティクスの多くの研究は、Prologに基づいています。 今すぐプロローグを学びましょうは良い紹介です

他のヒント

Chomskyは、NLPを探すにはまったく間違ったソースです(そして、彼は自分自身を強調して言うでしょう)-" 統計手法と言語学"アブニーによって。

上記のJurafskyとMartinは標準的なリファレンスですが、私自身は ManningとSchü tzeを好みます。 NLPを真剣に考えているなら、おそらく両方を読みたいと思うでしょう。利用可能なマニングのコースのビデオがありますオンライン

「Prolog Now!」のDCGの章まで、Prologを使用した場合上記のディミトロフ氏が言及したように、Prologを使用すると知識と信念のデータベースを維持する非常に簡単な方法が提供され、質問応答によって更新できるため、システムにいくつかのセマンティクスを取り入れることができます。

文献に関して、私はあなたに1つの主要な推奨事項があります:スピーチと言語処理 by Jurafsky&マーティン。 NLPに関するほとんどの 本です(最初の章はオンラインで入手できます)。数十億の大学のコースで使用されますが、非言語学者にとっても実用的であると同時に非常に読みやすく、同時に言語学の問題をかなり深く掘り下げています。本当にお勧めできません。第17、18、21章はあなたが探しているもののようです(初版では14、15、18)。 Prolog DCGの機能を備えたシンプルなラムダ表記法を示しています。

ああ、ところで、言語学の修士号を取得しました。 NLセマンティクスに興味がある場合は、見つけることができるすべてのAI関連のコースを受講することをお勧めします(ただし、「平易な」言語セマンティクス、ロジック、論理セマンティクス、 DRT LFG / HPSG / CCG、NL構文解析、正式な言語理論などは問題ありません...)

チョムスキーのオリジナルの文献を読むことは、実際には役に立ちません。私の知る限り、彼の理論に直接対応する現在の実装はない 、彼のすべての有用なものは他の理論にかなり包まれています(そして、時間の問題で言語学者の近くにいる人は誰でも浸透によってチョムスキーの知識を吸収します)。

NLTK をいじって、 NLTK Book 。 NLTKは非常に強力で使いやすいです。

フレーズ構造化グラマー(基本的には数学)を少し読んでみてください。多くの言語プロセスの背後にあります。実際にはそれほど重くはなく、主に集合論とグラフ理論に基づいています。私はそれを離散数学コースの一部として多くの月前に研究しました、そしてこの段階で利用可能な多くの良い参考文献があると思います。

編集:Googleで期待したほどではありませんが、これは優れた学習ソースのように見えます。

NLPの初期の探検家の1人は、Noam Chomskyです。彼は50年代から70年代にこのテーマに関する小さな本を書きました。あなたはその魅力的な読書を見つけるかもしれません。

Cycorpには、Cycナレッジベースが意味を導き出す方法の簡単な説明があります。文から。

一般的な事実の膨大な知識ベースを利用することにより、システムは文の最も論理的な解析を決定できます。

ビルディングブロックから始めるより簡単な場所は、それを実行しようとするパッケージのドキュメントを見ることです。 Python [Natural Language Toolkit(NLTK) 1 をお勧めします。特に彼らのよく書かれた無料の本は、例で満たされています。それはあなたが望むもの(AI困難な問題です)にあなたを完全に導くことはありませんが、それはあなたに良い足場を与えるでしょう。 NLTKには、パーサー、チャンカー、コンテキストフリーの文法などがあります。

これは本当に難しいものです。私は少なくとも言語学の修士号を取得することから始めてから、コンピューターサイエンスの博士号を取得し、NLPに集中します。

問題は、ほとんどの人が言語とは何かを理解していないことです。そして、その理解がなければ、ソリューションを実装するのは大変なことです。

他のコメントはいくつかの読み方を示しますが、問題の小さなサブセットをいじり始めたい場合はおそらく問題ありませんが、本当に堅牢な解決策を考え出すためにショートカットはありません。両方の分野の学歴が必要です。

非常に楽しい読みやすい紹介は、Steven PinkerによるThe Language Instinctです。それはチョムスキーのものに行き、進化生物学の角度から興味深い物語を伝えます。あなたが主題に慣れていないなら、チョムスキーの論文と関連する仕事に飛び込む前にそのような何かから始める価値があるかもしれません。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top