質問

私は、CMS で作成されたページのコンテンツを分析する PHP スクリプトを書こうと考えていました。データベース フィールド) を作成し、(X)HTML META 説明とキーワード タグを自動生成しますが、いつものように車輪の再発明には意味がないので、そのような野獣について知っている人はいるでしょうか?

前者は最初の文か 2 つを取得するための比較的簡単な正規表現のようなものだと思いますが、後者はおそらく一般的な単語の辞書と照合して単語を削除し、頻度などの重み付けを行う必要があると思います。

役に立ちましたか?

解決

あなたが検討している問題は 2 つあります。1 つはキーワードの抽出で、もう 1 つは文書の要約です。1 つ目は、明らかにキーワードに使用するもので、非常に単純で素朴なアプローチをとります。すべてのストップワードを除いた、コンテンツ内で最も頻繁に使用される単語を選択します (これらが何であるかわからない場合は、Wikipedia で調べてください)。同義語を含めるための重み付け、テキストまたはマークアップ内の位置など、より高度な方法が多数あります。おそらく問題なく実装できる、PHP の簡単なキーワード抽出スクリプトの例がいくつかあります。「PHP キーワード抽出」などを Google で検索すると、いくつか見つかります。

一方、2 番目の問題はもう少し難しく、依然として多くの学術研究の源となっています。非常に詳細なメタ ディスクリプション タグの要約が必要になります。まだ硬直的または一貫性がないように見える可能性のある長期規模の AI プロジェクトを探していない場合は、実際には時間をかける価値がないかもしれません。別のアプローチは、キーワード抽出を使用する単純なヒューリスティックです。「この記事は、(最初​​の最も一般的なキーワード)、(2番目に一般的なキーワード)、および(3番目に一般的なキーワード)に関するものです。」少なくとも、キーワードと説明の両方で、一部のコンテンツに適合する利点を得ています。雰囲気を変えたい場合は、代わりにいくつかの同義語を使用してください。半機能的なものもある WordNet の PHP 実装, しかし、私は、にアウトソーシングすることをお勧めします。 Python 用の自然言語ツールキット 作業のほとんどはすでに完了しているため、そこでの面倒な作業は不要です。

氏からの否定的な意見は無視して、この分野でのあなたの研究を奨励するために少しの間お時間をいただきたいと思います。ワルニカ。メタ情報 文書の分類と検索分野での情報抽出の両方にとって重要です。データを持たないのは愚かなことです。実際、大規模なコンテンツ管理システムではデータを自動化する価値があります。頑張ってください。

他のヒント

Yahoo Pipes Term Extractor モジュールは、あなたが欲しい。残念ながら、パイプモジュールへのソースが開いていることはわかりません。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top