質問

どのようなもののように統計的に劣フレーズ。

によるアマゾン:

Amazon.com's統計的に劣 フレーズ、または"SIPs"は、最も 特徴的なフレーズをテキストの 書籍を検索す。™ プログラム。特SIPs、当社のコンピュータスキャン テキストのすべての書籍を検索 内!プログラム。合いがあれば言葉 発生する多数の倍 特定の書籍に対する 検索!書籍、そのフレーズは SIPる。

SIPsな視 内の書籍もの 詐に対する図書 検索す。.例えば、ほとんどのSIPs 本の関税の税金です。で展示しておりまSIPsを そのimprobabilityスコア、 第SIPsされる税金の話題が この本をつく その他の税金です。のための二足歩行ヒューマノイド, SIPsが特徴的な言葉 組み合わせることが示唆 重要なプロット。

例えば、ジョエルの初の書籍のSIPs:漏れに抽象化,色がcolorのアンチエリアスしたテキスト、ドッグフード、バグ数、日常のビルド、バグデータベース、ソフトウェアの日程

その合併症であるこれらのフレーズのいずれかでに2-3。このものは少し面白いのでこれらの言葉で重複は含まれます。

役に立ちましたか?

解決

このようにォ位の書類を与えられた検索クエリ。しかし、実はその指標とTF-IDFでは、TFが期frequenceやidfは逆の文書ます。元の位文書により、チェックした項目の検索条件表示される文書を、後者は上位文書であればそれを上から照会が頻繁に渡っています。の具体的な計算でログ番号の書類の書類を期)家、逆に周波数の期間が表示されます。

そこで、できるようになっていてSIPs相対的にジョエルの図書でも珍しい句に登場する書籍をいくつか)、それらは複数回ないの。

編集:という質問に対して約2-gramの3-gramと重複はどちらでも構いません。を考慮し文"にあたっては、自分の犬は茶色の".ここで、リストの2-gramは""つ","つ"犬"犬"、"茶色"]のリストの3-gramは""私の"犬"両犬","犬brown].申し上げたように、私のコメントと重複すN-1 2-gramとN-2 3-gramのためのストリームのN。で2-gramできるだけ均等その他の2-gramと同様に3グラムを処理することができますそれぞれの場合。加工した場合2-gram、"言葉"の2-gram。

他のヒント

を行ってくださを変動の tf-idf 重量、検出フレーズ発生する高い回数の特定のものに数回の全体のコーパスのマイナスなのです。繰り返しれます。

このように'improbability'からの相対パスで全体のコーパスとして理解する"として独自性"、"何が本独自のに比べて、残りの図書館の'.

もちろん、私は推測.

LingPipeは チュートリアル てられ、ことに重要であると考えられています。な議論し算引き算など余計な計算は、そのソースコードを開放できるので、そのソースコード。

どちらともいえないいうアマゾンながることができるのだろうか、シークレット(または少なくともいいのがほとんど気に伝えします。

としてコーポレート-ガバナンスのいい見 マルコフ連鎖.

一つのオプション:

  1. の構築をテキストコーパスからの指数です。
  2. の構築をテキストコーパスからの一冊です。
  3. 毎m n語句の確率でそれぞれのコーパス生ます。
  4. 選択のNフレーズが最も高い比率.

面白い拡張するマルコフ連鎖の発電機がウェイトテーブルは、倍率の違いのグローバル及び地域コーパスです。このことを"漫画は"(字)の文体の特殊性.

申し訳のための復旧のスレッドが水揚げされたことで、同じ問題が存在することが分かった。も新作を追加します。

思SIPsより独自の文書だけではな言葉の高いTF-IDFスコアを示しています。例えば、文書化 ハリー-ポッター"シリーズ, 利用規約など Hermione称Hogwarts が良くなる傾向であるSIPsという マジックロンドン ない.TF-IDFに素晴らしくなるわけではないで作ることにあります。

また面白いの定義SIPs こちらの.この作品では、カレンをモデルとしてのn-gramとその発生確率の文書は計算を特定する目的でユニークさ、などの点です。

もっこっこさん結論かず、その組み合わせSIPsを識別することができるものを書籍としてユニークです。おとえば、非常に稀なことをもう一冊は、"漏洩に抽象化"と"自分のドッグフード"と同じです。

私が作りを想定して分かりませんでした。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top