Googleの単語頻度の無料データベース？

https://stackoverflow.com/questions/340001

19-08-2019
|

質問

今週のStackoverflowポッドキャストで、Jeffは2004年にGoogleに110,000の英語の単語を照会するスクリプトを記述し、各単語のヒット数を含むデータベースを収集したと述べました。 Stackoverflowでこれを使用します。 <！> quot;関連<！> quot;各質問ページの右側のリスト。

同様のスクリプトでこれらの1つを作成するのは難しいので（ジョエルが言ったように、<！> quot; 3万語でドアをたたきます<！> quot;）、だれかが知っているだろうかGoogleの単語の頻度の最新の無料データベース（たとえば、jquery、ruby、azureなど、その後確実に変更されたIT単語）。

解決

簡単なGoogle検索（！）で数ヒットが見つかりました。このリンクは有望に見えます：

ただし、ITワードを対象とはしていません。

他のヒント

これに答えるのは遅いかもしれませんが、別の方法を提案できます。 <！> quot;ヒット数<！> quot;を取得する代わりにGoogleから自分で近似値を計算します。テキストページ（コーパス）の大きなコレクションを取得し、その中の各単語の数をカウントします。これはウィキペディアで行いました。すべてのWikiページのダンプがあります。テキストを抽出し、単語をカウントするパーサーを作成する必要があります。結果は110Kワード以上のリストです（少なくとも2M-3M）。 Googleの検索結果に数値が本当に必要な場合は、単語のサンプルを取得してGoogleにクエリを実行し、Googleの値と一致するように計算値の正規化を行うことができます。これがお役に立てば幸いです。

Googleによると、1つのIPにつき1日あたり50,000件のクエリを送信できます。私はあなたの友人の間でそれを分割することは本当に違法ではないと思います。

IPごとの1日あたりのクエリで同様の問題が発生しましたが、まったく異なるアプローチで解決しました。

友人/同僚間でリストを分割し、IPごとに1日あたり50,000リクエストを超えないように十分に長いタイムアウトを使用してから、結果をマージできます。このアプローチの合法性についてはわかりませんが、Googleの人々が<！> quot;あなたのドアをノックする<！> quot;この方法の使用はかなり少ないです。

注：Skutaが提供するデータに従って編集

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow