Question

Dans le podcast Stackoverflow de cette semaine, Jeff a mentionné qu’en 2004, il avait écrit un script interrogeant Google avec 110 000 mots en anglais et réuni une base de données contenant le nombre de résultats pour chaque mot. Ils l'utilisent sur Stackoverflow, par exemple. pour le " Related " liste à droite de chaque page de question.

Puisqu'il serait difficile de créer l'un de ceux-ci aujourd'hui avec un script similaire (comme l'a mentionné Joel, "à 30 000 mots, vous aurez un coup à la porte"), je me demandais si quelqu'un connaissait un programme plus récent. , base de données gratuite sur les fréquences de mots de Google (par exemple, les mots informatiques qui ont sûrement changé depuis lors, tels que jquery, ruby, azure, etc.).

Était-ce utile?

La solution

Une recherche rapide sur Google (!) donne quelques résultats. Ce lien semble prometteur:

Mais cela ne vise pas les mots informatiques.

Autres conseils

Il est peut-être tard pour répondre à cette question, mais je peux vous proposer une méthode différente. Au lieu d’obtenir " nombre de résultats " de Google pour en calculer une approximation par vous-même. Obtenez une grande collection de pages de texte (Corpus) et comptez le nombre de chaque mot qu'il contient. Je l'ai fait avec le Wikipedia. Il y a un vidage de toutes les pages du wiki. Il vous suffit d'écrire un analyseur pour extraire du texte et compter les mots. Le résultat est une liste de plus de 110 000 mots (au moins 2 à 3 mois). Si vous avez vraiment besoin de chiffres dans les résultats de recherche Google, vous pouvez obtenir un échantillon de mots et interroger Google, puis normaliser les valeurs calculées pour les faire correspondre à celles de Google. J'espère que ça aide.

Selon Google, vous pouvez envoyer 50 000 requêtes par jour pour une adresse IP. Je ne pense pas vraiment qu'il soit illégal de le partager entre amis.

J'avais un problème similaire avec les requêtes par jour et par IP, mais nous l'avons résolu par une approche totalement différente.

Vous pouvez fractionner une liste entre vos amis / collègues et utiliser des délais suffisamment longs pour ne pas dépasser 50 000 demandes par jour et par IP, puis fusionner les résultats. Je ne suis pas sûr de la légalité de cette approche, mais de la probabilité que des personnes de Google "frappent à votre porte". en utilisant cette méthode est assez faible.

REMARQUE : modifié en fonction des données fournies par Skuta

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top