robots.txtによってブロックされたインターネットページが見つかりません[終了]
-
06-07-2019 - |
質問
問題: Uniの数学の講義の解答と演習を見つけます。ヘルシンキ
実際的な問題
- .comでrobots.txtに
Disallow
を含むサイトのリストを作成する - *。pdfのファイルを含む(1)のサイトのリストを作成する
- 「analyysi」という単語を含む(2)のサイトのリストを作成します。 PDFファイルで
実際の問題に対する提案
- 問題3: pdfファイルからデータをスクレイピングするコンパイラーを作成する
質問
- 登録されている.comサイトを検索するにはどうすればよいですか
- 実際的な問題をどのように解決しますか1& 2 PythonのdefaultdictとBeautifulSoapによって?
解決
質問に誤りがあります。
(2)に関しては、WebサーバーですべてのPDFファイルを見つけることができるという誤った仮定を立てています。これは複数の理由により不可能です。最初の理由は、すべてのドキュメントが参照されるわけではないということです。 2番目の理由は、それらが参照されていても、参照自体が見えない可能性があるためです。最後に、オンザフライで生成されるPDFリソースがあります。それはあなたがそれらを要求するまでそれらが存在しないことを意味します。そして、それらはあなたの入力に依存するので、それらは無限にあります。
質問3は、ほぼ同じ理由で欠陥があります。特に、生成されたPDFには「analyysi」という単語が含まれる場合があります。クエリで使用した場合のみ。例えば。 http://example.com/makePDF.cgi?analyysi
他のヒント
" Analyysi"という単語を含むpdfファイルがあるインターネット上のすべてのWebサイトを見つけようとしています。
質問への回答ではありませんが、サイトの所有者がインデックスに登録したくないという希望を尊重してください。
要件を理解した場合、どのサイトが基準に一致するかを確認するために、考えられるすべてのサイトを本質的に調査する必要があります。使用するツールに関係なく、より高速または効率的なソリューションは見当たりません。
私があなたを正しく理解しているなら、すでに述べたように、インターネット全体をスキャンせずにこれがどのように可能かわかりません。 Googleにないインターネット上のページを探していますか?ネット上のすべてのサイトのデータベースがあり、それらが検索エンジンによってインデックス付けされているかどうか...
文字通り、ウェブ全体のインデックスを作成し、各サイトにアクセスして、それらがグーグル上にあるかどうかを確認する必要があります。
あなたの質問が両方の間で切り替わるように見えるので、これが1つのサイトまたはWebに関連する場合、私も混乱しています。
大学のイントラネットのWebページで講義を行い、大学のイントラネットの外部からこのページにアクセスできるようにしたいということですか?
Uniのイントラネットにアクセスするにはパスワードを入力する必要があり、GoogleはUniのイントラネットページのインデックスを作成しないと想定しています。これはイントラネットの性質です。
上記の仮定がすべて正しい場合は、大学のイントラネット外のWebサイトでPDFファイルをホストするだけです。最も簡単な方法は、ブログを開始し(費用がかからず、非常に簡単かつ迅速に)、そこにpdfファイルを投稿することです。
Googleはページのインデックスを作成し、「データのスクレイピング」も行います。あなたのPDFからそれを置くように、それはあなたのPDFファイル内のテキストが検索可能であることを意味します。