URL検索サービスのベストプラクティスですか?攻撃ベクトルにならないようにする方法
質問
URLを指定すると、テキストを取得し、ユーザーにコンテンツに関する統計情報を提供するWebツールをいじっています。
ユーザーが私のボックスからネット上の任意のURLへのGETリクエストを開始する方法を提供することは、攻撃のベクトルとして機能するかもしれないと心配です(例: http://undefended.box/broken- sw / admin?do_something_bad
)。
このリスクを最小限に抑える方法はありますか?パブリックURL取得機能を提供する際のベストプラクティスはありますか?
考えたことのあるアイデア:
- honoring
robots.txt
- 特定のURLパターンのみを承認または拒否する
- 適切なサイトのブラックリスト/ホワイトリストを確認する(そのようなものが存在する場合)
- よく知られているサードパーティのパブリックWebプロキシを介して作業します。これらのセーフガードが既に組み込まれていることを前提に
ご協力ありがとうございます。
編集:リンクされたスクリプト、画像などをダウンロードまたは評価することなく、HTMLまたはテキストコンテンツのみを評価します。HTMLの場合、HTMLパーサーを使用します。
解決
ドキュメント内のテキストについての統計はのみですか? HTMLパーサーを使用して評価しますか?
分析するのがテキストのみである場合、つまり、さらにリンクをダウンロードしたり、スクリプトを評価したりしない場合、リスクはそれほど深刻ではありません。
おそらく、ダウンロードした各ファイルをアンチウィルスプログラムに通しても問題はありません。また、GETを特定のコンテンツタイプに制限する必要があります(つまり、バイナリをダウンロードしないでください。何らかのテキストエンコーディングであることを確認してください)。
所属していません StackOverflow