質問

私は(そして、それらのリンクからすべてのメールをつかむ、すべてのリンクをつかむ、ルートURLから)単純なWebスクレイパーを作成していた場合は、

HTMLの敏捷性パックを使用する価値があるだろうか?私は実際に私が単に文書全体内の電子メールをスキャンするために探しています、HTMLタグを通じて見ているわけではない。

これはHTMLの敏捷性パックを使用する方が効率的でしょうか?

私がこれらの電子メールを持っている必要があるので、私は厳密にそれらを除去していて、約100のリンクがあります。たったの約500の電子メールをこすり落とします。心配、私はここに心の中で倫理を保ちませんよ。

役に立ちましたか?

解決

。私が言う読んものの中で最も - - ウェブ廃棄のための正規表現を使用していない

このように、この程度に多くの質問があります

一方で - あなたが望むすべては関係なく、(私が正しくあなたを理解していればあなたが)テキストのHTMLの性質上のテキストの解析であれば、正規表現を使用する方が良いかもしれ

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top