Пакет гибкости HTML против регулярных выражений

StackOverflow https://stackoverflow.com/questions/2237168

  •  19-09-2019
  •  | 
  •  

Вопрос

Если я создаю простой веб-скребок (из корневого URL-адреса захватываю все ссылки, а затем по этим ссылкам захватываю все электронные письма), стоит ли использовать HTML Agility Pack?На самом деле я не просматриваю HTML-теги, я просто сканирую электронные письма во всем документе.

Было бы более эффективно использовать пакет гибкости HTML?

Я удаляю их строго потому, что у меня есть эти письма, и там около 100 ссылок.Только около 500 электронных писем будут очищены.Не волнуйтесь, я имею в виду этику.

Это было полезно?

Решение

По этому поводу есть много вопросов по SO - большинство из тех, что я читал, говорят - не используйте регулярные выражения для очистки веб-страниц.

С другой стороны, если все, что вам нужно, это синтаксический анализ текста, независимо от HTML-характера текста (что вы и делаете, если я вас правильно понимаю), возможно, лучше использовать регулярные выражения.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top