Вопрос

Мне нужно взять веб-страницу и извлечь информацию об адресе со страницы.Некоторые из них проще, чем другие.Я ищу плагин для Firefox, приложение для Windows или VB.NET код, который поможет мне это сделать.

В идеале я хотел бы иметь веб-страницу у нашего администратора (ASP.NET/VB.NET), где вы вводите URL-адрес, и он удаляет страницу и возвращает набор данных, который я могу поместить в сетку.

Это было полезно?

Решение

Если вы знаете формат страницы (например, если все они похожи на эту ashnha.com страницу), то написать VB.NET код, который делает это, довольно легко:

  1. Создать System.Net.Веб-запрос и преобразуйте ответ в строку.
  2. Затем создайте System.Text.Регулярные выражения.Регулярное выражение и выполните итерацию по коллекции Совпадений между этим и строкой , которую вы только что извлекли.Для каждого совпадения создайте новую строку в таблице данных.

Самое сложное - это написать регулярное выражение, которое является чем-то вроде черного искусства.Видишь regexlib.com для множества инструментов, книг и т.д. О регулярных выражениях.

Если формат HTML недостаточно четко определен для регулярного выражения, то вам, вероятно, придется полагаться на некоторое вмешательство пользователя, чтобы определить, какие биты являются адресами...

Другие советы

Какой тип адресной информации вы имеете в виду?

Есть пара плагинов для FireFox Оператор & Хвосты которые позволяют вам извлекать и просматривать микроформаты с веб-страниц.

Аза Раскин рассказывал о распознавании, когда выделенный текст является адресом в его Предложение Firefox:Лучший Новый экран Вкладки.Кода пока нет, но я упоминаю об этом, поскольку в firefox может быть код для этого в будущем.

В качестве альтернативы, вы могли бы рассмотреть возможность использования команда map в повсеместности, хотя вам пришлось бы выбирать адреса самостоятельно.

Для общей очистки HTML-экрана в VB.NET ознакомьтесь с HTML-пакет Гибкости.Намного проще, чем пытаться регулярно выражать это (если только вы уже не ниндзя регулярных выражений!)

Страницу, которую вы упомянули в своем ответе, было бы легко автоматизировать, поскольку адреса представлены в согласованном формате.

Но разрешить пользователям указывать на любую страницу - это гораздо более сложная работа.Данные могут быть вообще в любом формате.Вы могли бы написать что-нибудь, чтобы вывести весь текст, угадать, как они разделены, попытаться распознать такие фрагменты, как названия стран и штатов, номера телефонов и т.д., И получить затем показать свои результаты с интерфейсом, который позволит пользователям заполнять недостающие разделы, перемещать разделители и определять биты, которые вы пропустили или которые им не нужны.

Однако это непросто, и создание интерфейса, который обеспечивает большое преимущество по сравнению с простым вырезанием и вставкой в проверенные поля формы, было бы, я думаю, настоящим достижением - мне было бы интересно узнать, как у вас дела!

Редактировать:Только что заметил этот другой вопрос, который может охватывать совсем немного из того, что вы хотите сделать:Проанализируйте полезный уличный адрес, Город, штат, почтовый индекс из строки

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top