Справка по регулярному выражению Ruby с использованием match для извлечения фрагментов html-документа
-
22-08-2019 - |
Вопрос
У меня есть HTML-документ такого формата:
<tr><td colspan="4"><span class="fullName">Bill Gussio</span></td></tr>
<tr>
<td class="sectionHeader">Contact</td>
<td class="sectionHeader">Phone</td>
<td class="sectionHeader">Home</td>
<td class="sectionHeader">Work</td>
</tr>
<tr valign="top">
<td class="sectionContent"><span>Screen Name:</span> <span>bhjiggy</span><br><span>Email 1:</span> <span>wmgussio@erols.com</span></td>
<td class="sectionContent"><span>Mobile: </span><span>2404173223</span></td>
<td class="sectionContent"><span>NY</span><br><span>New York</span><br><span>78642</span></td>
<td class="sectionContent"><span>MD</span><br><span>Owings Mills</span><br><span>21093</span></td>
</tr>
<tr><td colspan="4"><hr class="contactSeparator"></td></tr>
<tr><td colspan="4"><span class="fullName">Eddie Osefo</span></td></tr>
<tr>
<td class="sectionHeader">Contact</td>
<td class="sectionHeader">Phone</td>
<td class="sectionHeader">Home</td>
<td class="sectionHeader">Work</td>
</tr>
<tr valign="top">
<td class="sectionContent"><span>Screen Name:</span> <span>eddieOS</span><br><span>Email 1:</span> <span>osefo@wam.umd.edu</span></td>
<td class="sectionContent"></td>
<td class="sectionContent"><span></span></td>
<td class="sectionContent"><span></span></td>
</tr>
<tr><td colspan="4"><hr class="contactSeparator"></td></tr>
Таким образом, это чередуется - фрагмент контактной информации, а затем "разделитель контактов".Я хочу получить контактную информацию, поэтому мое первое препятствие - захватить фрагменты между разделителем контактов.Я уже разобрался с регулярным выражением, используя rubular.Это так:
/<tr><td colspan="4"><span class="fullName">((.|\s)*?)<hr class="contactSeparator">/
Вы можете проверить rubular, чтобы убедиться, что это изолирует фрагменты.
Однако моя большая проблема заключается в том, что у меня возникли проблемы с ruby-кодом.Я использую встроенную функцию сопоставления и делаю распечатки, но не получаю ожидаемых результатов.Вот этот код:
page = agent.get uri.to_s
chunks = page.body.match(/<tr><td colspan="4"><span class="fullName">((.|\s)*?)<hr class="contactSeparator">/).captures
chunks.each do |chunk|
puts "new chunk: " + chunk.inspect
end
Обратите внимание на эту страницу.body - это просто тело html-документа, захваченного Mechanize.HTML-документ намного больше, но имеет такой формат.Итак, неожиданный результат приведен ниже:
new chunk: "Bill Gussio</span></td></tr>\r\n\t<tr>\r\n\t\t<td class=\"sectionHeader\">Contact</td>\r\n\t\t<td class=\"sectionHeader\">Phone</td>\r\n\t\t<td class=\"sectionHeader\">Home</td>\r\n\t\t<td class=\"sectionHeader\">Work</td>\r\n\t</tr>\r\n\t<tr valign=\"top\">\r\n\t\t<td class=\"sectionContent\"><span>Screen Name:</span> <span>bhjiggy</span><br><span>Email 1:</span> <span>wmgussio@erols.com</span></td>\r\n\t\t<td class=\"sectionContent\"><span>Mobile: </span><span>2404173223</span></td>\r\n\t\t<td class=\"sectionContent\"><span>NY</span><br><span>New York</span><br><span>78642</span></td>\r\n\t\t<td class=\"sectionContent\"><span>MD</span><br><span>Owings Mills</span><br><span>21093</span></td>\r\n\t</tr>\r\n\t\r\n\t<tr><td colspan=\"4\">"
new chunk: ">"
Здесь для меня есть 2 сюрприза:
1) Нет 2 совпадений, которые содержат фрагменты контактной информации, хотя на rubular я подтвердил, что эти фрагменты должны быть извлечены.
2) Все \ r \ n \ t (переводы строк, вкладки и т.д.) Отображаются в совпадениях.
Кто-нибудь может увидеть здесь проблему?
В качестве альтернативы, если кто-нибудь знает хорошего бесплатного импортера контактов AOL, это было бы здорово.Я использую blackbook, но в AOL у меня постоянно что-то не получается, и я пытаюсь это исправить.К сожалению, у AOL пока нет contacts API.
Спасибо!
Решение 4
Это код, который анализирует этот HTML-код.Не стесняйтесь предложить что-нибудь получше:
contacts = []
email, mobile = "",""
names = page.search("//span[@class='fullName']")
# Every contact has a fullName node, so for each fullName node, we grab the chunk of contact info
names.each do |n|
# next_sibling.next_sibling skips:
# <tr>
# <td class=\"sectionHeader\">Contact</td>
# <td class=\"sectionHeader\">Phone</td>
# <td class=\"sectionHeader\">Home</td>
# <td class=\"sectionHeader\">Work</td>
# </tr>
# to give us the actual chunk of contact information
# then taking the children of that chunk gives us rows of contact info
contact_info_rows = n.parent.parent.next_sibling.next_sibling.children
# Iterate through the rows of contact info
contact_info_rows.each do |row|
# Iterate through the contact info in each row
row.children.each do |info|
# Get Email. There are two ".next_siblings" because space after "Email 1" element is processed as a sibling
if info.content.strip == "Email 1:" then email = info.next_sibling.next_sibling.content.strip end
# If the contact info has a screen name but no email, use screenname@aol.com
if (info.content.strip == "Screen Name:" && email == "") then email = info.next_sibling.next_sibling.content.strip + "@aol.com" end
# Get Mobile #'s
if info.content.strip == "Mobile:" then mobile = info.next_sibling.content.strip end
# Maybe we can try and get zips later. Right now the zip field can look like the street address field
# so we can not tell the difference. There is no label node
#zip_match = /\A\D*(\d{5})-?\d{4}\D*\z/i.match(info.content.strip)
#zip_match = /\A\D*(\d{5})[^\d-]*\z/i.match(info.content.strip)
end
end
contacts << { :name => n.content, :email => email, :mobile => mobile }
# clear variables
email, mobile = "", ""
end
Другие советы
Видишь Можете ли вы привести несколько примеров того, почему трудно анализировать XML и HTML с помощью регулярного выражения? о том, почему это плохая идея.Используйте Анализатор HTML вместо этого.
Если вы просто извлекаете информацию из XML, возможно, было бы проще использовать что-то другое, чем регулярные выражения.XPath - хороший инструмент для извлечения информации из XML.Я полагаю, что для Ruby доступны некоторые библиотеки, которые поддерживают XPath, возможно, попробуйте REXML:
Использование HTML-парсера, такого как hpricot, избавит вас от множества головных болей :)
sudo gem установить hpricot
В основном он написан на C, так что работает быстро
Вот как это использовать: