質問
私は短期化して働くためにそれを手に入れたためにbit.lyapiを試していました。XML文書をスクリプトに戻す。タグを抽出したいが、適切にそれを解析するように見えたくないように見えた。
askfor = urllib2.Request(full_url)
response = urllib2.urlopen(askfor)
the_page = response.read()
.
だから_pageにはXML文書が含まれています。私は試しました:
from xml.dom.minidom import parse
doc = parse(the_page)
.
エラーが発生します。私は何を間違っていますか?
解決
エラーメッセージを入力しないので、これが唯一のエラーであることを確認できません。ただし、xml.minidom.parse
は文字列を取らない。DocString for parse
:
ファイル名またはファイルオブジェクトによって、ファイルをDOMに解析します。
試してみるべきです:
response = urllib2.urlopen(askfor)
doc = parse(response)
.
response
はファイルオブジェクトのように動作します。あるいは、代わりにparseString
メソッドをminidom
で使用することもできます(その後引数としてthe_page
を渡します)。
編集:URLを抽出するには、次のことが必要です。
url_nodes = doc.getElementsByTagName('url')
url = url_nodes[0]
print url.childNodes[0].data
.
getElementsByTagName
の結果は、一致するすべてのノードのリストです(この場合は1つだけ)。url
は、必要な子テキストノードを含み、必要な子テキストノードを含みます。
他のヒント
from xml.dom.minidom import parseString
doc = parseString(the_page)
.
。 所属していません StackOverflow