bit.lyのXML応答の解析

質問

私は短期化して働くためにそれを手に入れたためにbit.lyapiを試していました。XML文書をスクリプトに戻す。タグを抽出したいが、適切にそれを解析するように見えたくないように見えた。

askfor = urllib2.Request(full_url)
response = urllib2.urlopen(askfor)
the_page = response.read()

だから_pageにはXML文書が含まれています。私は試しました：

from xml.dom.minidom import parse
doc = parse(the_page)

エラーが発生します。私は何を間違っていますか？

解決

エラーメッセージを入力しないので、これが唯一のエラーであることを確認できません。ただし、xml.minidom.parseは文字列を取らない。DocString for parse：

ファイル名またはファイルオブジェクトによって、ファイルをDOMに解析します。

試してみるべきです：

response = urllib2.urlopen(askfor)
doc = parse(response)

responseはファイルオブジェクトのように動作します。あるいは、代わりにparseStringメソッドをminidomで使用することもできます（その後引数としてthe_pageを渡します）。

編集：URLを抽出するには、次のことが必要です。

url_nodes = doc.getElementsByTagName('url')
url = url_nodes[0]
print url.childNodes[0].data

getElementsByTagNameの結果は、一致するすべてのノードのリストです（この場合は1つだけ）。urlは、必要な子テキストノードを含み、必要な子テキストノードを含みます。

他のヒント

from xml.dom.minidom import parseString
doc = parseString(the_page)

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow