質問

私は短期化して働くためにそれを手に入れたためにbit.lyapiを試していました。XML文書をスクリプトに戻す。タグを抽出したいが、適切にそれを解析するように見えたくないように見えた。

askfor = urllib2.Request(full_url)
response = urllib2.urlopen(askfor)
the_page = response.read()
.

だから_pageにはXML文書が含まれています。私は試しました:

from xml.dom.minidom import parse
doc = parse(the_page)
.

エラーが発生します。私は何を間違っていますか?

役に立ちましたか?

解決

エラーメッセージを入力しないので、これが唯一のエラーであることを確認できません。ただし、xml.minidom.parseは文字列を取らない。DocString for parse

ファイル名またはファイルオブジェクトによって、ファイルをDOMに解析します。

試してみるべきです:

response = urllib2.urlopen(askfor)
doc = parse(response)
.

responseはファイルオブジェクトのように動作します。あるいは、代わりにparseStringメソッドをminidomで使用することもできます(その後引数としてthe_pageを渡します)。

編集:URLを抽出するには、次のことが必要です。

url_nodes = doc.getElementsByTagName('url')
url = url_nodes[0]
print url.childNodes[0].data
.

getElementsByTagNameの結果は、一致するすべてのノードのリストです(この場合は1つだけ)。urlは、必要な子テキストノードを含み、必要な子テキストノードを含みます。

他のヒント

from xml.dom.minidom import parseString
doc = parseString(the_page)
.

xml.dom.minidom

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top