Доступ к атрибуту XMLNS с Python Elementree?
-
21-09-2019 - |
Вопрос
Как можно получить доступ к атрибутам NS с помощью elementTree?
Со следующим:
<data xmlns="http://www.foo.net/a" xmlns:a="http://www.foo.net/a" book="1" category="ABS" date="2009-12-22">
Когда я пытаюсь root.get ('xmlns'), я не получаю нет, категория и дата - это хорошо, любая помощь оценена ..
Нет правильного решения
Другие советы
Я думаю element.tag
Это то, что вы ищете. Обратите внимание, что в вашем примере не хватает следа, поэтому он не сбалансирован и не будет проанализировать. Я добавил один в своем примере.
>>> from xml.etree import ElementTree as ET
>>> data = '''<data xmlns="http://www.foo.net/a"
... xmlns:a="http://www.foo.net/a"
... book="1" category="ABS" date="2009-12-22"/>'''
>>> element = ET.fromstring(data)
>>> element
<Element {http://www.foo.net/a}data at 1013b74d0>
>>> element.tag
'{http://www.foo.net/a}data'
>>> element.attrib
{'category': 'ABS', 'date': '2009-12-22', 'book': '1'}
Если вы просто хотите узнать URI XMLNS, вы можете разделить его с такой функцией, как:
def tag_uri_and_name(elem):
if elem.tag[0] == "{":
uri, ignore, tag = elem.tag[1:].partition("}")
else:
uri = None
tag = elem.tag
return uri, tag
Гораздо больше на пространствах имен и квалифицированных именах в ElementTree, см. Примеры Эффбота.
Посмотрите на документацию/примеры effbot -namespaces; в частности parse_map функция Он показывает вам, как добавить атрибут * ns_map * к каждому элементу, который содержит картирование префикса/URI, которое применимо к этому конкретному элементу.
Однако это добавляет атрибут NS_MAP ко всем элементам. Для моих потребностей я обнаружил, что хочу глобальную карту всех пространств имен, используемых для облегчения, а не в жесткой кодировке.
Вот что я придумал:
import elementtree.ElementTree as ET
def parse_and_get_ns(file):
events = "start", "start-ns"
root = None
ns = {}
for event, elem in ET.iterparse(file, events):
if event == "start-ns":
if elem[0] in ns and ns[elem[0]] != elem[1]:
# NOTE: It is perfectly valid to have the same prefix refer
# to different URI namespaces in different parts of the
# document. This exception serves as a reminder that this
# solution is not robust. Use at your own peril.
raise KeyError("Duplicate prefix with different URI found.")
ns[elem[0]] = "{%s}" % elem[1]
elif event == "start":
if root is None:
root = elem
return ET.ElementTree(root), ns
С этим вы можете проанализировать XML -файл и получить DICT с помощью отображений пространства имен. Итак, если у вас есть XML -файл, как следующее ("my.xml"):
<?xml version="1.0" encoding="UTF-8" ?>
<rss version="2.0"
xmlns:content="http://purl.org/rss/1.0/modules/content/"
xmlns:dc="http://purl.org/dc/elements/1.1/"\
>
<feed>
<item>
<title>Foo</title>
<dc:creator>Joe McGroin</dc:creator>
<description>etc...</description>
</item>
</feed>
</rss>
Вы сможете использовать XML -имени и получить информацию для таких элементов, как DC: Создатель:
>>> tree, ns = parse_and_get_ns("my.xml")
>>> ns
{u'content': '{http://purl.org/rss/1.0/modules/content/}',
u'dc': '{http://purl.org/dc/elements/1.1/}'}
>>> item = tree.find("/feed/item")
>>> item.findtext(ns['dc']+"creator")
'Joe McGroin'
Попробуй это:
import xml.etree.ElementTree as ET
import re
import sys
with open(sys.argv[1]) as f:
root = ET.fromstring(f.read())
xmlns = ''
m = re.search('{.*}', root.tag)
if m:
xmlns = m.group(0)
print(root.find(xmlns + 'the_tag_you_want').text)