: في العقدة التي تسبب keyerror في xmlparsing باستخدام ElementTree
-
23-09-2019 - |
سؤال
مرحبًا ، أنا أستخدم ElementTree لتحليل خلاصة XML من Kuler. أنا أبدأ فقط في بيثون ولكني عالق هنا. يعمل التحليل بشكل جيد حتى أحاول استرداد أي عقد تحتوي على ":" على سبيل المثال Kuler: SwatchHexColor
فيما يلي نسخة مقطوعة من التغذية الكاملة ولكن نفس الهيكل:
<rss xmlns:xs="http://www.w3.org/2001/XMLSchema" xmlns:kuler="http://kuler.adobe.com/kuler/API/rss/" xmlns:rss="http://blogs.law.harvard.edu/tech/rss" version="2.0">
<channel>
<title>kuler popular themes</title>
<item>
<title>Theme Title: Fresh Money</title>
<description>
<img src="http://kuler-api.adobe.com/kuler/themeImages/theme_808366.png" /><br />
Artist: thesylph005<br />
ThemeID: 808366<br />
Posted: 03/02/2010<br />
Hex:
2F400D, 8CBF26, A8CA65, E8E5B0, 419184
</description>
<kuler:themeItem>
<kuler:themeID>808366</kuler:themeID>
<kuler:themeTitle>Fresh Money</kuler:themeTitle>
<kuler:themeImage>http://kuler-api.adobe.com/kuler/themeImages/theme_808366.png</kuler:themeImage>
<kuler:themeAuthor>
<kuler:authorID>370750</kuler:authorID>
<kuler:authorLabel>thesylph005</kuler:authorLabel>
</kuler:themeAuthor>
<kuler:themeTags/>
<kuler:themeRating>4</kuler:themeRating>
<kuler:themeDownloadCount>708</kuler:themeDownloadCount>
<kuler:themeCreatedAt>20100302</kuler:themeCreatedAt>
<kuler:themeEditedAt>20100302</kuler:themeEditedAt>
<kuler:themeSwatches>
<kuler:swatch>
<kuler:swatchHexColor>2F400D</kuler:swatchHexColor>
<kuler:swatchColorMode>rgb</kuler:swatchColorMode>
<kuler:swatchChannel1>0.183333</kuler:swatchChannel1>
<kuler:swatchChannel2>0.25</kuler:swatchChannel2>
<kuler:swatchChannel3>0.05</kuler:swatchChannel3>
<kuler:swatchChannel4>0.0</kuler:swatchChannel4>
<kuler:swatchIndex>0</kuler:swatchIndex>
</kuler:swatch>
<kuler:swatch>
<kuler:swatchHexColor>8CBF26</kuler:swatchHexColor>
<kuler:swatchColorMode>rgb</kuler:swatchColorMode>
<kuler:swatchChannel1>0.55</kuler:swatchChannel1>
<kuler:swatchChannel2>0.75</kuler:swatchChannel2>
<kuler:swatchChannel3>0.15</kuler:swatchChannel3>
<kuler:swatchChannel4>0.0</kuler:swatchChannel4>
<kuler:swatchIndex>1</kuler:swatchIndex>
</kuler:swatch>
<kuler:swatch>
<kuler:swatchHexColor>A8CA65</kuler:swatchHexColor>
<kuler:swatchColorMode>rgb</kuler:swatchColorMode>
<kuler:swatchChannel1>0.659722</kuler:swatchChannel1>
<kuler:swatchChannel2>0.791667</kuler:swatchChannel2>
<kuler:swatchChannel3>0.395833</kuler:swatchChannel3>
<kuler:swatchChannel4>0.0</kuler:swatchChannel4>
<kuler:swatchIndex>2</kuler:swatchIndex>
</kuler:swatch>
<kuler:swatch>
<kuler:swatchHexColor>E8E5B0</kuler:swatchHexColor>
<kuler:swatchColorMode>rgb</kuler:swatchColorMode>
<kuler:swatchChannel1>0.91</kuler:swatchChannel1>
<kuler:swatchChannel2>0.898047</kuler:swatchChannel2>
<kuler:swatchChannel3>0.688705</kuler:swatchChannel3>
<kuler:swatchChannel4>0.0</kuler:swatchChannel4>
<kuler:swatchIndex>3</kuler:swatchIndex>
</kuler:swatch>
<kuler:swatch>
<kuler:swatchHexColor>419184</kuler:swatchHexColor>
<kuler:swatchColorMode>rgb</kuler:swatchColorMode>
<kuler:swatchChannel1>0.254901</kuler:swatchChannel1>
<kuler:swatchChannel2>0.57</kuler:swatchChannel2>
<kuler:swatchChannel3>0.519034</kuler:swatchChannel3>
<kuler:swatchChannel4>0.0</kuler:swatchChannel4>
<kuler:swatchIndex>4</kuler:swatchIndex>
</kuler:swatch>
</kuler:themeSwatches>
الثلاثاء ، 30 مارس 2010 11:27:12 PST
لذلك إذا قمت بعمل findall على وصف كل عنصر ، فأنا أحصل على ذلك بشكل جيد. لكن في اللحظة التي أحاول فيها استرداد أي شيء باستخدام: في اسم NodeName أحصل على نوع الاستثناء: keyerror استثناء القيمة: ":"
لذلك هذا يعمل
from elementtree.ElementTree import Element, SubElement, dump, parse
def xml():
kulerurl = 'http://kuler-api.adobe.com/rss/get.cfm?listType=popular&startIndex=0&itemsPerPage=5&timeSpan=30&key=mykey'
rss = parse(urllib.urlopen(kulerurl)).getroot()
for element in rss.findall('channel/item'):
print(element.findtext('description'))
dump (rss)
لكن هذا لا
def xml():
kulerurl = 'http://kuler-api.adobe.com/rss/get.cfm?listType=popular&startIndex=0&itemsPerPage=5&timeSpan=30&key=mykey'
rss = parse(urllib.urlopen(kulerurl)).getroot()
for element in rss.findall('channel/item/kuler:themeItem'):
print(element.findtext('kuler:themeID'))
dump (rss)
أنا متأكد من أنه شيء بسيط إذا تمكن أي شخص من توجيهني إلى ما أفعله خطأ هنا سأكون ممتنًا للغاية
شكرا كيران
المحلول
بناء على هذا مقالة - سلعة (والتعليقات على هذه المقالة) أعتقد أنه يتعين عليك استبدال اسم مساحة الاسم مع URI الفعلي (وإزالة القولون ووضعه في {}
):
namespace = 'http://kuler.adobe.com/kuler/API/rss/'
def xml():
kulerurl = 'http://kuler-api.adobe.com/rss/get.cfm?listType=popular&startIndex=0&itemsPerPage=5&timeSpan=30&key=mykey'
rss = parse(urllib.urlopen(kulerurl)).getroot()
for element in rss.findall('channel/item/{%s}themeItem' % namespace):
print(element.findtext('{%s}themeID' % namespace))
dump (rss)
مساحات أسماء XML
يمثل نوع العنصر زوجًا مؤهلاً للاسم ، يسمى أيضًا الاسم العالمي ، كسلسلة من النموذج "{uri} محلي". يمكن استخدام هذا الجملة على حد سواء لأسماء العلامات ومفاتيح السمات.
يمكنك أيضًا القراءة في هذا المقدمة كيف تعالج ElementTree مساحات الأسماء.