質問

次のXMLコードを解析したいです。

(cxml:parse "<BEGIN><URL>www.some.de/url?some=data&bad=stuff</URL></BEGIN>" (stp:make-builder))
.

この結果は

 #<CXML:WELL-FORMEDNESS-VIOLATION "~A" {1003C5E163}>
.

'&'としてXML特殊文字です。しかし、代わりに&amp;?を使用した場合、結果は次のとおりです。

(cxml:parse "<BEGIN><URL>www.some.de/url?some=data&amp;bad=stuff</URL></BEGIN>" (stp:make-builder))
=>#.(CXML-STP-IMPL::DOCUMENT
   :CHILDREN '(#.(CXML-STP:ELEMENT
                  #| :PARENT of type DOCUMENT |#
                  :CHILDREN '(#.(CXML-STP:ELEMENT
                                 #| :PARENT of type ELEMENT |#
                                 :CHILDREN '(#.(CXML-STP:TEXT
                                                #| :PARENT of type ELEMENT |#
                                                :DATA "www.some.de/url?some=data")
                                             #.(CXML-STP:TEXT
                                                #| :PARENT of type ELEMENT |#
                                                :DATA "&")
                                             #.(CXML-STP:TEXT
                                                #| :PARENT of type ELEMENT |#
                                                :DATA "bad=stuff"))
                                 :LOCAL-NAME "URL"))
                  :LOCAL-NAME "BEGIN")))
.

データ "www.some.de/url?some=data& bad=stuff" を持つCXML-STP:テキスト子が1つだけ存在する必要があると予想されるものではありません。

どうすればこの間違った(?)動作を解決できますか?

役に立ちましたか?

解決

この現象は、実際には他の多くのXMLパーサーでも存在します。おそらく、任意のXMLエンティティを解析し、それらにユーザー定義のルールを適用することができるという理由があります。しかし、それはパーサの実装の単なる副産物であるかもしれません。私はまだ見つけることができませんでした。

パーサーのSAXバリアントは、次のアプローチになりました:

(defclass my-sax (sax:sax-parser-mixin)
  ((title :accessor title :initform nil)
   (tag :accessor tag :initform nil)
   (text :accessor text :initform "")))

(defmethod sax:start-element ((sax my-sax) namespace-uri local-name
                              qname attributes)
  (with-slots (tag tagcount text) sax
              (setf tag local-name
                    text "")))

(defmethod sax:characters ((sax my-sax) data)
  (with-slots (title tag text) sax
    (switch (tag :test 'string=)
      ("text"  (setf text (conatenate 'string text data)))
      ("title" (setf title data)))))

(defmethod sax:end-element ((sax my-sax) namespace-uri local-name qname)
  (with-slots (title tag text) sax
    (when (string= "text" local-name)
      ;; process (text sax)
    )))
.

すき。sax:charactersでテキストを収集し、それをsax:end-elementに処理します。STPでは、おそらく隣接するtext要素を連結するだけでさらに簡単に逃げることができます。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top