xmlpullparser를 사용하여 HTML과 유사한 문서를 구문 분석하시겠습니까?

StackOverflow https://stackoverflow.com/questions/1844560

  •  12-09-2019
  •  | 
  •  

문제

그래서 다음과 같은 중첩된 태그가 포함된 보기 흉한 파일을 구문 분석해야 합니다.

<p>blah<strong>lah</strong>blah</p>

중첩된 태그가 정의되어 있으므로 신경 쓰지 않습니다.그러나 XmlPullParser가 실패하게 만듭니다.

XmlPullParser parser = XmlPullParserFactory.newInstance().newPullParser();
parser.setInput(some_reader);
while (parser.next() != XmlPullParser.END_DOCUMENT) {
    if (XmlPullParser.START_TAG == event) {
        String tag = parser.getName();
        if (tag != null) {
            tag = tag.toLowerCase();
        } else {
            continue;
        }
       if ("p".equals(tag)) {
           String text = parser.nextText();
           // and here we go
           // org.xmlpull.v1.XmlPullParserException: expected: /p read: strong
        }
    }
}

질문:불필요한 태그를 모두 제거하거나 타사 라이브러리를 사용하여 파일을 전처리하지 않고 벗어날 수 있을까요?

편집하다:실제로 의미가 있도록 스니펫을 업데이트했습니다.

도움이 되었습니까?

해결책

그래서 XMLPullParser를 제거하고 SAXParser로 전환했습니다.게다가, 성능이 더 좋아.

다른 팁

package com.xml;
import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;
import android.util.Log;

public class FeedHandler extends DefaultHandler {

    StringBuilder sb = null;
    String ret = "";
    boolean bStore = false;
    int howMany = 0;

    FeedHandler() {   }

    String getResults()
    {
        return "XML parsed data.\nThere are [" + howMany + "] status updates\n\n" + ret;
    }
    @Override
    public void startDocument() throws SAXException 
    {
        // initialize "list"
    }

    @Override
    public void endDocument() throws SAXException
    {

    }

    @Override
    public void startElement(String namespaceURI, String localName, String qName, Attributes atts) throws SAXException {

        try {
            if (localName.equals("status"))
            {
                this.sb = new StringBuilder("");
                bStore = true;
            }
            if (localName.equals("user")) 
            {
                bStore = false;
            }
            if (localName.equals("text")) 
            {
                this.sb = new StringBuilder("");
            }
            if (localName.equals("created_at")) 
            {
                this.sb = new StringBuilder("");
            }
        } catch (Exception e) 
        {

            Log.d("error in startElement", e.getStackTrace().toString());
        }
    }
    @Override

    public void endElement(String namespaceURI, String localName, String qName) throws SAXException 
    {

        if (bStore) 
        {
            if (localName.equals("created_at"))
            {
                ret += "Date: " + sb.toString() + "\n"; 
                sb = new StringBuilder("");
                return;

            }

            if (localName.equals("user"))
            {
                bStore = true;
            }

            if (localName.equals("text")) 
            {

                ret += "Post: " + sb.toString() + "\n\n";
                sb = new StringBuilder("");
                return;

            }


        }
        if (localName.equals("status"))
        {
            howMany++;
            bStore = false;
        }
    }
    @Override

    public void characters(char ch[], int start, int length)
    {

        if (bStore) 
        {
            String theString = new String(ch, start, length);

            this.sb.append(theString);
        }
    }

}

그리고 이것은 Activity를 확장하는 내 xmlActivity 클래스입니다.

            InputSource is = new InputSource(getResources().openRawResource(R.raw.my));
            System.out.println("running xml file..... ");
        // create the factory
        SAXParserFactory factory = SAXParserFactory.newInstance();

        // create a parser
        SAXParser parser = factory.newSAXParser();

        // create the reader (scanner)
        XMLReader xmlreader = parser.getXMLReader();

        // instantiate our handler
        FeedHandler fh = new FeedHandler();

        // assign our handler
        xmlreader.setContentHandler(fh);

        // perform the synchronous parse
        xmlreader.parse(is);

        // should be done... let's display our results
        tvData.setText(fh.getResults());
라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top