Pergunta

Estou lendo documentos grandes do qual eu só precisa top 5%, eu posso fazer o seguinte com HttpClient 4?

  1. Solicitar a página (get ou post)
  2. resposta Leia como um fluxo
  3. alimentá-lo em analisador de HTML baseado em SAX "on the fly"
  4. Quando determinada tag HTML é detectado - rescindir o fluxo

Por favor note que HttpClient v 4 é necessária -.. Eu não posso usar v 3

Foi útil?

Solução

Graças a Ken de HttpClient lista de correio aqui está a resposta

Use o HttpEntity # getContent () método, que retorna um
java.io.InputStream, e passar isso para o analisador HTML baseada em SAX.

http://hc.apache.org/httpcomponents -client / tutorial / html / fundamentals.html # d4e122

Quando você vê o tag que você precisa, terminar o pedido através invocando o HttpUriRequest # abort () método.

http://hc.apache.org/httpcomponents -client / tutorial / html / fundamentals.html # d4e285

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top