Remover cabeçalho xml duplicado
Pergunta
html Tidy dá isso como saída por algum motivo:
<?xml version="1.0" encoding="utf-16"?>
<?xml version="1.0" encoding="utf-16"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta name="generator" content=
"HTML Tidy for Linux/x86 (vers 11 February 2007), see www.w3.org" />
<meta name="vs_targetSchema" content="http://schemas.microsoft.com/intellisense/ie5" />
...rest of document
Portanto, há 2 cabeçalhos XML, e do tipo errado (não UTF-8). Existe uma maneira de remover o segundo cabeçalho, alterá-lo para UTF-8, e também remover o DOCTYPE com XSL?
Solução
Eu acho que seria melhor para corrigir o problema original. Você usa a biblioteca HTML Tidy?
Tente configurar saída de codificação para utf8 e adicionar-xml-decl como falsa. O nó DOCTYPE pode ser suprimida, definindo a propriedade doctype omitir.
Outras dicas
Sim. Criar um modelo que coincide com o primeiro elemento filho que você deseja aceitar e depois tê-lo apenas saída o conteúdo desse elemento.
Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow