.NET XmlDocument:保存後にDOCTYPEが変更される理由
-
08-07-2019 - |
質問
.NET XmlReaderを使用してXMLファイルを開き、そのファイルを別のファイル名で保存していますが、DOCTYPE宣言が2つのファイル間で変更されているようです。新しく保存されたファイルはまだ有効なXMLですが、なぜ元のタグの変更を要求するのか疑問に思いました。
Dim oXmlSettings As Xml.XmlReaderSettings = New Xml.XmlReaderSettings()
oXmlSettings.XmlResolver = Nothing
oXmlSettings.CheckCharacters = False
oXmlSettings.ProhibitDtd = False
oXmlSettings.IgnoreWhitespace = True
Dim oXmlDoc As XmlReader = XmlReader.Create(pathToOriginalXml, oXmlSettings)
Dim oDoc As XmlDocument = New XmlDocument()
oDoc.Load(oXmlDoc)
oDoc.Save(pathToNewXml)
以下(元の文書内):
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML Basic 1.1//EN" "http://www.w3.org/TR/xhtml-basic/xhtml-basic11.dtd">
になります(末尾の[]文字に注意してください):
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML Basic 1.1//EN" "http://www.w3.org/TR/xhtml-basic/xhtml-basic11.dtd"[]>
解決
おそらく、ライブラリはDOCTYPE要素を内部構造に解析してから、構造をテキストに変換し直します。元の文字列形式は保存されません。
他のヒント
XmlDocument.XmlResolver = nullを設定すると、System.Xmlにバグがあります。回避策は、カスタムXmlTextWriterを作成することです:
private class NullSubsetXmlTextWriter : XmlTextWriter
{
public NullSubsetXmlTextWriter(String inputFileName, Encoding encoding)
: base(inputFileName, encoding)
{
}
public override void WriteDocType(string name, string pubid, string sysid, string subset)
{
if (subset == String.Empty)
{
subset = null;
}
base.WriteDocType(name, pubid, sysid, subset);
}
}
コードで、新しいNullSubsetXmlTextWriter(pathToNewXml、Encoding.UTF8)を作成し、そのオブジェクトをoDoc.Save()メソッドに渡します。
Microsoft回避策について読むことができるサポートケース(回避策については説明していますが、コードは提供していません)。
所属していません StackOverflow