Perl XML :: DOMモジュールを使用したパーサーエラー、「無効な文字番号への参照」

StackOverflow https://stackoverflow.com/questions/1223391

  •  11-07-2019
  •  | 
  •  

質問

私は完全なPerl初心者ですが、awkでXMLを解析する方法を理解するよりもPerlを学ぶ方が簡単だと確信しています。このデータセットから.sgmファイルを解析したい:

http://kdd.ics.uci.edu/databases/reuters21578/ reuters21578.html

これは、10年前のnewswireからの20,000件のロイター記事のコレクションであり、特定の種類のテキスト処理用の標準テストセットです。 perlテストを簡素化するために、最初のファイルから最初の数百行を取得し、スクリプトが正しく機能するまでtest.sgmを作成しました。次のように始まります:

<!DOCTYPE lewis SYSTEM "lewis.dtd">
<REUTERS TOPICS="YES" LEWISSPLIT="TRAIN" CGISPLIT="TRAINING-SET" OLDID="5544" NEWID="1">
<DATE>26-FEB-1987 15:01:01.79</DATE>
<TOPICS><D>cocoa</D></TOPICS>
<PLACES><D>el-salvador</D><D>usa</D><D>uruguay</D></PLACES>
<PEOPLE></PEOPLE>
<ORGS></ORGS>
<EXCHANGES></EXCHANGES>
<COMPANIES></COMPANIES>
<UNKNOWN> 
&#5;&#5;&#5;C T
&#22;&#22;&#1;f0704&#31;reute
u f BC-BAHIA-COCOA-REVIEW   02-26 0105</UNKNOWN>
<TEXT>&#2;
<TITLE>BAHIA COCOA REVIEW</TITLE>
<DATELINE>    SALVADOR, Feb 26 - </DATELINE><BODY>Showers continued throughout the week in
the Bahia cocoa zone, alleviating the drought since early
January and improving prospects for the coming temporao,...

http:// wwwのperlスクリプトを使用しました。 xml.com/pub/a/2001/05/16/perlxml.html を例として、最終的にはextract.pl:

use XML::DOM;

my $file = $ARGV[0];

my $parser = XML::DOM::Parser->new();
my $doc = $parser->parsefile($file);

#print $doc->getElementsByTagName('DATE');

print "\n";

そして私はこの出力を得ます:

> perl extract.pl test.sgm

reference to invalid character number at line 11, column 0, byte 343 at /usr/lib64/perl5/vendor_perl/5.8.5/x86_64-linux-thread-multi/XML/Parser.pm line 187
>

Googleは役に立たず(トップヒットは私と同じエラーが発生しているページのようです)、私のPerlハッカーの友人はまだベガスのBlackhatから二日酔いしています。私が間違っていること、またはファイルをきれいにする方法はありますか?その&quot; Unknown&quot;の内部で悪が起こっていると思います。タグは必要ありません。私は本当にすべての記事からテキストを抽出したいだけです。さらに情報が必要な場合はお知らせください。

役に立ちましたか?

解決

数字参照&quot;&amp;#5;&quot;有効なXMLドキュメントでは無効です。 XMLのセクション 4.1文字とエンティティの参照を参照します。推奨事項:

  

文字参照を使用して参照される文字は、Charのプロダクションと一致しなければなりません。

リンクをたどって < Char

  

Char :: =#x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]

文字通りにも、有効なXMLドキュメント内の数字参照としても表示できない文字があることがわかります。

奇妙なこと;今日、XMLについて何かを学びました:)。

XMLのASCII制御文字でこの会話を参照してください考えられる回避策。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top