質問

delimittedまたは単に固定長レコード:

私たちは、フラット・ファイルとして大量のデータを受け取ります。これは、ファイルが実際に含まれているかを調べるために、時には難しいます。

先頭またはファイルが一目瞭然にするファイルの最後にファイルのスキーマを埋め込むための任意の十分に確立プラクティスはありますか?

ただ、このようなものを想像し、アイデアを得るために:

<data name=test records=2 type=fixed>
   <field name=foo start=0 length=2 type=numeric>
   <field name=bar start=2 length=4 type=text>
</data>
11test
12ing 

私たちは、初めにXMLを解析して、レコードを読み取るためにそれを使用することになります。

役に立ちましたか?

解決

これまでのところ、私は認識していないのだと - 。または少なくともない非常

私は(広く受け入れられている標準の面で)の承知している唯一のものは、列名であるために、データファイルの最初の行のためである - 少なくとも区切られたレコードのために、その困難特にあなたのデータがあれば、固定長のために(私は区切りをより固定長ではるかに可能性があることがわかってきました)複数のレコード・タイプを含めることができます。

私は、私はあなたが本当に私は彼らからだそう取得するための助けあなたがそうしても、あなたが行う場合は、外部ソースからデータを取得していると仮定しているファイルに定義を埋め込むことができないことをお勧めしたい座ってどこから

必要に応じて(たとえば)簡単にエクセルのファイルを開くことができないよう、すぐに課題を作成します。

あなたが横方向に少し可能性が考え - XMLを使用している場合は - 潜在的な定義(CDATAの大きな塊)にファイルを埋め込みます。これは、そのデータ自体が変更されることを求めていない外部データラッパのラウンドを置くなど、もう少し現実的な解決策です。わからないどのように実用的な、これがある - 。しかし、それは他の方法でラウンドよりも私にはより良い感じ。

他のヒント

私は、任意の確立実践について知らないが、単にデータにスキーマを付加するあなたのアイデアは罰金です。 Apacheのアブロは、プロトコルバッファとスリフトと同様のデータのシリアル化ツールです。私は典型的なアブロの使用量は(ストリームでそれを付加することで、私は推測すると思います)のデータとスキーマを保存する必要と考えています。

私はまた、 PADSプロジェクトを言及したかったです。彼らは、あなたが「アドホック」のデータフォーマットを記述できるように設計されたスキーマ言語を持っています。現在、私は、彼らが唯一の問題かもしれCとMLの実装を、持っていると信じています。それはまだ、独自のXMLベースのものの上にそれを使用して価値があるかもしれないので、一方、そのスキーマ言語は、さまざまな形式を扱うように設計されています。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top