ある相関のzip圧縮率及び密度からご提供頂いた個人情報は、テキストを使うことができます。

cs.stackexchange https://cs.stackexchange.com/questions/14150

質問

と思う私の質問を用い、直感的な極端な例:

において、圧縮比(zip圧縮)の児童書による新規記述のための大人?

を読んでどこかが具体的には、圧縮率はzip圧縮ができる指標の情報として解釈による人間)に含まれる。んでいるのがこの記事なものです。

いよい。もちろん無圧縮アルゴリズムを把握することができるの意味の言葉です。このようzip圧縮比を反映して適用される場合に、テキストを使うことができます。はそれだけでシンボルパターンのような言葉は繰り返しが占める割合が非常に高いので基本的にこれだけの語彙?

更新:

別の言い方を私が疑問に思うのがあるかどうか相関関係を超えて繰り返し言葉の制限をお話します。


Tangentially関連:

関係の語順や圧縮率など、学位の構造

役に立ちましたか?

解決

シャノンズ ノイレスコーディング定理 最適に圧縮されたデータストリームのサイズが、そのデータストリームの情報の量と同等であるという正式な声明です。

ただし、「情報の量」の定義は、データストリームの確率モデルに依存することも正しいです。圧縮を開始する前に正しい文字の確率がある場合は ハフマンコーディング 最適な一定の要因内に入り、 算術コーディング 最適にさらに近づきます。しかし、隣接するシンボル(実際の人間が制作したテキストにある)の間に相関がある場合、文字のペアのコードを選択することで、より良いことができます。そして、あなたがトリプルなどを見るなら、あなたはさらにうまくやることができます。さらに、通常、開始時にデータストリームの非常に優れた確率モデルを持っていないため、確率テーブルを適応的に構築し、さらに学習すると確率に応じて可変長記号を割り当てる必要があります。

で使用される圧縮の種類 zip/gzip, 圧縮, 、 と 7-zip すべてのバリエーションです lempel-zivコーディング. 。 Lempel-ZIVコーディングは適応性があり、さまざまな長さの文字のチャンクにわたって確率テーブルを構築し、無限のランダムストリームを与えられたという意味で最適です。 エルゴディック (確率は時間の経過とともに安定しています) 限界で, 、任意の距離にわたって相関関係を考慮したテーブルを適応的に見つけ、そのテーブルを使用して、最適にコード化されたストリームを作成します。

もちろん、大人向けの子供向けの本も小説も、無限に長いエルゴードなランダムプロセスではありません(一部はそれらのように見えるかもしれませんが)、定理の条件は保持されません。

Jacob Zivとの興味深いインタビューは、Lempel-Zivコーディングの普遍性について少し話しています。http://www.ieeeghn.org/wiki/index.php/oral-history:jacob_ziv#lempel-ziv_algorithm.2c_viterbi_algorithm.2c_and_ziv-zakai_bound.

他のヒント

これは非常に可能性が高いと思います。子どもの文学のかなり大きなサンプルと、成人文学の同様のサイズの(キャラクター)サンプルを撮影するとします。大人の文献にはより多様な言葉があり、これらの言葉は子供の文学で使用されている言葉よりも珍しい二重母音に依存している可能性があると疑うのは完全に合理的であると思われます。これはさらに、子どもの文学が大人の文献よりも白い宇宙とおそらく句読点があることを暗示しているかもしれません。まとめると、これは成人の文献と比較して5〜10文字のスケールで子供の文献がはるかに均質であることを示しているようです。子どものテキストを大人の文学よりも効率的に圧縮できるはずです。

もちろん、これは子供の文学と見なされるものと成人文学と見なされるものについていくつかの仮定をします。たとえば、「ガリバーの旅行」を何だと思いますか?上記の私の議論は、明らかに大人向けの幼い子供や本のための本を検討していると仮定しています。たとえば、「おやすみ、月」と「1984」と比較してください。

圧縮率とライティングレベルの直接的な接続については知りません。しかし、それは論理のようです。

zippingデータを使用してテキスト(またはDNA、言語)間の相対距離を見つけるための素晴らしい提案があります:Cilibrasi、R。 -Vitányi、PMB Clustering by Compression 2005 -IEEE Transactions on Information Theory、51、p.1523–1545。

"圧縮データファイルの長さ(単独およびペアワイズ連結)から計算された、パラメーターフリー、ユニバーサル、普遍的な類似性距離、正規化された圧縮距離またはNCDを決定します。"

各文字はバイナリ表現(ASCII値に基づく)と相関しています。例では、データの量は大人の本対子供向けの本のより大きな圧縮ファイルになりますが、圧縮のデータの密度はバイナリで同等です。これは、たとえば0110と0010を比較することによって実証されています。圧縮はデータの解釈によって影響を受けませんが、文字列自体がより多くの文字を組み込んでいるため、より長いASCII値を組み込んでいるという事実によって、オクテットの数を決定するため、圧縮フォルダーのサイズ。

私が数年前にアルゴリズム形式で開発した頻度分布は、文字の範囲とそれらに起因する相関値を考慮して、文字の範囲とそれらの相関値を検出する確率のベイジアン推論エンジンとして表されます。

2010年のオーガスタナの年次シンポジウムでこれについて講演しました。

http://youtu.be/bpdqjbsw0_w

このビデオでは、文字の特徴に数値を割り当てることによって認識された関連文字のペアリングのコンテキスト内で、自然言語パーサーが機能検出でどのように動作するかについて説明します。

私のデータの分析は、はい、単語、フレーズ、文の関連文字間の関係を正式化し、特定の文字の要素の分解に基づいてシステムに実装できることを示しています。

相関は、次のような文字の要素の分解と組み合わせたシステムでプログラムされた辞書に基づいています。

対角線のラインは各対角線で0.5、水平線の値は1、垂直線は(1.5)、半円の値は2、完全な円の値は3の値です。次に、これらの値が追加され、単語の関連文字の結果と比較され、ベイジアン推論エンジンに入力され、最終的に特定のしきい値に到達して受け入れた状態を可能にします。

どんなに勉強したこの特定の問題の答えが可能で純粋な理論的根拠...しかしアトラクションは時代とともできると

  • 妙なものになテキストを圧縮しようの圧縮率な面では絶対の長さはもちろん]な場合は大人も子供も。(点で既に申し上げたように、ピーター-ショメです。)
  • でも最高のLZに基づいたテキスト圧縮アルゴリズムによる実際の言葉とは異なり、実行にはzipを取得し殴打され株式bzip2テキスト圧縮率bzip2はもう"非常にダム""実際に非常にスマート]で[可逆的]を奪テキストをgibberish stingsも多くの繰り返し文;この 巣穴に注輪換.いることを期待の周波数の言葉の問題になっbzip2-スタイルの圧縮もに、やむを得ない事由により字周波数思;で力が低下していく傾向がありguesstimateの違いはある後者の間に子どもや大人の文学、思いは大きく異なる文字周波数です。

両方のポイントで見られる[一般のテキストは子どもに対す"大人の表2-3(頁43)の論文 "テキスト圧縮:音節" によってLanskyとMichal Zemlickaせくのdiacriticsその名表記)。されているということを、このサイトは英語、チェコのテキスト[ょう表3は、間違った、キャプションを"バイト"を"ビット"と同じようにテーブル2"より、見ることができるbzip2は少なく、後者のほとんどでしょうかいシンボルを拠点にアルファベット表記のチェコに比べて英語です。そのため(例えば)中国語(使用 ネイティブエンコード, 経由でなく、 Romanizationになるようならないベットbzip2はもう...

奇妙に、サロモンの ハンドブックのデータ圧縮 [5th ed.2010]は、このrefでは、前述の論文および分析と豊富なデータベー[再]発表会pp.1122-1127なんじを編集した約束の締結部のLanskyとZemlicka]: 音節に基づく巣穴に注輪換 (2007)という本があります。その結果underwhelming:必要なものはかなり大きな文書(>200-500kB)のための音節に基づくBWT追い越すために、文字ベー BWTもにその改善にはかなり小さいです。の単語に基づくBWT、試験があり、勝では最大の文書サイズが5MB.と思うこの言葉を繰り返しないその主な要因は、テキスト圧縮比を合わ右)に比べて文字と音節の繰り返し周波数、少なくとも通常のブックサイズ。と思うという問いに対する答えなどはないでしょう特段の記載がない限り同サイズの書類のみにおけるある程度の差異は、単語の繰り返しのような子どもに対す人文学が伴うものを使用する場合の株式bzip2は、実験音節に基づくね.その場合圧縮もっと広大な全Wikipedia(またはparticularizeこの場合、二つの膨大な蔵文学、大人のための子どもたちが、その言葉を繰り返れに何より良い圧縮(という言葉に基づくね).

カップルにひとこと:

  • の研究は、上記の想定した単一の選択肢の表音文字/単語/文字としての"予測". コ混合 (CM)アルゴリズム(切り拓くPAQが実際に使用数(適応的重み付き)predictors;例えばPAQ使用前の単語やビットレベルのPPM予測まれています。前の単語がよく働くが、1GBサンプルのWikipediaで、実際のものがありますのボットの生成論と分子を鋳型としたテキストなどに基づく米国勢調査のデータです。(第3回画像"を繰り返し文字列解析の解説 http://mattmahoney.net/dc/dce.html#Section_22.見てするための額又はそのRAMからの最も良好なパフォーマンスを導PAQ[というユーザー間でも頻繁にやり]このデータセットを使~30GBのアプリです。) ると見ているCMのアルゴリズム[用前の言葉の一つとしてpredictors】カスタマーサポート/よくテクストと小さな語彙(子供のように物語るとおり、すべてのものと同じです。

  • さえすれば、適用テキストのみ変換(BWTい)きますので、その方が優れていBWT;参照(やや不正に名) "言葉の置換変換" (WRT)論文のビバップからハードバップを少し工夫する言葉をマッチング互いるような場合には変換、交換【可逆的]のラインスペースを挿入しながら、空間の前に句読点等ではなさそういう好の小さな語彙であり、これまでの技術を記載がなんと読める論文の徹底を図る。

方の組み合わせに従事し、ポイントで実際に使用単語(単語としての自然言語の単語)に圧縮して前処理ステップの一般目的を含むLZベース圧縮器です。いてはちょっとした驚きをこなしていく前に 2009年の論文Farina et al. この考え方は良の場合はコンプレッサーをgzipで圧縮率の改善、bzip2,7zip、PPMdとして除去してかなり控えめです。おそらく最も顕著なこともできる横圧縮にはこれ以上増えると全体の圧縮速度です。率的に、こ徴7zipした3倍-4倍の圧縮速度向上!7zipは、LZMA、でものすごく大雑把にいえばLZるステロイド:非常に大きな辞書と範囲のエンコードの代わりにハフマンに使用gzip/DEFLATE.(テーブル6-8てのgistの結果になります。

ライセンス: CC-BY-SA帰属
所属していません cs.stackexchange
scroll top