混同行列から確率を計算するにはどうすればよいですか?分母、chars行列が必要です
-
13-12-2019 - |
質問
この紙 ノイズの多いチャネルでのスペルミスの混同行列が含まれています。条件付きプロパティに基づいてエラーを修正する方法について説明します。
条件付き確率の計算は 2 ページの左の列にあります。2 ページの左欄の脚注 4 で、著者は次のように述べています。「charsマトリックスは簡単に複製できるため、付録から省略できます。」どうすれば再現できるのかわかりません!
それらを複製するにはどうすればよいでしょうか?オリジナルのコーパスは必要ですか?それとも、著者らは論文自体の内容から再計算できると言いたかったのでしょうか?
解決
論文を見ながら、同じコーパスまたはアプリケーションに関連するコーパスを使用してそれらを計算するだけです。
行列を複製する際は、行列が 2 つの異なる行列を暗黙的に定義していることに注意してください。 chars
行列:ベクトルと n 行 n 列の行列。キャラクターごとに x
, 、ベクトル chars
文字の回数のカウントが含まれます x
コーパス内で発生しました。文字列ごとに xy
, 、 マトリックス chars
コーパス内でそのシーケンスが出現した回数のカウントが含まれます。
chars[x]
の検索を表します x
ベクトル内。 chars[x,y]
シーケンスのルックアップを表します xy
マトリックスで。ご了承ください chars[x]
= 以上の合計 chars[x,y]
の各値に対して y
.
これらの数はすべて 1988 年の AP Newswire コーパス (LDCから入手可能)。正確なコーパスを使用できない場合は、同じジャンルの別のテキストを使用することは不合理ではないと思います (つまり、別のニュースワイヤー コーパス)、元のデータに適合するようにカウントを調整します。つまり、テキストが十分に類似していれば、特定の文字の頻度はテキスト間であまり変わらないはずです。そのため、2,200 万語のニュースワイヤーのコーパスがある場合、そのテキスト内の文字を数えることができます。次に、それらを 2 倍にして元の数に近づけます。