混同行列から確率を計算するにはどうすればよいですか?分母、chars行列が必要です

StackOverflow https://stackoverflow.com//questions/10708852

質問

この紙 ノイズの多いチャネルでのスペルミスの混同行列が含まれています。条件付きプロパティに基づいてエラーを修正する方法について説明します。

条件付き確率の計算は 2 ページの左の列にあります。2 ページの左欄の脚注 4 で、著者は次のように述べています。「charsマトリックスは簡単に複製できるため、付録から省略できます。」どうすれば再現できるのかわかりません!

それらを複製するにはどうすればよいでしょうか?オリジナルのコーパスは必要ですか?それとも、著者らは論文自体の内容から再計算できると言いたかったのでしょうか?

役に立ちましたか?

解決

論文を見ながら、同じコーパスまたはアプリケーションに関連するコーパスを使用してそれらを計算するだけです。

行列を複製する際は、行列が 2 つの異なる行列を暗黙的に定義していることに注意してください。 chars 行列:ベクトルと n 行 n 列の行列。キャラクターごとに x, 、ベクトル chars 文字の回数のカウントが含まれます x コーパス内で発生しました。文字列ごとに xy, 、 マトリックス chars コーパス内でそのシーケンスが出現した回数のカウントが含まれます。

chars[x] の検索を表します x ベクトル内。 chars[x,y] シーケンスのルックアップを表します xy マトリックスで。ご了承ください chars[x] = 以上の合計 chars[x,y] の各値に対して y.

これらの数はすべて 1988 年の AP Newswire コーパス (LDCから入手可能)。正確なコーパスを使用できない場合は、同じジャンルの別のテキストを使用することは不合理ではないと思います (つまり、別のニュースワイヤー コーパス)、元のデータに適合するようにカウントを調整します。つまり、テキストが十分に類似していれば、特定の文字の頻度はテキスト間であまり変わらないはずです。そのため、2,200 万語のニュースワイヤーのコーパスがある場合、そのテキスト内の文字を数えることができます。次に、それらを 2 倍にして元の数に近づけます。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top