Как вычислить вероятности по матрицам путаницы?нужен знаменатель, матрицы символов

StackOverflow https://stackoverflow.com//questions/10708852

Вопрос

Эта бумага содержит матрицы путаницы для орфографических ошибок в зашумленном канале.В нем описывается, как исправить ошибки на основе условных свойств.

Вычисление условной вероятности находится на странице 2, левый столбец.В сноске 4, стр. 2, левый столбец, авторы говорят:«Матрицы Chars могут быть легко воспроизведены и поэтому опущены из приложения». Я не могу понять, как их можно воспроизвести!

Как их повторить?Нужен ли мне оригинальный корпус?или авторы имели в виду, что их можно пересчитать на основе материала самой статьи?

Это было полезно?

Решение

Глядя на статью, вам просто нужно посчитать их, используя корпус, тот же самый или соответствующий вашему приложению.

При воспроизведении матриц обратите внимание, что они неявно определяют два разных chars матрицы:вектор и матрица размером n на n.Для каждого персонажа x, вектор chars содержит количество раз, когда символ x произошло в корпусе.Для каждой последовательности символов xy, матрица chars содержит количество раз, когда эта последовательность встречалась в корпусе.

chars[x] представляет собой поиск x в векторе; chars[x,y] представляет собой поиск последовательности xy в матрице.Обратите внимание, что chars[x] = сумма chars[x,y] за каждое значение y.

Обратите внимание, что все их подсчеты основаны на корпусе новостей AP Newswire за 1988 год (доступен в LDC).Если вы не можете использовать их точный корпус, я не думаю, что было бы неразумно использовать другой текст того же жанра (т.другой корпус новостей) и масштабируйте свои подсчеты так, чтобы они соответствовали исходным данным.То есть частота появления данного символа не должна слишком сильно различаться от одного текста к другому, если они достаточно похожи, поэтому, если у вас есть корпус новостей из 22 миллионов слов, вы можете подсчитать символы в этом тексте и затем удвойте их, чтобы приблизить их исходные значения.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top