Probabilidades de detección electrónico duplicados mediante la comparación de notas entre los servidores

https://cs.stackexchange.com/questions/2263

16-10-2019
|

Pregunta

Tengo el siguiente problema:

Queremos poner en práctica una estrategia de filtrado en servidores de correo electrónico para reducir el número de mensajes de spam. Cada servidor tendrá un buffer, y antes de enviar un correo electrónico, comprueba si existe un duplicado del mismo mensaje en su propia memoria intermedia y los contactos k vecinos servidores distintos al azar para comprobar si el duplicado se encuentra en otro búfer. En caso de que se detecte cualquier mensaje duplicado, será eliminado como spam, de lo contrario será enviado después de que se reciban todas las respuestas negativas.

Supongamos que hay N servidores de correo, y que un spammer envía M copias de cada correo spam. Suponemos que todas las copias se envían simultáneamente y que cada correo electrónico se envía a un servidor de correo al azar.

Dado M, N y K necesito para averiguar las probabilidades de que se elimina ningún mensaje de correo no deseado (es decir, no detecta servidor de spam), se eliminan todos los mensajes de correo basura (todos los servidores detectan spam) y los mensajes de spam se eliminan de por lo menos un servidor.

Hasta ahora, he utilizado combinaciones sin repetición para averiguar los casos que deben tenerse en cuenta para una necesidad M y N. Ahora para averiguar la probabilidad de que un servidor recibe al menos dos copias de un mensaje, pero estoy en una pérdida completa. Podría, por favor proporcionar alguna información sobre el problema?

Solución

Si un determinado servidor recibe $ m \ leq M $ copias, no reciben $ M $ M-copias. Además, hay muchas maneras para recoger mensajes $ m $ de $ M $; usted tiene que considerar todos ellos. Además, los supuestos importantes son que

"al azar" significa "uniformemente al azar", que es la probabilidad de que cualquier copia dada va a cualquier servidor dado es $ \ frac {1} {N} $, y que
cada copia se encamina de forma independiente de sus hermanos, que es que tenemos sucesos aleatorios independientes para las copias individuales.

Esto es todo lo que necesita para reconstruir la probabilidad $ \ operatorname {Pr} (S_i = m) $ ese servidor $ i $ $ recibe mensajes de m $.

Si coloca el conjunto anterior, se obtiene

$ \ Qquad \ displaystyle \ operatorname {Pr} (S_i = m) = \ Binom {M} {m} \ left (\ frac {1} {N} \ right) ^ m \ left (1 - \ frac {1} {N} \ right) ^ {MM} $

por $ S_i $ es el número de copias del $ i $ -ésima servidor recibe, $ 1 \ leq i \ leq N $. Usted debe reconocer este tipo de peso probabilidad.

Si tiene dudas de que esto es correcto, ejecute alguna simulaciones (no una prueba!).

Ahora bien, es fácil de calcular $ \ operatorname {Pr} (S_i \ geq 2) = 1 - \ operatorname {Pr} (S_i = 1) -. \ Operatorname {Pr} (S_i = 0) $

Cuando se utiliza el peso derivado en otras calcuations, tenga en cuenta que la S_i $ $ son no $ independiente porque \ sum_ {i = 1} ^ N S_i = M $. La distribución de probabilidad subyacente es la bien estudiada distribución multinomial .

Licenciado bajo: CC-BY-SA con atribución

No afiliado a cs.stackexchange