algoritmo eficiente para selecionar aleatoriamente itens com frequência

https://stackoverflow.com/questions/872563

22-08-2019
|

Pergunta

Dada uma matriz de pares palavra-frequência n:

[ (w₀, f₀), (w₁, f₁), ..., (w_n-1, f_n-1) ]

onde w_i é uma palavra, f_i é um frequencey inteiro, e a soma do ∑f_i = m frequências,

Eu quero usar um gerador de números pseudo-aleatório (PRNG) para selecionar palavras p w_j₀, w_j₁, ..., w_{j_p-1} tal que a probabilidade de selecionar qualquer palavra é proporcional à sua frequência:

P(w_i = w_{j_k}) = P(i = j_k) = f_i / m

(Note, esta é a seleção com a substituição, por isso a mesma palavra poderia ser escolhido a cada vez).

Eu vim com três algoritmos até agora:

Criar uma matriz de tamanho m, e preenchê-lo para as primeiras entradas f₀ são w₀, as inscrições seguinte f₁ são w₁, e assim por diante, de modo que as entradas última f_p-1 são w_p-1.
```
[ w₀, ..., w₀, w₁,..., w₁, ..., w_p-1, ..., w_p-1 ]
```
Em seguida, use o PRNG para selecionar índices p na 0...m-1 gama, e relatar as palavras armazenadas nesses índices.
Isso leva trabalho O(n + m + p), que não é grande, já que m pode ser muito, muito maior do que n.
Passo através da matriz de entrada uma vez que, de computação
```
m_i = ∑_h≤if_h = m_i-1 + f_i
```
e depois m_i computação, utilizar o PRNG para gerar um número x_k no 0...m_i-1 gama para cada k em 0...p-1 e selecione w_i para w_{j_k} (possivelmente substituindo o valor atual de w_{j_k}) se x_k < f_i.
Isso requer trabalho O(n + np).
Computar m_i como no algoritmo 2, e gerar a seguinte matriz em triplos n palavra-frequência-parcial de soma:
```
[ (w₀, f₀, m₀), (w₁, f₁, m₁), ..., (w_n-1, f_n-1, m_n-1) ]
```
e, em seguida, para cada k em 0...p-1, utilize o PRNG para gerar uma x_k número no 0...m-1 gama em seguida, fazer busca binária sobre a matriz de triplos para encontrar o S. T. i m_i-f_i ≤ x_k < m_i e selecione w_i para w_{j_k}.
Isso requer trabalho O(n + p log n).

A minha pergunta é :? Existe um algoritmo mais eficiente que eu posso usar para isso, ou são estes tão bom quanto ele ganha

Solução 3

Ok, eu encontrei um outro algoritmo: o método apelido (também mencionou nesta resposta ). Basicamente, ele cria uma partição do espaço de probabilidade de tal forma que:

Existem partições n, todo o r S. T. mesma largura nr = m.
cada partição contém duas palavras em alguma proporção (que é armazenado com a partição).
para cada palavra w_i, f_i = ∑_{partitions t s.t w_i ∈ t} r × ratio(t,w_i)

Uma vez que todas as partições são do mesmo tamanho, selecionar qual partição pode ser feito em trabalho constante (escolher um índice de 0...n-1 de forma aleatória), e relação da partição pode ser usado para selecionar qual palavra é usada em trabalho constante ( comparar um número pRNGed com a relação entre as duas palavras). Então isso significa que as seleções p pode ser feito no trabalho O(p), dado tal partição.

A razão que existe tal particionamento é que existe um S. T. w_i palavra f_i < r, se e somente se existe um S. T. w_i' palavra f_i' > r, uma vez que r é a média das frequências.

Dada tal w_i par e w_i' podemos substituí-los com uma pseudo-palavra w'_i de f'_i = r frequência (que representa w_i com f_i/r probabilidade e w_i' com 1 - f_i/r probabilidade) e uma nova w'_i' palavra de f'_i' = f_i' - (r - f_i) frequência ajustada respectivamente. A frequência média de todas as palavras ainda será r, e a regra do parágrafo anterior ainda se aplica. Desde o pseudo-palavra tem frequência r e é feito de duas palavras com frequência r ?, sabemos que se nós iterate este processo, nunca iremos fazer uma pseudo-palavra para fora de um pseudo-palavra, e tal iteração deve terminar com um sequência de palavras pseudo-n que são a partição desejada.

Para construir esta partição no tempo O(n),

percorrer a lista das palavras uma vez, a construção de duas listas:
- uma das palavras com frequência = r
- uma das palavras com frequência> r
em seguida, puxe uma palavra da primeira lista
- Se a sua frequência = r, em seguida, fazê-lo em uma partição elemento
- Caso contrário, puxar uma palavra da outra lista, e usá-lo para preencher uma partição de duas palavras. Em seguida, coloque a segunda palavra de volta para a primeira ou segunda lista de acordo com a sua frequência ajustada.

Este realmente ainda funciona se o número de partições q > n (você só tem que provar isso de forma diferente). Se você quiser ter certeza de que r é integral, e você não pode facilmente encontrar um q fator de S. T. m q > n, você pode pad todas as freqüências por um fator de n, assim f'_i = nf_i, que atualiza m' = mn e conjuntos r' = m quando q = n.

Em qualquer caso, esse algoritmo leva apenas trabalho O(n + p), que eu tenho que pensar é o ideal.

Em Ruby:

def weighted_sample_with_replacement(input, p)
  n = input.size
  m = input.inject(0) { |sum,(word,freq)| sum + freq }

  # find the words with frequency lesser and greater than average
  lessers, greaters = input.map do |word,freq| 
                        # pad the frequency so we can keep it integral
                        # when subdivided
                        [ word, freq*n ] 
                      end.partition do |word,adj_freq| 
                        adj_freq <= m 
                      end

  partitions = Array.new(n) do
    word, adj_freq = lessers.shift

    other_word = if adj_freq < m
                   # use part of another word's frequency to pad
                   # out the partition
                   other_word, other_adj_freq = greaters.shift
                   other_adj_freq -= (m - adj_freq)
                   (other_adj_freq <= m ? lessers : greaters) << [ other_word, other_adj_freq ]
                   other_word
                 end

    [ word, other_word , adj_freq ]
  end

  (0...p).map do 
    # pick a partition at random
    word, other_word, adj_freq = partitions[ rand(n) ]
    # select the first word in the partition with appropriate
    # probability
    if rand(m) < adj_freq
      word
    else
      other_word
    end
  end
end

Outras dicas

Isso soa como seleção roleta, usado principalmente para o processo de seleção em algoritmos genéticos / evolutivas.

Roulette Seleção em Algoritmos Genéticos

Pode-se criar a matriz alvo, então percorrer as palavras que determinam a probabilidade de que ele deve ser escolhido, e substituir as palavras na matriz de acordo com um número aleatório.

Para a primeira palavra a probabilidade seria f ₀ / m ₀ (em que m _n = f ₀ + .. + f _n), ou seja 100%, de modo que todas as posições na matriz de destino seria preenchido com w ₀.

Para as seguintes palavras, a probabilidade cai, e quando chegar a última palavra da matriz de destino é preenchido com palavras escolhidas aleatoriamente accoding à freqüência.

código Exemplo em C #:

public class WordFrequency {

    public string Word { get; private set; }
    public int Frequency { get; private set; }

    public WordFrequency(string word, int frequency) {
        Word = word;
        Frequency = frequency;
    }

}

WordFrequency[] words = new WordFrequency[] {
    new WordFrequency("Hero", 80),
    new WordFrequency("Monkey", 4),
    new WordFrequency("Shoe", 13),
    new WordFrequency("Highway", 3),
};

int p = 7;
string[] result = new string[p];
int sum = 0;
Random rnd = new Random();
foreach (WordFrequency wf in words) {
    sum += wf.Frequency;
    for (int i = 0; i < p; i++) {
        if (rnd.Next(sum) < wf.Frequency) {
            result[i] = wf.Word;
        }
    }
}

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow