algoritmo efficiente per selezionare casualmente oggetti con frequenza

https://stackoverflow.com/questions/872563

22-08-2019
|

Domanda

Dato un array di n coppie word frequenza:

[ (w₀, f₀), (w₁, f₁), ..., (w_n-1, f_n-1) ]

dove w_i è una parola, f_i è un frequencey intero, e la somma delle frequenze ∑f_i = m,

Vorrei utilizzare un generatore di numeri pseudo-casuali (PRNG) per selezionare p parole w_j₀, w_j₁, ..., w_{j_p-1} tale che la probabilità di selezionare una parola è proporzionale alla sua frequenza:

P(w_i = w_{j_k}) = P(i = j_k) = f_i / m

(Nota, questa è la selezione con sostituzione, così la stessa parola potrebbe essere scelto ogni volta).

Sono venuto su con tre algoritmi finora:

Crea un array di dimensione m, e popolano così i primi f₀ voci sono w₀, i prossimi f₁ voci sono w₁, e così via, quindi l'ultima <= > voci sono f_p-1.
```
[ w₀, ..., w₀, w₁,..., w₁, ..., w_p-1, ..., w_p-1 ]
```
Quindi utilizzare il PRNG per selezionare w_p-1 indici della gamma 0...m-1, e riferire le parole memorizzate in tali indici.
Questo richiede O(n + m + p) lavoro, che non è grande, dal momento che m_i può essere molto molto più grande di n.
Passaggio attraverso l'array di input, una volta, di calcolo
```
m_i = ∑_h≤if_h = m_i-1 + f_i
```
e dopo aver calcolato x_k, utilizzare il PRNG per generare un numero 0...m_i-1 nella gamma k per ogni 0...p-1 in w_{j_k} e selezionare x_k < f_i per O(n + np) (eventualmente sostituendo il valore corrente di i) se m_i-f_i ≤ x_k < m_i.
Ciò richiede O(n + p log n) lavoro.
Calcola <=> come nell'algoritmo 2, e generare il seguente matrice su n-word frequenza parziale somma triple:
```
[ (w₀, f₀, m₀), (w₁, f₁, m₁), ..., (w_n-1, f_n-1, m_n-1) ]
```
e poi, per ogni k in <=>, utilizzare il PRNG per generare un numero <=> nella gamma <=> quindi effettuare una ricerca binaria sulla matrice di triple per trovare la <=> S.T. <=>, e selezionare <=> per <=>.
Ciò richiede <=> lavoro.

La mia domanda è :? C'è un algoritmo più efficiente posso usare per questo, o sono questi come buono come si arriva

Soluzione 3

Ok, ho trovato un altro algoritmo: il metodo alias (menzionato anche in questa risposta ). In sostanza si crea una partizione dello spazio di probabilità in modo tale che:

Ci sono delle partizioni n, tutte della stessa larghezza r S.T. nr = m.
ogni partizione contiene due parole qualche rapporto (che sono memorizzati con la partizione).
per ogni parola w_i, f_i = ∑_{partitions t s.t w_i ∈ t} r × ratio(t,w_i)

Poiché tutte le partizioni sono della stessa dimensione, selezionare quale partizione può essere realizzata in opera costante (prelevamento un indice da 0...n-1 a caso), e il rapporto della partizione può quindi essere utilizzato per selezionare quale parola viene utilizzato in costante lavorare (confronta un numero pRNGed con il rapporto tra le due parole). Quindi questo significa che i p selezioni può essere fatto in O(p) lavoro, data una tale partizione.

La ragione per cui esiste una tale suddivisione è che esiste una parola f_i < r S.T. w_i', se e solo se esiste una parola f_i' > r S.T. w'_i, poiché r è la media delle frequenze.

Data una tale coppia f'_i = r e f_i/r possiamo sostituirlo con un pseudo-word 1 - f_i/r di frequenza w'_i' (che rappresenta f'_i' = f_i' - (r - f_i) con probabilità O(n) e q > n con probabilità <= >) e una nuova parola q di frequenza impostata m rispettivamente. La frequenza media di tutte le parole sarà ancora r, e la regola dal paragrafo precedente si applica ancora. Poiché la pseudo-parola ha frequenza r ed è costituito da due parole con r frequenza ≠, sappiamo che se iteriamo questo processo, faremo mai una pseudo-parola di una pseudo-parola, e tale iterazione deve terminare con un sequenza di n pseudo-parole che sono la partizione desiderata.

Per costruire questa partizione in f'_i = nf_i tempo,

passare attraverso la lista delle parole, una volta, la costruzione di due liste:
- una delle parole con ≤ frequenza r
- una delle parole con frequenza> r
poi tirare una parola dal primo elenco
- se la sua frequenza = r, quindi farne un elemento di una partizione
- in caso contrario, tirare una parola dall'altra lista, e utilizzarlo per compilare una partizione di due parole. Poi mettere la seconda parola di nuovo in primo o secondo elenco in base alla sua frequenza impostata.

Questo funziona in realtà ancora se il numero di partizioni m' = mn (dovete solo per dimostrare in modo diverso). Se si vuole fare in modo che R è integrale, e non si può facilmente trovare un fattore di r' = m q = n S.T. O(n + p), è possibile pad tutte le frequenze di un fattore di <=>, così <=>, che aggiorna <=> e set <=> quando <=>.

In ogni caso, questo algoritmo richiede solo <=> lavoro, che devo pensare è ottimale.

In ruby:

def weighted_sample_with_replacement(input, p)
  n = input.size
  m = input.inject(0) { |sum,(word,freq)| sum + freq }

  # find the words with frequency lesser and greater than average
  lessers, greaters = input.map do |word,freq| 
                        # pad the frequency so we can keep it integral
                        # when subdivided
                        [ word, freq*n ] 
                      end.partition do |word,adj_freq| 
                        adj_freq <= m 
                      end

  partitions = Array.new(n) do
    word, adj_freq = lessers.shift

    other_word = if adj_freq < m
                   # use part of another word's frequency to pad
                   # out the partition
                   other_word, other_adj_freq = greaters.shift
                   other_adj_freq -= (m - adj_freq)
                   (other_adj_freq <= m ? lessers : greaters) << [ other_word, other_adj_freq ]
                   other_word
                 end

    [ word, other_word , adj_freq ]
  end

  (0...p).map do 
    # pick a partition at random
    word, other_word, adj_freq = partitions[ rand(n) ]
    # select the first word in the partition with appropriate
    # probability
    if rand(m) < adj_freq
      word
    else
      other_word
    end
  end
end

Altri suggerimenti

Questo suona come selezione roulette, utilizzato principalmente per il processo di selezione in algoritmi genetici / evolutivi.

Selezione Roulette in algoritmi genetici

Si può creare la matrice di destinazione, quindi scorrere le parole che determinano la probabilità che esso debba essere raccolto, e sostituire le parole della matrice secondo un numero casuale.

Per la prima parola della probabilità sarebbe f ₀ / m ₀ (dove m _n = f ₀ + .. + f _n), cioè il 100%, quindi tutte le posizioni nella matrice di destinazione sarebbe riempito con w _{0 .}

Per i seguenti termini la probabilità cade, e quando si raggiunge l'ultima parola della matrice di destinazione è pieno di parole raccolte casualmente accoding alla frequenza.

Esempio di codice in C #:

public class WordFrequency {

    public string Word { get; private set; }
    public int Frequency { get; private set; }

    public WordFrequency(string word, int frequency) {
        Word = word;
        Frequency = frequency;
    }

}

WordFrequency[] words = new WordFrequency[] {
    new WordFrequency("Hero", 80),
    new WordFrequency("Monkey", 4),
    new WordFrequency("Shoe", 13),
    new WordFrequency("Highway", 3),
};

int p = 7;
string[] result = new string[p];
int sum = 0;
Random rnd = new Random();
foreach (WordFrequency wf in words) {
    sum += wf.Frequency;
    for (int i = 0; i < p; i++) {
        if (rnd.Next(sum) < wf.Frequency) {
            result[i] = wf.Word;
        }
    }
}

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow