algoritmo efficiente per selezionare casualmente oggetti con frequenza

Dato un array di n coppie word frequenza:algoritmo efficiente per selezionare casualmente oggetti con frequenza

[ (w₀, f₀), (w₁, f₁), ..., (w_n-1, f_n-1) ]

dove w_i è una parola, f_i è un frequencey intero, e la somma delle frequenze ∑f_i = m,

Desidero utilizzare un generatore di numeri pseudo casuali (pRNG) per selezionare p parole w_j₀, w_j₁, ..., w_{j_p-1} tali che la probabilità di selezionare qualsiasi parola sia proporzionale alla sua frequenza:

P(w_i = w_{j_k}) = P(i = j_k) = f_i/m

(nota, questa è la selezione con sostituzione, per cui la stessa parola potrebbe essere scelto ogni volta).

mi è venuta in mente tre algoritmi finora:

creare un array di dimensioni m, e popolare così le prime voci sono f₀w₀, i prossimi f₁ voci sono w₁, e così via , quindi le ultime voci f_p-1 sono w_p-1.
```
[ w₀, ..., w₀, w₁,..., w₁, ..., w_p-1, ..., w_p-1 ]
```
Quindi utilizzare il pRNG per selezionare gli indici p nell'intervallo 0...m-1 e segnalare le parole memorizzate in tali indici.
Questo richiede lavoro O(n + m + p), che non è eccezionale, dal momento che m può essere molto più grande di n.
ciclo attraverso l'array di input volta, calcolando
```
m_i = ∑_h≤if_h = m_i-1 + f_i
```
e dopo aver calcolato m_i, utilizzare il PRNG per generare un numero x_k nell'intervallo 0...m_i-1 per ogni k in 0...p-1 e selezionare w_i per w_{j_k} (eventualmente sostituendo il valore corrente di w_{j_k}) se x_k < f_i.
Ciò richiede il lavoro O(n + np).
Compute m_i come nell'algoritmo 2, e generare il seguente matrice su n word-frequenza parziale somma triplica:
```
[ (w₀, f₀, m₀), (w₁, f₁, m₁), ..., (w_n-1, f_n-1, m_n-1) ]
```
e quindi, per ogni k in 0...p-1, utilizzare il PRNG per generare un numero x_k nell'intervallo 0...m-1 quindi fai una ricerca binaria sulla serie di triple per trovare il i st m_i-f_i ≤ x_k < m_i e selezionare w_i per w_{j_k}.
Ciò richiede il lavoro O(n + p log n).

La mia domanda è: Esiste un algoritmo più efficiente posso usare per questo, o sono questi Qualcosa è cambiato?

fonte

2009-05-16 rampion

questo è OT, e per favore non uccidermi per questo, ma come sei arrivato sub/scripts super, e le indicazioni equazione somma? – dassouki

Basta usare _... all'interno di blocchi ... (per inline) o

...

(per linea intera). – rampion

E per il segno di somma, usa solo ∑ (vedi http://www.w3.org/TR/WD-entities-961125 per altre entità html per i sigilli matematici) – rampion

Ok, ho trovato un altro algoritmo: the alias method (menzionato anche in this answer). In sostanza si crea una partizione dello spazio di probabilità in modo tale che:

ci sono n partizioni, tutte della stessa larghezza r S.T. nr = m.
ogni partizione contiene due parole in un rapporto (che viene memorizzato con la partizione).
per ogni parola w_i, f_i = ∑_{partitions t s.t w_i ∈ t} r × ratio(t,w_i)

Poiché tutte le partizioni sono della stessa dimensione, selezionare quale partizione può essere realizzata in opera costante (scegliere un indice da 0...n-1 a caso), e il rapporto della partizione può quindi essere utilizzato per selezionare quale parola viene utilizzata in costante lavoro (confrontare un numero pRNGed con il rapporto tra le due parole). Quindi questo significa che le selezioni p possono essere eseguite nel lavoro , data tale partizione.

Il motivo per cui tale partizionamento esiste è che esiste una parola w_i s.t. f_i < r, se e solo se esiste una parola w_i' s.t. f_i' > r, poiché r è la media delle frequenze.

Dato un tale coppia w_i e w_i' possiamo sostituirli con uno pseudo-word w'_i di frequenza f'_i = r (che rappresenta w_i con probabilità f_i/r e w_i' con probabilità 1 - f_i/r) e una nuova parola w'_i' di frequenza impostata f'_i' = f_i' - (r - f_i) rispettivamente. La frequenza media di tutte le parole sarà ancora r, e la regola del paragrafo precedente si applica ancora. Poiché la pseudo-parola ha frequenza r ed è composta da due parole con frequenza ≠ r, sappiamo che se iteriamo questo processo, non creeremo mai una pseudo-parola da una pseudo-parola, e tale iterazione deve terminare con un sequenza di n pseudo parole che sono la partizione desiderata.

Per costruire questa partizione in O(n) tempo,

passare attraverso la lista delle parole, una volta, la costruzione di due liste:
- una delle parole con una frequenza ≤ r
- una delle parole con le frequenza > r
quindi tirare una parola dal primo t
- se la sua frequenza = r, allora farne una partizione un elemento
- altrimenti, tirare una parola dall'altro elenco, e utilizzarlo per compilare una partizione di due parole. Quindi rimetti la seconda parola nella prima o nella seconda lista in base alla frequenza regolata.

Questo in realtà funziona ancora, se il numero di partizioni q > n (dovete solo per dimostrare in modo diverso). Se vuoi assicurarti che r sia integrale, non puoi trovare facilmente un fattore q di m s.t. q > n, è possibile eseguire il rilievo di tutte le frequenze per un fattore di n, quindi f'_i = nf_i, che aggiorna m' = mn e imposta r' = m quando q = n.

In ogni caso, questo algoritmo richiede solo il lavoro O(n + p), che devo pensare sia ottimale.

In ruby:

def weighted_sample_with_replacement(input, p) 
    n = input.size 
    m = input.inject(0) { |sum,(word,freq)| sum + freq } 

    # find the words with frequency lesser and greater than average 
    lessers, greaters = input.map do |word,freq| 
         # pad the frequency so we can keep it integral 
         # when subdivided 
         [ word, freq*n ] 
         end.partition do |word,adj_freq| 
         adj_freq <= m 
         end 

    partitions = Array.new(n) do 
    word, adj_freq = lessers.shift 

    other_word = if adj_freq < m 
        # use part of another word's frequency to pad 
        # out the partition 
        other_word, other_adj_freq = greaters.shift 
        other_adj_freq -= (m - adj_freq) 
        (other_adj_freq <= m ? lessers : greaters) << [ other_word, other_adj_freq ] 
        other_word 
       end 

    [ word, other_word , adj_freq ] 
    end 

    (0...p).map do 
    # pick a partition at random 
    word, other_word, adj_freq = partitions[ rand(n) ] 
    # select the first word in the partition with appropriate 
    # probability 
    if rand(m) < adj_freq 
     word 
    else 
     other_word 
    end 
    end 
end

fonte

2009-05-16 22:10:18 rampion

Migliore implementazione su http://gist.github.com/112858 – rampion

Questo suona come selezione roulette, utilizzato principalmente per il processo di selezione in algoritmi genetici/evolutivo.

Osservare Roulette Selection in Genetic Algorithms

fonte

2009-05-16 15:06:17 seb

Sì, questo è esattamente ciò che è richiesto dall'algoritmo. Sicuramente non diventerai più veloce della complessità O (n). – Noldorin

Ok. Stanno semplicemente usando la ricerca iterativa, che richiede O (n log m) per selezionarli, e un lavoro totale di O (n log m + pn log m), proprio come il mio algoritmo 2. Grazie! – rampion

con ricerca binaria è O (n + p * log n). Perché hai * m * lì? Non influenza la complessità dell'algoritmo. –

Si potrebbe creare la matrice di destinazione, quindi scorrere le parole che determinano la probabilità che esso debba essere raccolto, e sostituire le parole nella matrice secondo un numero casuale.

Per la prima parola della probabilità sarebbe f/m (dove m _n = f 0 + .. + f _n), cioè il 100%, in modo tutte le posizioni la matrice di destinazione verrebbe riempita con w .

Per le seguenti parole, la probabilità diminuisce e quando si raggiunge l'ultima parola, l'array di destinazione viene riempito con parole selezionate casualmente che si accodono alla frequenza.

Esempio di codice in C#:

public class WordFrequency { 

    public string Word { get; private set; } 
    public int Frequency { get; private set; } 

    public WordFrequency(string word, int frequency) { 
     Word = word; 
     Frequency = frequency; 
    } 

} 

WordFrequency[] words = new WordFrequency[] { 
    new WordFrequency("Hero", 80), 
    new WordFrequency("Monkey", 4), 
    new WordFrequency("Shoe", 13), 
    new WordFrequency("Highway", 3), 
}; 

int p = 7; 
string[] result = new string[p]; 
int sum = 0; 
Random rnd = new Random(); 
foreach (WordFrequency wf in words) { 
    sum += wf.Frequency; 
    for (int i = 0; i < p; i++) { 
     if (rnd.Next(sum) < wf.Frequency) { 
      result[i] = wf.Word; 
     } 
    } 
}

fonte

2009-05-16 15:54:48 Guffa

Giusto. Questo è esattamente l'algoritmo 2. – rampion

È questo che intendevi? Sono stato buttato fuori dal calcolo O(). I valori di frequenza sono irrilevanti per quanto lavoro c'è, quindi m non ha business nel valore O(). Dovrebbe semplicemente essere O (np). – Guffa

No, i valori di frequenza sono importanti - occorrono O (log m) bit per memorizzare una frequenza, e O (log m) funziona per aggiungere due frequenze o confrontare due. Di solito questo è solo inghiottito da un termine costante quando log m <64 (lo si memorizza in un int di 64 bit), ma per numeri più grandi, può essere importante. – rampion

algoritmo efficiente per selezionare casualmente oggetti con frequenza

risposta

Problemi correlati