Come funziona qualcosa come le frasi statisticamente improbabili?Come funzionano le frasi statisticamente improbabili di Amazon?
secondo Amazon:
di Amazon.com statisticamente improbabile frasi, o "SIP", sono le più frasi distintive nel testo di libri nel cercare dentro ™ programma!. Per identificare i SIP, i nostri computer scansionano il il testo di tutti i libri nella ricerca Inside! programma. Se trovano una frase che si verifica un gran numero di volte in un libro particolare relativo a tutti Cerca dentro! libri, quella frase è un SIP in quel libro.
SIP non sono necessariamente improbabili all'interno di un particolare libro, ma sono improbabili relative a tutti i libri di Ricerca All'interno !. Ad esempio, la maggior parte dei SIP per un libro sulle tasse sono correlati alle tasse. Tuttavia, poiché vengono visualizzati i SIP nell'ordine del loro punteggio di improbabilità, i primi SIP saranno nei temi fiscali che questo libro menziona più spesso di altri libri delle imposte. Per le opere di narrativa, i SIP tendono a essere parole distintive combinazioni che spesso suggeriscono gli elementi di trama importanti .
Per esempio, per il primo libro di Gioele, i SIP sono: astrazioni che perde, testo con antialiasing, il cibo proprio cane, conteggio dei bug, costruisce tutti i giorni, database dei bug, gli orari di software
Una complicazione interessante è che questi sono frasi di 2 o 3 parole. Ciò rende le cose un po 'più interessanti perché queste frasi possono sovrapporsi o contenerle a vicenda.
è un po 'più complicato di così, perché le frasi possono essere lunghe 2 o 3 parole, che potrebbero sovrapporsi o contenerle. tf-idf viene solitamente descritto solo con termini singoli. –
Non sono sicuro che importi così tanto, soprattutto se limitato a frasi di lunghezza 3 o inferiore. Per un flusso di testo di token N, hai N-1 bigrams e N-1 trigram.Ovviamente, un bigram sarà uguale a un altro bigram, e allo stesso modo per un trigramma, quindi è possibile calcolare le misure IDF di bigram e trigram tanto velocemente quanto lo si potrebbe fare per le parole. – danben
@ ʞɔıu: Di solito è descritto in termini singoli, ma non è necessario applicarlo in questo modo. Ecco perché ho accennato a "una variazione" nella mia risposta. la spiegazione di Danub lo copre. –