2010-07-22 21 views
5

Sono sempre sorpreso dall'alta qualità del filtro antispam di Gmail. Per l'ultimo anno ha filtrato il 99,95% dello spam e ha bloccato per errore solo una mail. In confronto, qualsiasi altro servizio di posta che ho usato fa almeno un errore per ogni 50 mail.Come funziona il filtro antispam di Gmail?

In che modo, internamente, Gmail raggiunge questo livello di qualità? Si basa sul feedback dei clienti (ad esempio, se N i clienti bloccano la posta come spam, viene ordinata come spam per ogni altro cliente)? O c'è qualche trucco? Forse un algoritmo di filtro di base filtra lo spam più evidente e alcuni casi difficili vengono analizzati da veri umani?

+4

Hahaha. È divertente. Chiedendoci come funziona l'algoritmo proprietario e segreto di Google. Perché non chiedere loro? –

risposta

8

In breve, questo è basato sul feedback della comunità . Ecco una citazione dalla spiegazione ufficiale:

Gli utenti di Gmail svolgono un ruolo importante nel mantenere i messaggi di spam fuori da milioni di caselle di posta. Quando la community di Gmail vota con i propri clic per segnalare un particolare messaggio come spam, il nostro sistema impara rapidamente a iniziare a bloccare messaggi simili. Più spam contrassegna la community, più intelligente diventa il nostro sistema.

Puoi leggere un po 'di più sulla loro pagina Spam Explained.

7

Questa è la domanda da un milione di dollari e, se fosse possibile rispondere a stackOverflow, il filtro antispam di Everyone sarebbe altrettanto efficace.

+0

Non è così ovvio. Come ho detto, forse Google assume gli umani per filtrare casi difficili, oppure il filtro si basa sul feedback degli utenti. In questo caso, sì, chiunque possa assumere persone per fare queste cose o fare affidamento su una comunità così grande sarebbe in grado di creare un filtro spam efficace. –

+0

No, non sarebbe perché l'alta qualità del loro filtro antispam è a causa della grande quantità di dati che hanno. Vedi il discorso di Peter Norvig "L'irragionevole efficacia dei dati" – Wes

2

Non so esattamente come fa esattamente Google a filtrare lo SPAM (ma penso che sia un segreto aziendale dopo tutto). Se sei interessato a come funziona il filtro SPAM, ti consiglio di guardare il filtro SPAM bayesiano (http://en.wikipedia.org/wiki/Bayesian_spam_filtering). È un metodo piuttosto facile da capire.

-1

Google utilizza molto probabilmente un sistema di classificazione, come Regressione logistica o Reti neurali. Il rilevamento dello spamming all'avanguardia impiega spesso algoritmi di Machine Learning come questi.

La classificazione di output è "Spam" o "Not Spam" e gli input, sono sicuro, sono top secret in Google, ma sono sicuro che alcune frasi di testo email come "Acquista ora", "On" Vendita, "" Viagra "o" Enhancement maschile "sono tutti fattori nel loro modello.

Problemi correlati