Wikipedia, purtroppo ... mantiene ogni singola revisione nel database in qualche forma di XML (?) Come testo.
Dai uno sguardo allo wikipedia database schema. Modifiche e testi specificamente recenti.
Quindi hanno una meravigliosa O (1) ricerca della prima copia della pagina "biologia". Questo ha lo sfortunato effetto collaterale di causare wikipedia technology cost a mongolfiera da $ 8mil USD nel 2010-2011 a $ 12mil USD nel 2011-2012. Questo nonostante gli HDD (e tutto il resto) diventano più economici, non più costosi.
Questo per il controllo della revisione di mantenere ogni file. Git ha un approccio carino. Vedi Is the git storage model wasteful?.
Memorizza ogni file, simile al metodo precedente. Una volta che lo spazio occupato dal repository supera un certo limite, esegue un repack di forza bruta (esiste un'opzione per impostare quanto sia difficile provare - --window = [N], --depth = [N]) che potrebbe richiedere ore.Utilizza una combinazione di compressione delta e lossless per il repack specificato (delta ricorsivo, quindi si applica senza perdita su qualsiasi bit che si ha).
Altri come SVN utilizzano la compressione delta semplice. (dalla memoria, di cui non dovresti fidarti).
Nota a piè di pagina: La compressione delta memorizza le modifiche incrementali. compressione senza perdita è praticamente come zip, rar, ecc.