Ho un sito con circa 150K pagine nella sua sitemap. Sto usando il generatore di indici Sitemap per creare le Sitemap, ma in realtà, ho bisogno di un modo per memorizzarlo nella cache, perché costruire le 150 Sitemap di 1.000 link ciascuna è brutale sul mio server. [1]Come servire in modo efficiente enormi sitemap in django
HO POTUTO memorizzare nella cache ciascuna di queste pagine Sitemap con memcached, che è quello che sto usando altrove sul sito ... tuttavia, questo è così tante sitemap che riempirebbe completamente memcached .... in modo che doesn ' lavoro.
Quello che penso di cui ho bisogno è un modo di usare il database come cache per questi e di generarli solo quando ci sono cambiamenti (che come risultato dell'indice sitemap significa solo cambiare l'ultima coppia di sitemap pagine, dato che il resto è sempre lo stesso.) [2] Ma, per quanto posso dire, posso usare solo un backend cache con django.
Come posso avere queste sitemap pronte per quando Google arriva-a-crawlin 'senza uccidere il mio database o memcached?
Qualche idea?
[1] L'ho limitato a 1.000 collegamenti per pagina Sitemap perché la generazione dei max. 50.000 collegamenti non stava accadendo.
[2] ad esempio, se ho sitemap.xml? Page = 1, page = 2 ... sitemap.xml? Page = 50, ho solo bisogno di cambiare sitemap.xml? Page = 50 fino a è pieno di 1.000 collegamenti, quindi posso farlo praticamente per sempre e concentrarsi sulla pagina 51 finché non è pieno, memorizzarlo per sempre, ecc.
EDIT, 2012-05-12: Questo ha continuato a essere un problema e alla fine ho abbandonato la struttura della sitemap di Django dopo averla usata con una cache di file per circa un anno. Invece ora sto usando Solr per generare i collegamenti di cui ho bisogno in una vista davvero semplice, e poi li sto passando al modello Django. Questo notevolmente ha semplificato le mie sitemap, le ha rese perfette, e al momento sono fino a circa 2.250.000 collegamenti. Se vuoi farlo, guarda il template della sitemap - è tutto molto ovvio da lì. È possibile vedere il codice per questo qui: https://bitbucket.org/mlissner/search-and-awareness-platform-courtlistener/src/tip/alert/casepage/sitemap.py
No, sono per i robot. Per favore, ignorali. Dettagli: sitemaps.org – mlissner