Ho bisogno di uno script che possa spider un sito Web e restituisca l'elenco di tutte le pagine sottoposte a scansione in formato semplice o simile; che sottoporrò ai motori di ricerca come sitemap. Posso usare WGET per generare una sitemap di un sito web? O c'è uno script PHP che può fare lo stesso?Posso utilizzare WGET per generare una sitemap di un sito Web data l'URL?
7
A
risposta
30
wget --spider --recursive --no-verbose --output-file=wgetlog.txt http://somewebsite.com
sed -n "[email protected]\+ URL:\([^ ]\+\) .\[email protected]\[email protected]" wgetlog.txt | sed "[email protected]&@\&@" > sedlog.txt
Questo crea un file chiamato sedlog.txt
che contiene tutti i link presenti sul sito web specificato. È possibile utilizzare PHP o uno script di shell per convertire la sitemap del file di testo in una sitemap XML. Modificare i parametri del comando wget (accept/reject/include/exclude) per ottenere solo i collegamenti necessari.
1
È possibile utilizzare questo script in Perl per fare il trucco:
+0
Genererà tramite scansione del file system ma non "esegue la scansione". I siti che voglio spider sono dinamici. –
Problemi correlati
- 1. Sitemap su un sito web altamente dinamico
- 2. Qual è il modo migliore per generare una sitemap?
- 3. Come posso generare un sito con sito mvn: sito?
- 4. Formato data Sitemap di Google
- 5. Come posso utilizzare caratteri personalizzati su un sito Web?
- 6. Come posso generare una classe C# scaricabile da un sito Web ASP.NET MVC?
- 7. Come generare un sito Web dalle pagine wiki di GitHub
- 8. Come creare una Sitemap per CakePHP?
- 9. più wget -r un sito contemporaneamente?
- 10. Utilizzo di WiX per generare un programma di installazione per un sito Web ASP.Net MVC
- 11. come creare sitemap google per il sito mvc?
- 12. XSD per Sitemap con HREFLANG
- 13. Posso utilizzare MiniProfiler per lo strumento di un sito Web ASP.NET MVC WebApi?
- 14. Scaricare tutti i file di un tipo particolare da un sito Web utilizzando wget
- 15. Sitemap per contenuti dinamici?
- 16. Come utilizzare le schermate di analisi in un sito Web?
- 17. Come utilizzare Wget per scaricare tutte le immagini in una singola cartella, da un URL?
- 18. come posso utilizzare un account di Microsoft per l'autenticazione al mio sito web
- 19. Come creare una Sitemap utilizzando Sitecore
- 20. Posso utilizzare paster sul sito di produzione?
- 21. Come posso recuperare la favicon di un sito web?
- 22. Come scaricare un sito Web completo?
- 23. Come posso utilizzare FTP per aggiornare il mio sito Web da un repository Subversion?
- 24. Posso usare HTML5 ora per creare un sito web
- 25. Esiste un tag standardizzato (meta?) Per la data di un sito Web?
- 26. Come archiviare un sito Web dinamico (PHP) come HTML statico?
- 27. Admob per sito web
- 28. Come scrivere una specifica per un sito web
- 29. Suggerimento CakePHP per iterare una tabella enorme e generare una sitemap?
- 30. Sitemap generazione con Codeigniter
+1 Non riuscivo a usarlo in quel modo dato che mi stava dando un sacco di errori (probabilmente a causa di diverse versioni di wget/sed). Ma una volta apportato qualche modifica, ha funzionato come un incantesimo. Grazie! – Julian
Dovresti aggiungere un piccolo ritardo tra le richieste usando '--wait = 1', altrimenti potrebbe influire sulle prestazioni del sito. – Liam