Volevo sapere come raschiare le pagine Web che utilizzano AJAX per recuperare il contenuto della pagina Web da sottoporre a rendering. In genere un GET HTTP per tali pagine preleverà semplicemente la pagina HTML con il codice JavaScript incorporato. Ma voglio sapere se è possibile eseguire una query programmaticamente (preferibilmente Java) per tali pagine e simulare un tipo di browser Web di una richiesta in modo da ottenere il contenuto HTML risultante dopo le chiamate AJAX.Ottenere HTML da pagine Web che utilizzano AJAX
risposta
Si consiglia di guardare htmlunit
In The Productive Programmer autore Neal Ford suggerisce che lo strumento di test funzionale Selenium può essere utilizzato per attività non di test. Il tuo compito di ispezionare HTML dopo che la manipolazione del DOM lato client è avvenuta rientra in questa categoria. Il selenio ti consente anche di automatizzare le interazioni con il browser, quindi se hai bisogno di alcuni pulsanti cliccati per attivare alcuni eventi AJAX, puoi copiarlo. Il selenio funziona utilizzando un plug-in del browser e un server basato su java. Il codice del test del selenio (o codice non di test nel tuo caso) può essere scritto in una varietà di linguaggi tra cui java, C# e altri linguaggi .Net, php, perl, python e ruby.
Perché scegliere quando si può avere entrambe le cose? TestPlan supporta sia selenio che HTMLUnit come back-end. Inoltre, ha un linguaggio molto semplice per eseguire i compiti più comuni (le estensioni possono essere scritte in Java se necessario, il che è raro in realtà).
- 1. Scraping pagine web abilitate ajax
- 2. pagine Web che proprio pagine troppa roba
- 3. Moduli GWT e pagine Web
- 4. Le web socket in HTML 5 sostituiranno ajax per l'aggiornamento parziale delle pagine?
- 5. Pagina Carica alternativa in un sito Web HTML puro AJAX
- 6. Scansione web (pagine abilitate Ajax/JavaScript) utilizzando java
- 7. Caricamento veloce pagine web
- 8. come creare più pagine PDF da HTML
- 9. Ajax: Costruzione HTML vs iniezione HTML
- 10. HTML Button reindirizza pagine
- 11. Esiste un modo per impedire che le pagine AJAX vengano visualizzate da sole in un browser?
- 12. Come posso raccogliere dati da un sito Web che utilizza AJAX, con Perl?
- 13. Ajax Script Manager e Pagine master
- 14. AJAX - receving la risposta dopo che l'utente cambia le pagine
- 15. Progetti che utilizzano py.test
- 16. Come richiedere le pagine dal sito Web che utilizza OpenID?
- 17. Pagine Web ASP.NET che non riflettono le modifiche recenti
- 18. REST Web Services che utilizzano MVC, è una buona idea?
- 19. Linee curve che utilizzano solo HTML e/o CSS
- 20. Scraping di dati da tutte le pagine di asp.net con impaginazione AJAX implementata
- 21. Come ottenere l'immagine di anteprima da una pagina Web
- 22. Firme elettroniche nelle pagine Web
- 23. Come ottenere il contenuto html da UIWebView?
- 24. Utilizzo di GZIP con pagine html servite da Amazon S3
- 25. Inclusione di file JavaScript da GitHub in pagine HTML
- 26. Generazione di PDF da HTML con caratteri non latini che utilizzano ITextRenderer non funziona
- 27. Come collegarsi alle pagine senza l'estensione .html?
- 28. come incorporare codici su pagine html
- 29. utilizzando i metodi web con le pagine master
- 30. Web scraping con jquery e ajax