Sto lavorando a un plug-in del browser per Firefox e vorrei essere in grado di eseguire alcuni test automatici per assicurarmi che gestisca correttamente una varietà di differenti funzionalità HTML/JavaScript. Qualcuno sa di un buon corpus scaricabile di pagine HTML e/o JavaScript che potrebbero essere utilizzate per questo tipo di test?Test HTML scaricabile Corpus
risposta
Vuoi dire come questa pagina: http://acid3.acidtests.org/ ?
Io non la penso così - per quanto posso dire, i test di Acid si concentrano sulla conformità agli standard, in particolare sul w.r.t. DOM e JavaScript. Mi piacerebbe pagine più realistiche che non siano completamente conformi, che abbia alcuni altri tipi di funzionalità JavaScript, ecc. –
Questo ECMAScript 5 test suite test (quasi?) Tutte le funzionalità JavaScript dello standard corrente. Solo le funzionalità specifiche del browser non sono testate.
Non so di un confezionato, pronto ad andare corpus di documenti HTML/JavaScript (anche se sembra che qualche altro modo che le persone fanno.) Se fossi nella tua situazione, costruirò il mio corpus (saprai che è attuale e saprai esattamente con cosa hai a che fare).
di costruire il proprio, è possibile intoppo uno dei the open source crawlers, o semplicemente usare wget in modo ricorsivo:
wget -t 7 -w 5 --waitretry=14 --random-wait -l 2 -m -k -K -e robots=off http://stackoverflow.com -o ./myLog.log
desidera estendere il di cui sopra? Script qualcosa che attira un top n elenco di siti da Google, e inietti quegli URL nel comando wget sopra.
Sai come fermare 'wget' dal download di file di grandi dimensioni? (ZIP, ISO, ecc. Collegati alle pagine?) Ho provato 'wget' una volta, ma ho finito per risucchiare un sacco di spazzatura non HTML. Inoltre non dovresti suggerire "robot = spento" per la scansione generale. Non è una buona netizenship. – Kornel
@pornel - A: Sono d'accordo, robots = off è una cattiva idea per la scansione generale, ma in casi singoli come sopra, non vedo un problema. B: Sembra che potresti essere in grado di aggiungere un'opzione a wget per guardare la lunghezza del contenuto nell'intestazione (se il server lo include nella risposta). Non credo che wget l'abbia implementato al momento, ma non conosco un bel po 'di wget. Qualcuno ha qualche dettaglio su questo? – labratmatt
Questo ha funzionato alla grande per stackoverflow.com. Qualche idea sul perché stia solo tirando qualche pagina per qualcosa come yelp.com? –
- 1. creare un corpus da molti file html in R
- 2. Documentazione Elixir scaricabile
- 3. pitone - rendendo file scaricabile
- 4. Annotazione di un corpus (Syntaxnet)
- 5. Parolel Word Corpus russo-inglese?
- 6. Cache Contenuto scaricabile progressivo in MPMoviePlayerController
- 7. File Excel scaricabile in uscita da Spring
- 8. Creazione di un nuovo corpus con NLTK
- 9. Wordcloud + errore di corpus in R
- 10. Cetriolo + test paralleli. Risultati HTML?
- 11. Come produrre un output test del test html in Python?
- 12. Come estrarre le frasi da corpus usando gensim
- 13. Django - Creare uno Zip di più file e renderlo scaricabile
- 14. C'è qualche gestore di repository git decente che è scaricabile?
- 15. Come generare un PDF scaricabile con pdfbox (PDF danneggiato)?
- 16. Skip Checkout in Magento per un prodotto scaricabile
- 17. Come rendere R tm corpus di 100 milioni di tweet?
- 18. Come addestrare lo Stanford Parser con Genia Corpus?
- 19. Come mostrare il testo del corpus nel pacchetto R tm?
- 20. Creazione di un corpus personalizzato categorizzato in NLTK e Python
- 21. Utilizzando R per raschiare l'indirizzo di collegamento di un file scaricabile da una pagina Web?
- 22. Test Rspec per entità html nel contenuto della pagina
- 23. Sito Web per test live di HTML/JS
- 24. Combina i registri HTML di test dell'interfaccia utente codificati?
- 25. Il test funzionale Symfony2 stampa redirect html e interrompe l'esecuzione del test
- 26. Come posso generare una classe C# scaricabile da un sito Web ASP.NET MVC?
- 27. export html table a csv
- 28. maglia HTML non salva HTML in vignette/
- 29. Pacchetto html, js, css come app desktop
- 30. jar joda-time 1.6.2 non scaricabile dal repository centrale di Maven
plase specificare requisiti aggiuntivi: cosa deve contenere una pagina HTML? Cosa non è permesso contenere? Qual è il comportamento preferito di una tale pagina? In base alla risposta a queste domande, potrebbe essere possibile generare automaticamente un corpus. – artistoex