Test HTML scaricabile Corpus

Sto lavorando a un plug-in del browser per Firefox e vorrei essere in grado di eseguire alcuni test automatici per assicurarmi che gestisca correttamente una varietà di differenti funzionalità HTML/JavaScript. Qualcuno sa di un buon corpus scaricabile di pagine HTML e/o JavaScript che potrebbero essere utilizzate per questo tipo di test?Test HTML scaricabile Corpus

fonte

2010-06-14 Alex Jordan

plase specificare requisiti aggiuntivi: cosa deve contenere una pagina HTML? Cosa non è permesso contenere? Qual è il comportamento preferito di una tale pagina? In base alla risposta a queste domande, potrebbe essere possibile generare automaticamente un corpus. – artistoex

Dotbot pubblica di file torrent con 14 GB di HTML spidered nel 2009.

fonte

2010-06-25 17:00:42 Kornel

Questo è abbastanza vicino a ciò a cui stavo pensando. Grazie! –

Sembra non esistere nel 2014. – bain

Vuoi dire come questa pagina: http://acid3.acidtests.org/ ?

fonte

2010-06-14 14:32:14

Io non la penso così - per quanto posso dire, i test di Acid si concentrano sulla conformità agli standard, in particolare sul w.r.t. DOM e JavaScript. Mi piacerebbe pagine più realistiche che non siano completamente conformi, che abbia alcuni altri tipi di funzionalità JavaScript, ecc. –

Il progetto WebKit utilizza SunSpider, che prevede test basati su modelli di progettazione "reali".

La suite di test di Ian Hickson HTML potrebbe avere qualcosa in linea con le tue esigenze.

fonte

2010-06-19 20:06:49 Mike

Questo ECMAScript 5 test suite test (quasi?) Tutte le funzionalità JavaScript dello standard corrente. Solo le funzionalità specifiche del browser non sono testate.

fonte

2010-06-20 01:55:59

Non so di un confezionato, pronto ad andare corpus di documenti HTML/JavaScript (anche se sembra che qualche altro modo che le persone fanno.) Se fossi nella tua situazione, costruirò il mio corpus (saprai che è attuale e saprai esattamente con cosa hai a che fare).

di costruire il proprio, è possibile intoppo uno dei the open source crawlers, o semplicemente usare wget in modo ricorsivo:

wget -t 7 -w 5 --waitretry=14 --random-wait -l 2 -m -k -K -e robots=off http://stackoverflow.com -o ./myLog.log

desidera estendere il di cui sopra? Script qualcosa che attira un top n elenco di siti da Google, e inietti quegli URL nel comando wget sopra.

fonte

2010-06-25 17:34:32 labratmatt

Sai come fermare 'wget' dal download di file di grandi dimensioni? (ZIP, ISO, ecc. Collegati alle pagine?) Ho provato 'wget' una volta, ma ho finito per risucchiare un sacco di spazzatura non HTML. Inoltre non dovresti suggerire "robot = spento" per la scansione generale. Non è una buona netizenship. – Kornel

@pornel - A: Sono d'accordo, robots = off è una cattiva idea per la scansione generale, ma in casi singoli come sopra, non vedo un problema. B: Sembra che potresti essere in grado di aggiungere un'opzione a wget per guardare la lunghezza del contenuto nell'intestazione (se il server lo include nella risposta). Non credo che wget l'abbia implementato al momento, ma non conosco un bel po 'di wget. Qualcuno ha qualche dettaglio su questo? – labratmatt

Questo ha funzionato alla grande per stackoverflow.com. Qualche idea sul perché stia solo tirando qualche pagina per qualcosa come yelp.com? –

Test HTML scaricabile Corpus

risposta

Problemi correlati