Utilizzando il raschietto Web, è possibile estrarre il contenuto utile dalla pagina Web e convertirlo in qualsiasi formato, se applicabile.
WebScrap ws= new WebScrap();
//set your extracted website url
ws.setUrl("http://dasnicdev.github.io/webscrap4j/");
//start scrap session
ws.startWebScrap();
Ora il vostro web-rottamazione inizio sessione e pronti per la demolizione o estrarre dati in Java utilizzando webscrap4j library.
Per il titolo:
System.out.println("-------------------Title-----------------------------");
System.out.println(ws.getSingleHTMLTagData("title"));
Per Messaggio personale:
System.out.println("-------------------Tagline-----------------------------");
System.out.println(ws.getSingleHTMLScriptData("<h2 id='project_tagline'>", "</h2>"));
For All tag di ancoraggio:
System.out.println("-------------------All anchor tag-----------------------------");
al=ws.getImageTagData("a", "href");
for(String adata: al)
{
System.out.println(adata);
}
Per i dati Image:
System.out.println("-------------------Image data-----------------------------");
System.out.println(ws.getImageTagData("img", "src"));
System.out.println(ws.getImageTagData("img", "alt"));
Per Ul-Li dati:
System.out.println("-------------------Ul-Li Data-----------------------------");
al=ws.getSingleHTMLScriptData("<ul>", "</ul>","<li>","</li>");
for(String str:al)
{
System.out.println(str);
}
Per un pieno controllo del codice sorgente di questo tutorial.
Grazie, è una bella libreria senza dipendenze quindi è abbastanza leggero. Inoltre, è senza testa quindi non ha bisogno di un browser (ho avuto problemi con ** Selenium ** che apre Chrome e non ho potuto usare ** HtmlUnit **). ** Il selenio ** deve essere più realistico ma questa libreria potrebbe servire allo scopo nella maggior parte dei casi di scraping ed è davvero facile da configurare: aggiungi la dipendenza e sei a posto. –
Ottima libreria davvero. Configurazione semplice e potente supporto regex. doc.select ("li [id =^cosid_]"). Freddo. – EMM
Ho recentemente aperto il mio framework di scraping web che non solo consente di analizzare i documenti con Jsoup e HtmlUnit, ma gestisce anche la parallelizzazione per te e può gestire un ampio pool di server proxy, se necessario: https://github.com/subes/invesdwin-webproxy – subes