OPZIONE 1
Si potrebbe checkout Goose. Fa qualcosa di simile a ciò che Pocket e Readability fanno, cioè tenta di estrarre l'articolo principale da una determinata pagina web usando un insieme di euristiche. Apparentemente può anche estrarre l'immagine principale da quell'articolo, ma è un po 'incostante, quindi il 60% delle volte funziona ogni volta.
Era un progetto Java ma riscritto su Scala.
Dal readme
oca cercherà di estrarre le seguenti informazioni:
- testo principale di un articolo
- Immagine principale dell'articolo
- qualsiasi film Youtube/Vimeo incorporato nell'articolo
- Meta Descrizione
- Meta tag
- Pubblica Data
Provalo qui: http://jimplush.com/blog/goose
OPZIONE 2
Si potrebbe utilizzare un wrapper Java (per esempio GhostDriver) per l'esecuzione di un browser senza testa, ad esempio PhantomJS. Quindi, recupera il sito Web e trova l'elemento img
con le dimensioni più grandi. This GhostDriver test case mostra come interrogare il DOM per gli elementi e ottenere la sua dimensione renderd.
OPZIONE 3
utilizzare una libreria come jsoup che ti aiuta analizzare HTML. Quindi ottenere il valore dell'attributo src
da tutti i tag img
. Richiedi ogni URL che trovi per un'immagine e misura le loro dimensioni. È probabile che quello con le dimensioni più grandi sia l'immagine principale del sito.
[jsoup] (http://jsoup.org/) .... – MadProgrammer