Come analizzare solo una categoria specifica di un sito Web utilizzando la raccolta di giornali?

Io uso Python3 e la libreria newspaper. Si dice che questa libreria possa creare un oggetto Source che è un'astrazione di un sito Web di notizie. Ma cosa succede se ho bisogno solo dell'astrazione di una certa categoria.Come analizzare solo una categoria specifica di un sito Web utilizzando la raccolta di giornali?

Ad esempio, quando utilizzo this url Desidero ottenere tutti gli articoli della categoria 'technology'. Invece, ottengo articoli da 'politics'.

Penso che quando si crea un oggetto Source, il giornale utilizzi solo il nome di dominio, che nel mio caso è www.kyivpost.com).

C'è un modo per farlo funzionare con URL come http://www.kyivpost.com/technology/?

fonte

2016-07-06 Andriy Stolyar

Hai trovato una via d'uscita per ottenere le categorie utilizzando il modulo di giornale, in caso affermativo puoi pubblicare la risposta –

newspaper utilizzerà il feed rss di un sito quando disponibile; KyivPost ha solo un feed rss e pubblica articoli principalmente sulla politica, motivo per cui il tuo set di risultati è prevalentemente politico.

È possibile avere più fortuna utilizzando BeautifulSoup per disegnare gli URL degli articoli specificatamente dalla pagina tecnologica e inviarli direttamente a newspaper.

fonte

2016-08-10 21:24:23

Come analizzare solo una categoria specifica di un sito Web utilizzando la raccolta di giornali?

risposta

Problemi correlati