Sto usando la libreria feedparser in python per recuperare le notizie da un giornale locale (il mio intento è quello di eseguire Natural Language Processing su questo corpus) e vorrei poter recuperare molti passati voci dal feed RSS.Feedparser - recupera i vecchi messaggi da Google Reader
Non conosco molto bene i problemi tecnici dell'RSS, ma penso che questo dovrebbe essere possibile (vedo che Google Reader e Feedly possono fare questo "on demand" mentre sposto la barra di scorrimento).
Quando faccio la seguente:
import feedparser
url = 'http://feeds.folha.uol.com.br/folha/emcimadahora/rss091.xml'
feed = feedparser.parse(url)
for post in feed.entries:
title = post.title
ottengo solo una dozzina di voci o giù di lì. Stavo pensando a centinaia. Forse tutte le voci nell'ultimo mese, se possibile. È possibile farlo solo con feedparser?
Ho intenzione di ottenere dal feed rss solo il collegamento alla notizia e analizzare la pagina intera con BeautifulSoup per ottenere il testo che voglio. Una soluzione alternativa sarebbe un crawler che segue tutti i link locali nella pagina per ottenere molte notizie, ma per ora voglio evitarlo.
-
Una soluzione che è apparso è quello di utilizzare la cache di Google Reader RSS:
Ma per accedere a questo devo essere loggato per Google Reader. Qualcuno sa come lo faccio da Python? (Io davvero non so nulla del web, di solito mi pasticcio solo con il calcolo numerico).
Grazie ancora Bartek. Penso di capirlo meglio ora. Quindi l'RSS è semplicemente un file xml memorizzato nel server? Ho avuto l'immagine sbagliata a riguardo ... pensavo che fosse un "protocollo" per ottenere un feed di testo. Grazie ancora. –