2013-04-02 21 views
5

Sto cercando un parser di microdata HTML di buona qualità in Python. Non deve essere velocissimo, ma mi piacerebbe che supporti il ​​più possibile il the spec, incluso itemref.Quale parser Microdata dovrei usare in Python

Ecco quello che ho trovato finora:

Hai usato una di queste librerie? Quali erano i pro e i contro?

Sono anche curioso di analizzare documenti HTML formattati male. Hai trovato un parser Microdata che gestisce l'input disordinato o esegui l'input tramite qualcosa come BeautifulSoup prima?

risposta

4

In quale formato si desidera analizzare i microdati?

https://github.com/RDFLib/pymicrodata analizzerà a RDF.

Se si desidera utilizzare JSON, è necessario utilizzare https://github.com/edsu/microdata, che ha recentemente ottenuto un po 'di attenzione e dovrebbe essere più conforme alle specifiche.

https://pypi.python.org/pypi/pelican-microdata/0.1 sembra un modo per generare Microdati per un particolare generatore di siti statici, quindi non penso che possa essere d'aiuto con l'analisi.

Non so quanto sia tollerante l'HTML mal formattato dei parser di cui sopra. Se conosci qualche markup formattato in modo non corretto che usa Microdata, sarei interessato a vedere quanto bene i parser di Ruby gestiscono questi casi.

+0

O RDF di JSON sono accettabili. Finché riesco a scorrere i valori delle proprietà di un oggetto. Alla fine potrei essere interessato a ottenere l'output come JSON-LD ma probabilmente sulla stessa quantità di lavoro da generare da JSON o RDF. –

+1

Ho finito per usare il parser di Ed Summers. Ha gestito tutto ciò che ho lanciato finora. Grazie! –