2011-11-11 10 views
6

Ho bisogno di ottenere il contenuto di una casella di informazioni di qualsiasi film. Conosco il nome del film. Un modo è quello di ottenere il contenuto completo di una pagina di Wikipedia e quindi analizzarlo finché non trovo lo {{Infobox e poi ottenere il contenuto del riquadro delle informazioni.Contenuto di infobox di Wikipedia

C'è qualche altro modo per lo stesso utilizzando API o parser?

Sto usando Python e l'API pywikipediabot.

Ho anche familiarità con l'API wikitools. Quindi, invece di pywikipedia, se qualcuno ha una soluzione relativa all'API di wikitools, per favore menzionalo pure.

+1

Vedere anche ** [mediawiki api: come ottenere infobox da un articolo di wikipedia] (http://stackoverflow.com/questions/7638402/mediawiki-api-how-to-get-infobox-from-a-wikipedia -article) ** e ** [Ottieni tutti i modelli di Infobox di Wikipedia e tutte le pagine che li utilizzano] (http://stackoverflow.com/questions/8000211/get-all-wikipedia-infobox-templates-and-all-pages-using -them) ** – hippietrail

+0

Vuoi ottenere la stringa di inclusione del modello o il risultato analizzato? – Bergi

risposta

6

Invece di reinventare la ruota, controlla DBPedia, che ha già estratto tutte le infobox di Wikipedia in un formato di database facilmente analizzabile.

+4

Ho suggerito questo, ma il mio professore mi vuole fare questo modo –

+0

Ecco un intero gruppo di parser di MediaWiki: http://www.mediawiki.org/wiki/Alternative_parsers – jpatokal

+0

@jpatokal Ma come faccio a utilizzare le operazioni di REST per ottenere i dati di Infobox da DBPedia. Puoi per favore per favore indicare tutorial, risorse e dare qualche guida come posso farlo ???? –

0

È possibile ottenere il contenuto wikipage con pywikipdiabot, quindi, è possibile cercare l'infobox con regex, un parser come mwlib [0], o persino attaccare con pywikipediabot e utilizzare uno dei suoi strumenti modello. Ad esempio su textlib troverai alcune funzioni per gestire i template (suggerimento: cerca "# Funzioni che trattano i template"). [1]

[0] - http://pypi.python.org/pypi/mwlib

[1] - http://svn.wikimedia.org/viewvc/pywikipedia/trunk/pywikipedia/pywikibot/textlib.py?view=markup

7

Un altro grande parser MediaWiki è mwparserfromhell.

In [1]: import mwparserfromhell 

In [2]: import pywikibot 

In [3]: enwp = pywikibot.Site('en','wikipedia') 

In [4]: page = pywikibot.Page(enwp, 'Waking Life')    

In [5]: wikitext = page.get()    

In [6]: wikicode = mwparserfromhell.parse(wikitext) 

In [7]: templates = wikicode.filter_templates() 

In [8]: templates? 
Type:  list 
String Form:[u'{{Use mdy dates|date=September 2012}}', u"{{Infobox film\n| name   = Waking Life\n| im <...> critic film|waking-life|Waking Life}}', u'{{Richard Linklater}}', u'{{DEFAULTSORT:Waking Life}}'] 
Length:  31 
Docstring: 
list() -> new empty list 
list(iterable) -> new list initialized from iterable's items 

In [10]: templates[:2] 
Out[10]: 
[u'{{Use mdy dates|date=September 2012}}', 
u"{{Infobox film\n| name   = Waking Life\n| image   = Waking-Life-Poster.jpg\n| image_size  = 220px\n| alt   =\n| caption  = Theatrical release poster\n| director  = [[Richard Linklater]]\n| producer  = [[Tommy Pallotta]]<br />[[Jonah Smith]]<br />Anne Walker-McBay<br />Palmer West\n| writer   = Richard Linklater\n| starring  = [[Wiley Wiggins]]\n| music   = Glover Gill\n| cinematography = Richard Linklater<br />[[Tommy Pallotta]]\n| editing  = Sandra Adair\n| studio   = [[Thousand Words]]\n| distributor = [[Fox Searchlight Pictures]]\n| released  = {{Film date|2001|01|23|[[Sundance Film Festival|Sundance]]|2001|10|19|United States}}\n| runtime  = 101 minutes<!--Theatrical runtime: 100:40--><ref>{{cite web |title=''WAKING LIFE'' (15) |url=http://www.bbfc.co.uk/releases/waking-life-2002-3|work=[[British Board of Film Classification]]|date=September 19, 2001|accessdate=May 6, 2013}}</ref>\n| country  = United States\n| language  = English\n| budget   =\n| gross   = $3,176,880<ref>{{cite web|title=''Waking Life'' (2001)|work=[[Box Office Mojo]] |url=http://www.boxofficemojo.com/movies/?id=wakinglife.htm|accessdate=March 20, 2010}}</ref>\n}}"] 

In [11]: infobox_film = templates[1] 

In [12]: for param in infobox_film.params: 
      print param.name, param.value 

name    Waking Life 

image   Waking-Life-Poster.jpg 

image_size  220px 

alt    

caption   Theatrical release poster 

director   [[Richard Linklater]] 

producer   [[Tommy Pallotta]]<br />[[Jonah Smith]]<br />Anne Walker-McBay<br />Palmer West 

writer   Richard Linklater 

starring   [[Wiley Wiggins]] 

music   Glover Gill 

cinematography Richard Linklater<br />[[Tommy Pallotta]] 

editing   Sandra Adair 

studio   [[Thousand Words]] 

distributor  [[Fox Searchlight Pictures]] 

released   {{Film date|2001|01|23|[[Sundance Film Festival|Sundance]]|2001|10|19|United States}} 

runtime   101 minutes<!--Theatrical runtime: 100:40--><ref>{{cite web |title=''WAKING LIFE'' (15) |url=http://www.bbfc.co.uk/releases/waking-life-2002-3|work=[[British Board of Film Classification]]|date=September 19, 2001|accessdate=May 6, 2013}}</ref> 

country   United States 

language   English 

budget   

gross   $3,176,880<ref>{{cite web|title=''Waking Life'' (2001)|work=[[Box Office Mojo]] |url=http://www.boxofficemojo.com/movies/?id=wakinglife.htm|accessdate=March 20, 2010}}</ref> 

Non dimenticare che anche i parametri sono oggetti mwparserfromhell!

Problemi correlati