Come posso accedere agli elementi XML con spazio dei nomi usando BeautifulSoup?

Ho un documento XML che si legge come questo:Come posso accedere agli elementi XML con spazio dei nomi usando BeautifulSoup?

<xml> 
<web:Web> 
<web:Total>4000</web:Total> 
<web:Offset>0</web:Offset> 
</web:Web> 
</xml>

la mia domanda è come faccio ad accedervi utilizzando una libreria come BeautifulSoup in Python?

xmlDom.web ["Web"]. Totale? non funziona?

fonte

2010-06-17 demos

BeautifulSoup non è una libreria DOM di per sé (non implementa le API DOM). Per rendere le cose più complicate, stai usando gli spazi dei nomi in quel frammento xml. Per analizzare quel pezzo specifico di XML, utilizza BeautifulSoup come segue:

from BeautifulSoup import BeautifulSoup 

xml = """<xml> 
    <web:Web> 
    <web:Total>4000</web:Total> 
    <web:Offset>0</web:Offset> 
    </web:Web> 
</xml>""" 

doc = BeautifulSoup(xml) 
print doc.find('web:total').string 
print doc.find('web:offset').string

Se non stava utilizzando namespace, il codice potrebbe essere la seguente:

from BeautifulSoup import BeautifulSoup 

xml = """<xml> 
    <Web> 
    <Total>4000</Total> 
    <Offset>0</Offset> 
    </Web> 
</xml>""" 

doc = BeautifulSoup(xml) 
print doc.xml.web.total.string 
print doc.xml.web.offset.string

La chiave qui è che BeautifulSoup non sa (o cura) nulla di namespace. Pertanto, web:Web viene considerato come un tag web:web anziché come tag Web appartenente allo spazio dei nomi web. Mentre BeautifulSoup aggiunge web:web al dizionario degli elementi xml, la sintassi python non riconosce web:web come un unico identificatore.

Per ulteriori informazioni, consultare lo documentation.

fonte

2010-06-17 05:06:23

grazie! funziona perfettamente ora. Mi sto sempre confondendo su cosa dare a find() ..e queste definizioni di namespace e il modo in cui sono scritte mi confonde molto ... qualsiasi link per cancellare tutto ciò sarebbe apprezzato! – demos

Solo il link alla documentazione ti ho già dato ... e molti esperimenti. –

'AttributeError: L'oggetto 'NoneType' non ha attributo 'stringa'' –

Questa è una vecchia questione, ma qualcuno potrebbe non sapere che almeno BeautifulSoup 4fa namespace gestire bene se si passa 'xml' come secondo argomento al costruttore:

soup = BeautifulSoup("""<xml> 
<web:Web> 
<web:Total>4000</web:Total> 
<web:Offset>0</web:Offset> 
</web:Web> 
</xml>""", 'xml') 

print soup.prettify() 
<?xml version="1.0" encoding="utf-8"?> 
<xml> 
<Web> 
    <Total> 
    4000 
    </Total> 
    <Offset> 
    0 
    </Offset> 
</Web> 
</xml>

fonte

2016-02-22 21:22:26

Questo non è esattamente vero per la versione 4.4.1-1 (in ubuntu 64 16.04). Poiché i commenti sono limitati. Vedi [collegamento] (https://pastebin.com/Q99iK6tM) –

È necessario definire in modo esplicito lo spazio dei nomi sulla radice elemento, usando la sintassi xmlns:prefix="URI" (see examples here), e quindi accedi all'attributo tramite prefix:tag da BeautifulSoup. Tieni presente ciò che dovresti anche definire esplicitamente, in che modo BeautifulSoup dovrebbe elaborare il tuo documento, in tal caso:

xml = BeautifulSoup(xml_content, 'xml')

fonte

2016-06-01 13:47:19 inoks

Come posso accedere agli elementi XML con spazio dei nomi usando BeautifulSoup?

risposta

Problemi correlati