È possibile che lxml funzioni senza distinzione tra maiuscole e minuscole?

Sto provando a raschiare parole chiave META e tag descrittivi da siti web arbitrari. Ovviamente non ho alcun controllo su detto sito, quindi devo prendere ciò che mi viene dato. Hanno una varietà di involucri per il tag e gli attributi, il che significa che ho bisogno di lavorare senza distinzione tra maiuscole e minuscole. Non posso credere che gli autori di lxml siano così testardi da insistere sulla piena conformità agli standard forzati quando esclude gran parte dell'uso della loro biblioteca.È possibile che lxml funzioni senza distinzione tra maiuscole e minuscole?

mi piacerebbe poter dire doc.cssselect('meta[name=description]') (o qualche XPath equivalente), ma questo non prenderà <meta name="Description" Content="..."> tag dovuti Othe captial D.

Attualmente sto usando questo come una soluzione, ma è orribile!

for meta in doc.cssselect('meta'): 
    name = meta.get('name') 
    content = meta.get('content') 

    if name and content: 
     if name.lower() == 'keywords': 
      keywords = content 
     if name.lower() == 'description': 
      description = content

Sembra che il nome del tag meta è trattato caso insensibile, ma gli attributi non sono. Sarebbe ancora più fastidioso meta troppo sensibile al maiuscolo/minuscolo!

fonte

2009-11-14 Mat

Valori degli attributi devono essere case-sensitive.

È possibile utilizzare espressioni regolari arbitraria per selezionare un elemento:

#!/usr/bin/env python 
from lxml import html 

doc = html.fromstring(''' 
    <meta name="Description"> 
    <meta name="description"> 
    <META name="description"> 
    <meta NAME="description"> 
''') 
for meta in doc.xpath('//meta[re:test(@name, "^description$", "i")]', 
         namespaces={"re": "http://exslt.org/regular-expressions"}): 
    print html.tostring(meta, pretty_print=True),

uscita:

<meta name="Description"> 
<meta name="description"> 
<meta name="description"> 
<meta name="description">

fonte

2009-11-14 13:23:48 jfs

molto bello, non ho mai notato che il supporto EXSLT di lxml .. – mykhal

lxml è un parser XML. XML è case-sensitive. Stai analizzando l'HTML, quindi dovresti usare un parser HTML. BeautifulSoup è molto popolare. L'unico inconveniente è che può essere lento.

fonte

2009-11-14 13:06:10

'lxml.html',' lxml.html.soupparser', e 'lxml.html.html5parser' fornire parser HTML. – jfs

BeautifulSoup mostra il markup in molte pagine, in particolare con Javascript contenente stringhe con tag al loro interno. lxml no, quindi perché volevo usare lxml. – Mat

@Mat: [Beautiful Soup 4 può usare 'lxml' come parser] (http://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser). – jfs

È possibile utilizzare

doc.cssselect.xpath("//meta[translate(@name, 
    'ABCDEFGHJIKLMNOPQRSTUVWXYZ', 'abcdefghjiklmnopqrstuvwxyz')='description']")

Traduce il valore di "nome" per minuscolo e quindi corrisponde.

Consulta anche:

fonte

2012-02-13 16:56:34

È possibile che lxml funzioni senza distinzione tra maiuscole e minuscole?

risposta

Problemi correlati