Il mio livello Python è Novizio. Non ho mai scritto un web scraper o crawler. Ho scritto un codice Python per connettermi ad un API ed estrarre i dati che voglio. Ma per alcuni dati estratti voglio ottenere il sesso dell'autore. Ho trovato questo sito web http://bookblog.net/gender/genie.php
, ma lo svantaggio è che non esiste una API disponibile. Mi chiedevo come scrivere un python per inviare dati al modulo nella pagina ed estrarre i dati di ritorno. Sarebbe di grande aiuto se potessi avere una guida su questo.Invia dati tramite modulo web ed estrai i risultati
Questa è la forma dom:
<form action="analysis.php" method="POST">
<textarea cols="75" rows="13" name="text"></textarea>
<div class="copyright">(NOTE: The genie works best on texts of more than 500 words.)</div>
<p>
<b>Genre:</b>
<input type="radio" value="fiction" name="genre">
fiction
<input type="radio" value="nonfiction" name="genre">
nonfiction
<input type="radio" value="blog" name="genre">
blog entry
</p>
<p>
</form>
risultati pagina dom:
<p>
<b>The Gender Genie thinks the author of this passage is:</b>
male!
</p>
ho provato a fare easy_install lxml.html ma ottenendo il seguente errore easy_install lxml.html Ricerca lxml.html Lettura http://pypi.python.org/simple/lxml .html/ Impossibile trovare la pagina di indice per "lxml.html" (forse errata?) Indice di scansione di tutti i pacchetti (potrebbe richiedere un po 'di tempo) Lettura http://pypi.python.org/simple/ No pacchetti locali o collegamenti di download trovati per lxml.html errore: Impossibile trovare la distribuzione adatta per Requirement.parse ('lxml.html') –
In un modulo di importazione, se due nomi hanno un '.' tra di essi, significa che il il secondo nome è all'interno del nome precedente. Il modulo che vuoi installare è lxml. – Acorn
grazie l'ho capito dopo aver inserito il commento. Grazie agianl –