Quali librerie di web crawler PHP sono disponibili?

Sto cercando alcuni script di web crawler PHP robusti e ben documentati. Forse una porta PHP del progetto Java - http://wiki.apache.org/nutch/NutchTutorial Quali librerie di web crawler PHP sono disponibili?

Sto cercando sia versioni gratuite che non.

fonte

2011-01-30 Jason

Nessun crawler sta per eseguire lo scraping dei dati, è qualcosa che dovrai scrivere tu stesso. E assicurati anche che ciò che stai sollevando non sia protetto da copyright. –

Possibile duplicato di [Metodi migliori per analizzare HTML] (http://stackoverflow.com/questions/3577641/best-methods-to-parse-html/3577662#3577662) – Gordon

Ulteriori possibili duplicati in http://stackoverflow.com/search? q = web + crawler + php – Gordon

Basta provare Snoopy.

Estratto: "Snoopy è una classe PHP che simula un browser Web. Ad esempio, automatizza l'operazione di recupero del contenuto delle pagine Web e dei moduli di pubblicazione".

fonte

2011-01-30 12:06:05 Mimikry

Scusa amico, so che è un vecchio post ma la gente legge ancora questa risposta e ho downvoted perché Snoopy usa Regex per analizzare HTML e [non è bello] (http://stackoverflow.com/questions/6751105/why-its-not-possible-to-use-regex-to-parse-html-xml-a-formal-explanation-in- la)... – fernandosavio

È possibile utilizzare PHP Simple HTML DOM Parser. È davvero semplice e utile.

fonte

2011-01-30 10:48:08 Eray

Alternative di terze parti suggerite a [SimpleHtmlDom] (http://simplehtmldom.sourceforge.net/) che effettivamente usano [DOM] (http://php.net/manual/en/book.dom.php) invece di Analisi della stringa: [phpQuery] (http://code.google.com/p/phpquery/), [Zend_Dom] (http://framework.zend.com/manual/en/zend.dom.html) , [QueryPath] (http://querypath.org/) e [FluentDom] (http://www.fluentdom.org). – Gordon

Ho utilizzato DOM HTML semplice per circa 3 anni prima di scoprire phpQuery. È molto più veloce, non funziona in modo ricorsivo (puoi effettivamente scaricarlo) e ha un supporto completo per i selettori e i metodi jQuery.

fonte

2011-01-30 10:52:17 Kemo

@Gordon No, sono selettori jQuery. Da jQuery.com: "Prendendo in prestito i CSS 1-3 e aggiungendone il proprio, jQuery offre un potente set di strumenti per la corrispondenza di un insieme di elementi in un documento." – Kemo

Hmm, ok.Si estendono su selettori CSS. Immagino che sia una distinzione valida allora. Scusate. Raramente vedo persone che usano qualcosa che non è nel set di selettori CSS quando parlano di selettori * jQuery *. Fanno sembrare che jQuery li abbia inventati. – Gordon

@Gordon si, io h8 anche la parte "come li abbiamo inventati" :) Ulteriori informazioni su sizzlejs.com – Kemo

-2

Nessuno ha menzionato wget come un buon punto di partenza ?.

 
wget -r --level=10 -nd http://www.mydomain.com/

More @http://www.erichynds.com/ubuntulinux/automatically-crawl-a-website-looking-for-errors/

fonte

2013-02-11 23:41:53 dsomnus

se state pensando ad un componente di base forte di dare una prova di http://symfony.com/doc/2.0/components/dom_crawler.html

è sorprendente, avendo caratteristiche come selettore CSS.

fonte

2013-03-29 20:01:00

https://github.com/fabpot/Goutte è anche una buona libreria compatibile con psr-0 standard.

fonte

2013-04-15 09:42:42

c'è un tutorial greate here che unisce guzzlehttp e symfony/dom-crawler

Nel caso in cui il collegamento è perso qui è il codice è possibile utilizzare.

use Guzzle\Http\Client; 
use Symfony\Component\DomCrawler\Crawler; 
use RuntimeException; 

// create http client instance 
$client = new GuzzleHttp\ClientClient('http://download.cloud.com/releases'); 

// create a request 
$response = $client->request('/3.0.6/api_3.0.6/TOC_Domain_Admin.html'); 

// get status code 
$status = $response->getStatusCode(); 

// this is the response body from the requested page (usually html) 
//$result = $response->getBody(); 

// crate crawler instance from body HTML code 
$crawler = new Crawler($response->getBody(true)); 

// apply css selector filter 
$filter = $crawler->filter('div.apismallbullet_box'); 
$result = array(); 

if (iterator_count($filter) > 1) { 

    // iterate over filter results 
    foreach ($filter as $i => $content) { 

     // create crawler instance for result 
     $cralwer = new Crawler($content); 
     // extract the values needed 
     $result[$i] = array(
      'topic' => $crawler->filter('h5')->text(); 
      'className' => trim(str_replace(' ', '', $result[$i]['topic'])) . 'Client' 
     ); 
    } 
} else { 
    throw new RuntimeException('Got empty result processing the dataset!'); 
}

fonte

2017-01-03 05:30:00

Quali librerie di web crawler PHP sono disponibili?

risposta

Problemi correlati