Perl o python sono le scelte più ovvie, dipende da cosa si adatta meglio alla fine della giornata. Né sono così difficili, ma in generale, se si scopre che si preferisce un linguaggio linguistico fluente che è perl flessibile, si adatta meglio a te, dove ti sembra di preferire un linguaggio più rigido con una mentalità più matematica (specialmente nel credere che ci sia solo un modo per fare qualcosa di giusto) allora probabilmente ti sentiresti più a tuo agio in pitone. Altre lingue possono fare il lavoro abbastanza bene, ma quelle due sono scelte ovvie a causa della portabilità ed essere linguaggi forti per le attività di scripting CLI, in particolare la manipolazione del testo, oltre ad essere forti linguaggi webdev che portano a un gran numero di moduli utili disponibili per attività orientate al web (dando il beneficio di php menzionato, ma senza gli aspetti negativi di php per clientide). Se un gran numero di moduli utili è disponibile per te, allora Perl ha enormi quantità in più per questo tipo di attività rispetto a qualsiasi altra lingua (su CPAN) potrebbe valere la pena controllare se c'è un codice che puoi riutilizzare là prima di prendere il immergiti in quale lingua usare. In certe aree uno è più veloce dell'altro (Python generalmente eccelle in matematica complessa, perl può generalmente processare il testo più velocemente, dipende da come lo si fa).
Altre scelte linguistiche sono disponibili, un linguaggio compilato è meno portabile e quindi in genere più difficile da configurare su un server, tuttavia viene eseguito più rapidamente. I linguaggi di scripting sono generalmente progettati per manipolare testo e file con maggiore facilità rispetto ai linguaggi compilati, sebbene non sempre siano veri. Mi sento più a mio agio con Perl, quindi lo userei, ma io dico che non è la base su cui dovresti prendere una decisione, scopri quali sono le risorse che puoi usare e quali ti piace sentire meglio (leggi alcune codice vedere quale stile ha più senso per te) e poi decidere.
Oh e orielly hanno un libro sulla programmazione dell'intelligenza collettiva rivolta ai principianti sull'argomento, non l'ho mai letto ma dovrebbe essere piuttosto buono, sfogliarlo in un negozio e considerarlo come il suo argomento principale del web -Algoritmi di crawler ... Usa python per degli esempi.
I siti Web non sono in grado di proteggersi dai crawler, ma i crawler sono tenuti all'osservanza del Protocollo di esclusione dei robot e i clienti sono obbligati a rispettare i termini del servizio per qualsiasi sito Web. –
Sono d'accordo con te. – alamar
La maggior parte delle cose sul web richiamano Java per la programmazione dei crawler. Java è troppo complicato? o qual è il problema? – Alex