Nove anni fa, quando ho iniziato ad analizzare l'HTML e il testo libero con Perl, ho letto il classico Data Munging with Perl. Qualcuno sa se David ha intenzione di aggiornare il libro o se ci sono libri o pagine web simili in cui vengono spiegati i nuovi moduli di analisi come XML-Twig, Regexp-Grammars, ecc.?Quali moduli Perl vanno bene per i dati munging?
Suppongo che negli ultimi nove anni alcuni moduli siano ancora validi come erano, alcuni sono aggiornati ma con nuovi metodi interessanti e alcuni hanno sostituzioni migliori. Ad esempio, è ancora Parse-RecDescent l'unica opzione per l'analisi del testo libero o sarà il Perl 6 influenzato Regexp-Grammars la sua sostituzione in molti scenari?
Ho trascorso quattro anni senza HTML attivo, XML o data mining di testo libero con Perl, quindi probabilmente il mio toolkit in questo settore è un po 'obsoleto. Pertanto qualsiasi feedback per la manipolazione di HTML e DOM, link di estrazione/verifica, test web come Mechanize, manipolazione XML e analisi del testo libero, da persone che sono aggiornate con i moduli CPAN attuali in quest'area sarà più che benvenuto.
alcune nuove aggiunte al mio toolkit:
ancora nel mio toolkit:
- HTML-TableExtract # non aggiornato dal 2006
- WWW-Mechanize
- Parse-RecDescent
- HTML-TokeParser
- URI-Escape
- [continua ...]
alcune delle specifiche potrebbe avere cambiato, ma i concetti sono gli stessi. :) –
Dave, sarebbe un piacere leggere un giorno queste recensioni e ricette sul tuo blog. –
Sì, sarei MOLTO interessato a leggere anche quei post. Se finisci per postare alcuni aggiornamenti aggiuntivi sul tuo blog, è super. Saluti! – blunders