2009-07-11 7 views
5

Sto provando ad usare il modulo XML :: RAI perl sul testo in codice UTF8 e ho ancora un errore che non capisco ... ecco il codice (non dovrebbe fare qualcosa di utile ancora):"Impossibile decodificare la stringa con caratteri larghi" appare in un posto strano

use HTTP::Request; 
use LWP::UserAgent; 
use XML::RAI; 
use Encode; 

my $ua = LWP::UserAgent->new; 


sub readFromWeb{ 
    my $address = shift; 
    my $request = HTTP::Request->new(GET => $address); 
    my $response = $ua->request($request); 
    return unless $response->code == 200; 

    return decode("utf8", $response->content()); 
} 

sub readFromRSS{ 
    my $address=shift; 
    my $content = readFromWeb $address; 
    my $rai = XML::RAI->parse_string($content); 
      #this line "causes" the error 
} 


readFromRSS("http://aktualne.centrum.cz/export/rss-hp.phtml"); 
    #I am testing it on this particular RSS 

l'errore è:

Cannot decode string with wide characters at /usr/lib/perl5/5.8.8/i686-linux/Encode.pm line 166. 

non ho la minima idea se questo è colpa mia o colpa di XML :: RAI. Non vedo dove possano essere questi grandi caratteri, se $ content è già decodificato da utf8 ...

modifica: per qualche motivo non riesco ancora a capire, la rimozione della parte "decodifica" ha effettivamente risolto il problema.

risposta

9

Il problema è la doppia decodifica. XML::RAI::parse_string() apparentemente si aspetta un documento con codifica UTF-8 e esegue la decodifica stessa. Se passa in una stringa che è già decodificato, decodifica una seconda volta fallirà, naturalmente:

#!/usr/bin/perl 
use strict; 
use warnings; 

use Encode qw(decode); 
use LWP::Simple qw(get); 

my $xml = get("http://aktualne.centrum.cz/export/rss-hp.phtml"); 

$xml = decode('UTF-8', $xml); 
$xml = decode('UTF-8', $xml); # dies: Cannot decode string with wide characters ... 

Quindi, solo saltare la fase decode() e andrà tutto bene.

Problemi correlati