Riconoscimento del testo come semplificato rispetto al cinese tradizionale

Dato un blocco di testo che è noto per essere cinese e codificato in UTF-8, c'è un modo per determinare se è semplificato o tradizionale?Riconoscimento del testo come semplificato rispetto al cinese tradizionale

fonte

2010-11-02 philfreo

Non so se funzionerà, ma proverei ad usare iconv per vedere se si tradurrà correttamente tra i set di caratteri, confrontando i risultati della stessa conversione con // TRANSLIT e // IGNORE. Se i due risultati corrispondono, la conversione del set di caratteri non ha incontrato caratteri che non riescono a tradurre, quindi dovresti avere una corrispondenza.

$test1 = iconv("UTF-8", "big5//TRANSLIT", $text); 
$test2 = iconv("UTF-8", "big5//IGNORE", $text); 
if ($test1 == $test2) { 
    echo 'traditional'; 
} else { 
    $test3 = iconv("UTF-8", "gb2312//TRANSLIT", $text); 
    $test4 = iconv("UTF-8", "gb2312//IGNORE", $text); 
    if ($test3 == $test4) { 
     echo 'simplified'; 
    } else { 
     echo 'Failed to match either traditional or simplified'; 
    } 
}

fonte

2010-11-03 00:07:55

interessante, grazie! Sembra che funzioni sicuramente, anche se molti testi tornano come "nessuno dei due" (esempio: "聲音鳥樹葉話説話細又輕蝴蝶請只有得聼))"). Qualche idea? Dovevo anche fare '@ iconv' per le 2 chiamate 'TRANSLIT' per sopprimere gli errori. – philfreo

Ci sono alcuni caratteri z-varianti che non si trovano nel GB-2312 di base, ma sono in GB-18030. Prova ''gb18030'' anziché'' gb2312''. O se il tuo input è orientato a Windows potresti preferire "cp936" (e "cp950" invece di "big5"). – bobince

Ho effettuato lo scambio in 'gb18030' e tutti i miei dati di test sono stati riconosciuti. (Non posso essere sicuro della precisione però). Grazie! – philfreo

Dal big5 e gb2312 omettere un bel paio di varianti di uso comune che sono presenti in Unicode, il codice si affidano a corrispondenza esatta tra le modalità translit e ignore fallirebbe in un bel po 'di normali casi di utilizzo: fallirebbe per identificare 説話 come cinese tradizionale nonostante 説 essere una variante comune a Hong Kong per 說 che viene utilizzato in big5.

una semplice correzione è di farlo in un modo sfocata:

$test1 = iconv("UTF-8", "big5//IGNORE", $text); 
$test2 = iconv("UTF-8", "gb2312//IGNORE", $text); 
$len1 = mb_strlen($test1); 
$len2 = mb_strlen($test2); 
$len0 = mb_strlen($text) * 0.8; // threshold 
if ($len1 > $len2 && $len1 > $len0) { 
    return 'Likely Traditional'; 
} 
if ($len2 > $len1 && $len2 > $len0) { 
    return 'Likely Simplified'; 
} 
return 'Could not identify';

fonte

2016-01-20 19:12:52

Riconoscimento del testo come semplificato rispetto al cinese tradizionale

risposta

Problemi correlati