Romanizzazione del testo Unicode

Sto cercando un modo per trascrivere caratteri di lettere Unicode da qualsiasi lingua in lettere latine accentate. L'intento è di consentire agli stranieri di ottenere informazioni sulla pronuncia dei nomi e delle parole scritte in qualsiasi scrittura non latina.Romanizzazione del testo Unicode

Esempi:

greca: Romanize("Αλφαβητικός") restituisce "Alphabētikós" (o "Alfavitikós")

giapponese: Romanize("しんばし") rendimenti "shimbashi" (o "sinbasi")

Russa: Romanize("яйца Фаберже") rendimenti "yaytsa Faberzhe" (o "jajca Faberže ")

Dovrebbe idealmente supportare i caratteri nei seguenti script: CJK, Indic, Cirillico, Semitico e Greco. Dovrebbe essere guidato dai dati ed estendibile, utilizzando i dati del Consorzio Unicode, degli Stati Uniti, dell'UE o dell'ONU. Il codice dovrebbe essere open source scritto in .NET o Java.

Esiste una tale biblioteca?

fonte

2012-03-23 Anthony Faull

Sto cercando qualcosa come la traslitterazione di nomi di località di Google Maps, che utilizza le trasformazioni ICU. Vorrei che Google aprisse questo codice. (http://research.google.com/pubs/pub36450.html e http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en//archive/papers/36450.pdf) –

I penserei che questa operazione sia anche specifica della localizzazione.Welsh e Pinyin usano gli stessi personaggi ma probabilmente romanizzano in modo diverso :-) – wberry

@wberry: il gallese usa nativamente lo script latino e Pinyin è già romanizzato in cinese. –

È possibile utilizzare la libreria .net http://unidecode.codeplex.com/.

Utilizzo;

using BinaryAnalysis.UnidecodeSharp; 

....................................... 

string _Greek="Αλφαβητικός"; 
MessageBox.Show(_Greek.Unidecode()); 

string _Japan ="しんばし"; 
MessageBox.Show(_Japan.Unidecode()); 

string _Russian ="яйца Фаберже"; 
MessageBox.Show(_Russian.Unidecode());

Spero, sarà un bene per voi.

fonte

2013-03-01 17:04:10 Kerberos

Grazie. Questo e 'esattamente quello che stavo cercando. –

+1, e voglio solo notare che ci sono le porte della libreria per Python e Perl –

Grazie, ho scaricato la DLL ma Unidecode() non veniva ancora riconosciuto in nessuna stringa. Non sapevo che dovevo aggiungere questo BinaryAnalysis usando ... – Veverke

Non sono a conoscenza di alcuna soluzione open source qui oltre ICU. Se l'ICU funziona per te, bene. In caso contrario, si noti che io sono il CTO di un'azienda che vende un prodotto commerciale per questo scopo che può trattare con i casi icky come le parole cinesi, la lettura multipla giapponese e l'ortografia incompleta araba.

fonte

2012-03-23 16:26:35 bmargulies

+1 http://userguide.icu-project.org/transforms/general – stephan

Il Unicode Common Locale Data Repository ha un numero di transliteration mappings che è possibile utilizzare.

fonte

2012-03-23 19:38:42 dan04

Il problema è molto più complesso di quanto si pensi.

greco, cirillico, indiano, Georgiano -> banale, si potrebbe programmare che in un'ora
Thai, Kana giapponese -> fattibile con un po 'più di sforzo
Kanji giapponese, cinese -> questi non sono alfabeti/le sillabe, quindi in realtà non stai traslitterando, stai cercando la pronuncia di ciascun simbolo in un dizionario che spero sia grande (EDICT e CCDICT dovrebbero funzionare), e molte volte ti sbagli se non sei anche tu considerando il contesto, specialmente in giapponese
coreano -> tecnicamente un alfabeto, ma i computer possono gestire solo i caratteri composti, quindi è necessario un altro grande database, non sono a conoscenza di alcun
arabo, ebraico -> questi le lingue non scrivono brevi vocali, quindi molte volte la tua traslitterazione sarà qualcosa di illeggibile come "bytlhm" (Betlemme). Non sono a conoscenza di database di grandi dimensioni che associano parole arabe o ebraiche alla loro pronuncia.

fonte

2012-03-24 10:44:58 Sprachprofi

Non ha chiesto l'arabo o l'ebraico. – bmargulies

In realtà ha fatto. "Dovrebbe idealmente supportare i personaggi nei seguenti script: CJK, Indic, Cirillico, Semitico e Greco" -> Arabo ed Ebraico sono le lingue semitiche più parlate. – Sprachprofi

Vero. Leggi troppo velocemente. – bmargulies

Romanizzazione del testo Unicode

risposta

Problemi correlati