2012-11-02 13 views
9

Sto elaborando file PDF e desidero convertire i caratteri in Unicode il più lontano possibile. La famiglia MathematicalPI di set di caratteri sembra utilizzare i propri nomi di simboli (ad esempio "H11001"). Con l'esplorazione ho costruito un tavolo (per MathematicalPI-One) come:conversione di nomi di simboli MathematicalPI in Unicode

<chars> 
     <char charname="H11001" codepoint16="0X2B" codepoint="43" unicodeName="PLUS"/> 
     <char charname="H11002" codepoint16="0x2D" codepoint="45" unicodeName="MINUS"/> 
     <char charname="H11003" codepoint16="0XD7" codepoint="215" unicodeName="MULTIPLICATION SIGN"/> 
     <char charname="H11005" codepoint16="0X3D" codepoint="61" unicodeName="EQUALS"/> 
    </char> 

Qualcuno mi può puntare a una tabella di traduzione esistente come questo (l'ideale per tutti i set MathematicalPI). [Non voglio una visualizzazione grafica dei glifi in quanto significa che ognuno deve essere visto come equivalente Unicode.]

Inoltre sembra che ci sia una risorsa simbolo simile in cui i nomi di stato sono del formato C223 (per copyright). Qualsiasi informazione su questo sarà apprezzata.

AGGIORNAMENTO: Ho bisogno di qualcosa di ben oltre la @ risposta di user1808924 - Ho già compilato dalla propria tabella di traduzione (parziale), quindi è certamente possibile costruirne una. È possibile scaricare e visualizzare un elenco di glifi in MathematicalPI (potrebbe essere centinaia) e passare attraverso le specifiche Unicode per fare equivalenze (e per la maggior parte penso che esistano chiare equivalenze). Una risposta soddisfacente includerebbe una tabella con centinaia di equivalenze o una affermazione defintiva che ciò violerebbe il copyright del creatore di font.

AGGIORNAMENTO: tra @minopret e @Miguel è certamente possibile costruire una mappatura. I set di MathPi sono ben definiti - poche centinaia - e shapecatcher rende facile trovare i migliori glifi in modo pittorico. La mappatura non sarà definitiva (vale a dire con il timbro di Adobe) ma ne varrà la pena. E sospetto che ci saranno casi in cui due glifi diversi sono essenzialmente identici e quindi una mappatura visiva non funzionerà - ad es. è un triangolo equilatero INCREMENT o GREEK CAPITAL LETTER DELTA?

Dubito che personalmente completerò un tavolo completo - non so cosa significano alcuni simboli. Ma spero di produrre un sottoinsieme utilizzato nella pubblicazione di Scientific technical medical (STM).

@ user1808924 Ho notato che hai risposto questo il tuo primo giorno su SO. Le domande di Bounty sono normalmente offerte (come in questo caso) per domande difficili dove c'è una risposta definitiva ma è difficile da trovare. Normalmente non è utile offrire opinioni o ipotesi a meno che non si abbia una conoscenza approfondita dell'area.

+0

Per chiarire, sei dopo i font Adobe matematica pi, in contrasto con i caratteri Linotype universale matematica pi? – eh9

+0

Non sapevo che c'era una differenza! Qualsiasi spiegazione sarebbe preziosa. Ma * se * c'è una differenza significativa che probabilmente preferirei Adobe. È più probabile che venga utilizzato negli strumenti di authoring. –

+0

io non sono sicuro che ci sia, si badi bene, ma facendo un po 'di ricerca su questi volti mi si avvicinò con entrambi questi, ovviamente correlate, ma non apparentemente uguali. Ancora più confusamente, sembra che Linotype è stato l'autore del carattere Adobe, ad un certo punto, ma dato che Linotype ha ribattezzato la loro, non posso essere sicuro che sono più la stessa. – eh9

risposta

2

Ecco la migliore informazione come previsto da Miguel Sousa di Adobe nel suo Typography forum message lì:

Per quel che vale e di riassumere le informazioni che avevo aggiunto nei commenti su questa risposta, ecco cosa sono stato in grado di trovare prima e a parte questo.

Michael Sharpe, creatore del pacchetto "mathalfa" allo CTAN e membro della matematica UCSD, ha le definizioni TeX per Pi matematico in this archive file. Ho intuito con successo che l'obsoleto luogo documentato su me.com è stato trasferito nel suo sito universitario. I file ".vf" mappano i caratteri di Mathematical Pi ai codepoint matematici di TeX. Sono binari. I dati di mappatura sono parte del dump di testo leggibile usando lo strumento "vftovp" che fa parte delle distribuzioni di TeX. Dopo l'esecuzione di quella discarica, troviamo che i personaggi mappati sono:

mathpibb: 'hyphen-minus' 0-9 A-Z a-z 
mathpical: percent 'hyphen-minus' A-Z 
mathpifrak: 'hyphen-minus' 0-9 A-Z a-z 
mh2s: A-Z 

Così che spiega il nome del pacchetto "mathalfa". Ha assunto solo il compito di impiegare l'alfabeto e le cifre, ma quasi nulla di più. Dobbiamo guardare i file sopra per i mapping per i simboli.

penso che parti del MathPi, come ad esempio le lettere greche di MathPi 1, utilizzano la stessa codifica come Adobe simbolo, che è documentato qui: http://unicode.org/Public/MAPPINGS/VENDORS/ADOBE/symbol.txt

Quando si cerca di mappare i simboli a Unicode se stessi, un buon modo per trovare il punto Unicode è disegnando il glifo sullo schermo qui: http://shapecatcher.com

+0

Grazie per il puntatore. Questo è il tipo di cosa che voglio. Non sembra esserci molto che sia facilmente comprensibile e non posso usarlo nella sua forma attuale. (i file sono binari) Se qualcuno può estrarre qualche mappatura in ASCII sarei felice di assegnare la taglia. –

+0

Grazie per il tuo aggiornamento. Nel peggiore dei casi dovremo sederci con le tabelle degli glifi del MathPI (che sono accessibili da documenti che espongono le informazioni complete sui font) e convertirle a mano. Almeno allora gli altri non dovranno passare attraverso lo stesso processo. –

+0

Molto utile. Concordo sul fatto che la mappatura greca sembra promettente (e sembra attenersi a Symbol Font come in Wikipedia). La mappatura di Adobe è molto utile in quanto fornisce anche un elenco di quei caratteri che Adobe probabilmente userà. Non sono sicuro che risolva il problema di mathPi. –

4

Non credo che sia disponibile una tabella di traduzione del genere.

Sembra a me che MathematicalPI carattere familiare è un sintetico, che è stato creato ad hoc selezionando un sottoinsieme di elementi da parte di alcuni grandi set sconosciuta. La raison d'étre della famiglia di font MathematicalPI sembra essere la rappresentazione di semplici operatori algebrici (più, meno, moltiplicazione, divisione) e il segno di uguale. I nomi di stato (ad esempio H1100X) sembrano essere artefatti, poiché non vengono ordinati dopo i valori del punto di codice (ad esempio il segno di uguale è l'ultimo).

Osservando i dati disponibili, posso suggerire che il nomignolo mancante H11004 deve corrispondere all'operatore di divisione. Tuttavia, è impossibile prevedere se debba essere rappresentato dal carattere "solidus" Unicode (ad esempio U+002F), dal carattere "segno di divisione" (ad esempio U+00F7) o qualcos'altro.

+0

MathematicalPI è molto meglio definito di quanto tu suggerisca. Sono già andato molto oltre e ho esplorato circa 10 punti nel set. MathematicalPI ha glpyh standard ed è abbastanza chiaro che H11004 corrisponde a un segno di divisione, non a un solido. Sembra del tutto possibile che qualcuno abbia creato una tabella in cui (per esempio) H11004 è mappato a U + 00F7 come l'equivalente più vicino ed era questo che stavo chiedendo. –

+0

vedere @ risposta di minopret - ci sono certamente mapping –

1

FWIW mia tabella di mappatura corrente (dalla lettura di documenti creati utilizzando MathPI, è:

<codePoint name="H9251" unicode="U+03B1" unicodeName="GREEK LOWERCASE LETTER ALPHA"/> 
<codePoint name="H9252" unicode="U+03B2" unicodeName="GREEK LOWERCASE LETTER BETA"/> 
<codePoint name="H9253" unicode="U+03B3" unicodeName="GREEK SMALL LETTER GAMMA"/> 
<codePoint name="H9254" unicode="U+03B4" unicodeName="GREEK SMALL LETTER DELTA"/> 
<codePoint name="H9255" unicode="U+03B5" unicodeName="GREEK SMALL LETTER EPSILON"/> 
<codePoint name="H9256" unicode="U+03B6" unicodeName="GREEK SMALL LETTER ZETA"/> 
<codePoint name="H9257" unicode="U+03B7" unicodeName="GREEK SMALL LETTER ETA"/> 
<codePoint name="H9258" unicode="U+03B8" unicodeName="GREEK SMALL LETTER THETA"/> 
<codePoint name="H9259" unicode="U+03B9" unicodeName="GREEK SMALL LETTER IOTA"/> 
<codePoint name="H9260" unicode="U+03BA" unicodeName="GREEK SMALL LETTER KAPPA"/> 
<codePoint name="H9261" unicode="U+03BB" unicodeName="GREEK SMALL LETTER LAMBDA"/> 
<codePoint name="H9262" unicode="U+03BC" unicodeName="GREEK LOWERCASE LETTER MU"/> 

<codePoint name="H11001" unicode="U+002B" decimal="43" unicodeName="PLUS"/> 
<codePoint name="H11002" unicode="U+002D" decimal="45" unicodeName="MINUS"/> 
<codePoint name="H11003" unicode="U+00D7" decimal="215" unicodeName="MULTIPLICATION SIGN"/> 
<codePoint name="H11005" unicode="U+003D" decimal="61" unicodeName="EQUALS"/> 
<codePoint name="H11011" unicode="U+007E" decimal="126" unicodeName="TILDE"/> 
<codePoint name="H11021" unicode="U+003C" decimal="60" unicodeName="LESS" htmlName="lt"/> 
<codePoint name="H11022" unicode="U+003E" decimal="62" unicodeName="" htmlName="gt"/> 
<codePoint name="H11032" unicode="U+0027" decimal="39" unicodeName="APOSTROPHE" htmlName="apos"/> 
<codePoint name="H11034" unicode="U+00B0" decimal="176" unicodeName="DEGREE SIGN" htmlName="deg"/> 

<codePoint name="H11554" unicode="U+00B7" decimal="183" unicodeName="MIDDLE DOT"/> 

3

Ecco cosa ho pubblicato sul sito Adobe Forums:

potrei sbagliarmi, ma non credo che ci sia una tabella ufficiale corrispondenza.

Utilizzando i sei tipi di carattere Type 1 e il tipo di carattere OpenType che ne è stato ricavato, ho assemblato due PDF che mostrano tutti i glifi. Accanto a loro ci sono i nomi dei glifi (per i font Type 1) e il valore Unicode (per il font OpenType). Se fai un riferimento incrociato a questi due PDF, dovresti essere in grado di assemblare la lista di correlazione che stai cercando.

Mathematical Pi

Spero che questo aiuti.

Miguel

+0

Potrebbe essere utile fornire la risposta completa qui nel caso in cui il collegamento si interrompa in futuro. – Marvo

+0

Molto utile. Il problema è ben definito e trattabile. Alcuni glifi sono evidenti e ora che shapecatcher è in grado di identificare i glifi più rare è un lavoro di poche ore per costruire la maggior parte della mappatura –

+1

BTW, mentre passa attraverso alcuni vecchi libri ho trovato un libro brossura da The Monotype Corporation Limited "Elenco delle caratteri matematici - 'Monotype' 4-line Mathematics Series 569 & L231 ". Non c'è data, ma suppongo che sia degli anni '70. Molti dei personaggi elencati in questo libro usano i nomi che sono anche usati dai caratteri Type 1. Questi nomi sono chiamati Matrix Numbers. Credo che Monotype sia la fonte di questi nomi/codici. –

Problemi correlati