2011-09-27 20 views
9

Quale approccio posso usare per prevedere la nazionalità di una persona dal cognome?come indovinare la nazionalità di una persona dal cognome?

Ho una lunga lista di testi e cognomi di autori. Vorrei identificare quali testi sono stati scritti da oratori di lingua latina e quali testi sono stati scritti da madrelingua inglese, al fine di studiare se alcuni modelli di stile di scrittura sono diversi in un gruppo rispetto all'altro.

Ho cercato su google e su Pubmed un database di cognomi, ma non sono riuscito a trovarne uno accessibile gratuitamente. Un altro approccio consiste nell'usare alcune regex, ad esempio ". * Ez" per identificare alcuni cognomi ispanici come "rodriguez", ma non mi porta molto lontano.

Avete qualche suggerimento? Dato che rivedrò manualmente tutte le associazioni dopo aver effettuato la previsione, non ho bisogno di una grande precisione, ma qualsiasi aiuto o idea sarà ben accetta.

+4

Qualcuno della TSA potrebbe saperlo. – awm

+1

Wow. Sembra un compito abbastanza. Dubito che saresti in grado di ottenere una grande accuratezza poiché i cognomi possono ovviamente cambiare di generazione in generazione e le persone non si considerano sempre di una nazionalità specifica anche se il loro cognome proviene da quella nazione. Che tipo di precisione avresti bisogno su questo comunque? Suppongo che se tu avessi accesso a dati come elenchi telefonici/censimenti di diverse nazioni, potresti certamente cercare nomi comuni e somiglianze con tali cognomi comuni. Ad esempio una differenza di 1 carattere è fondamentalmente lo stesso nome. – Thor84no

+0

Dato che il cognome spagnolo non implica che non sei un madrelingua inglese, non funziona nella direzione opposta. – bitmask

risposta

4

Non penso che sia possibile farlo con qualsiasi grado di affidabilità. Un Rodriguez potrebbe avere un nome di origine spagnola, ma potrebbe essere nato e cresciuto ovunque. Potrebbero essere inglesi di seconda generazione, e non hanno mai parlato spagnolo con loro, quindi entrano nella categoria dei madrelingua inglesi.

+8

Questa non è una risposta, ma un commento. – bitmask

2

Non c'è un modo significativo per farlo. Non c'è motivo per cui le persone con nomi ispanici non possano essere madrelingua inglese.

Se avete intenzione di rivederlo comunque, perché non usare i dati che avete?

+0

Ho bisogno di fare questo per un enorme elenco di testi, quindi ho bisogno di questo per impostare i valori predefiniti e rendere il lavoro più facile. – dalloliogm

3

Se gli autori effettivi allora forse si può spider amazon e controllare i loro dettagli 'Informazioni autore'?

Non penso che tu possa indovinare. Per esempio. Ultimi nomi irlandesi - ci sono circa 80.000.000 di persone con eredità irlandesi, tuttavia su 4,5 milioni di questi vivono in Irlanda/hanno attraversato l'educazione irlandese.

1

Supponendo che si intenda effettuare un confronto programmatico dei testi, è necessario classificare manualmente i testi. Probabilmente, supposizioni errate ti porteranno a costruire un algoritmo rotto per l'analisi testuale. Ciò sarà particolarmente problematico con l'apprendimento automatico, come le reti neurali artificiali.

Problemi correlati