Quale approccio posso usare per prevedere la nazionalità di una persona dal cognome?come indovinare la nazionalità di una persona dal cognome?
Ho una lunga lista di testi e cognomi di autori. Vorrei identificare quali testi sono stati scritti da oratori di lingua latina e quali testi sono stati scritti da madrelingua inglese, al fine di studiare se alcuni modelli di stile di scrittura sono diversi in un gruppo rispetto all'altro.
Ho cercato su google e su Pubmed un database di cognomi, ma non sono riuscito a trovarne uno accessibile gratuitamente. Un altro approccio consiste nell'usare alcune regex, ad esempio ". * Ez" per identificare alcuni cognomi ispanici come "rodriguez", ma non mi porta molto lontano.
Avete qualche suggerimento? Dato che rivedrò manualmente tutte le associazioni dopo aver effettuato la previsione, non ho bisogno di una grande precisione, ma qualsiasi aiuto o idea sarà ben accetta.
Qualcuno della TSA potrebbe saperlo. – awm
Wow. Sembra un compito abbastanza. Dubito che saresti in grado di ottenere una grande accuratezza poiché i cognomi possono ovviamente cambiare di generazione in generazione e le persone non si considerano sempre di una nazionalità specifica anche se il loro cognome proviene da quella nazione. Che tipo di precisione avresti bisogno su questo comunque? Suppongo che se tu avessi accesso a dati come elenchi telefonici/censimenti di diverse nazioni, potresti certamente cercare nomi comuni e somiglianze con tali cognomi comuni. Ad esempio una differenza di 1 carattere è fondamentalmente lo stesso nome. – Thor84no
Dato che il cognome spagnolo non implica che non sei un madrelingua inglese, non funziona nella direzione opposta. – bitmask