Ho un vettore come quello sotto e vorrei determinare quali elementi nell'elenco sono nomi umani e quali no. Ho trovato il pacchetto humaniformat, che formatta i nomi ma sfortunatamente non determina se una stringa è in realtà un nome. Ho anche trovato alcuni pacchetti per l'estrazione delle entità, ma sembrano richiedere un testo reale per la codifica della parte del discorso, piuttosto che un singolo nome.Da un elenco di stringhe, identificare quali sono nomi umani e quali non sono
Esempio
pkd.names.quotes <- c("Mr. Rick Deckard", # Name
"Do Androids Dream of Electric Sheep", # Not a name
"Roy Batty", # Name
"How much is an electric ostrich?", # Not a name
"My schedule for today lists a six-hour self-accusatory depression.", # Not a name
"Upon him the contempt of three planets descended.", # Not a name
"J.F. Sebastian", # Name
"Harry Bryant", # Name
"goat class", # Not a name
"Holden, Dave", # Name
"Leon Kowalski", # Name
"Dr. Eldon Tyrell") # Name
Il mio amico Electric Ostrich sarebbe terribilmente sconvolto nel vedere che il suo nome non è proprio un nome. Quindi dovrai sapere cosa determina esattamente un nome, corretto? Ma al giorno d'oggi le persone chiamano i loro figli quasi tutto (in America comunque). Prendi il figlio di Kanye West per esempio. Il suo nome è North West. Certo, Kanye è un idiota, questo è ancora vero. Come passerebbe il test del nome? –
Haha, abbastanza giusto. Suppongo che avrei sbagliato i nomi dei bambini di Kanye. Va bene però, qualche errore è accettabile. Spero solo di fare meglio del semplice affidamento su lunghezza della stringa, numero di spazi e lettere maiuscole. –
Il "modulo" Stanford Named Entity Recognition è disponibile per R. https://rpubs.com/lmullen/nlp-chapter ha un'intestazione NLP. Questo http://nlp.stanford.edu/software/CRF-NER.shtml è la fonte ufficiale di java lib e potrebbe essere possibile creare una soluzione da esso. – hrbrmstr