Non c'è bisogno di essere bravo in matematica a fare IE capisco solo come funziona l'algoritmo, sperimentare sui casi per chi ch hai bisogno di un risultato ottimale, e della scala con cui hai bisogno per raggiungere il livello di precisione del bersaglio e lavorare con quello. Fondamentalmente stai lavorando con algoritmi e programmazione e aspetti della teoria dell'apprendimento automatico di CS/AI/Machine non scrivendo un phd paper sulla costruzione di un nuovo algoritmo di machine learning in cui devi convincere qualcuno per mezzo di principi matematici perché l'algoritmo funziona in modo totalmente in disaccordo con questa nozione. C'è una differenza tra pratica e teoria - come sappiamo tutti i matematici sono più legati alla teoria, quindi alla praticabilità degli algoritmi per produrre soluzioni aziendali realizzabili. Avresti comunque bisogno di fare un po 'di storia leggendo entrambi i libri in PNL così come i giornali di giornale per scoprire cosa hanno trovato le persone dai loro risultati. IE è un dominio molto specifico per il contesto, quindi è necessario definire prima in quale contesto si sta tentando di estrarre le informazioni. Come definiresti queste informazioni? Qual è il tuo modello strutturato? Supponiamo che tu stia estraendo da set di dati semi e non strutturati. Dovresti anche valutare se vuoi avvicinarti al tuo IE da un approccio umano standard che implica espressioni regolari e pattern matching o vorresti farlo usando approcci di machine learning statistico come Markov Chains. Puoi anche guardare ad approcci ibridi.
Un modello di processo standard è possibile seguire per fare la tua estrazione è di adattare un approccio data mining/testo:
pre-elaborazione - definire e standardizzare i dati per estrazione da varie o specifiche fonti di pulizia dei dati segmentazione/classificazione/clustering/associazione - la tua blackbox in cui verrà eseguita la maggior parte del lavoro di estrazione post-elaborazione - ripulendo i tuoi dati nel punto in cui desideri archiviarli o rappresentarli come informazioni
Inoltre, è necessario comprendere il differenza tra ciò che è dati e ciò che è informazione. Poiché è possibile riutilizzare le informazioni rilevate come fonti di dati per creare più mappe di informazioni/alberi/grafici.È tutto molto contestualizzato.
passaggi standard per: input-> processo-> uscita
Se si utilizza Java/C++ ci sono un sacco di framework e librerie disponibili si può lavorare. Perl sarebbe un linguaggio eccellente con cui eseguire l'estrazione della tua PNL se vuoi fare un sacco di estrazione di testo standard.
È possibile rappresentare i dati come XML o anche come grafici RDF (Web semantico) e per il modello contestuale definito è possibile creare grafici di relazioni e associazioni che molto probabilmente cambieranno quando si effettuano sempre più richieste di estrazione. Distribuilo come un servizio rilassante come vuoi trattarlo come una risorsa per i documenti. Puoi anche collegarlo a set di dati tassonomizzati e ricerche sfaccettate dire usando Solr.
Buone fonti da leggere sono:
- Handbook of Compuational Linguistica e Natural Language Processing
- Fondamenti di statistica Natural Language Processing
- Applicazioni Informazioni estrattiva nel Prospect
- Introduzione all'elaborazione del linguaggio con Perl e Prolog
- Elaborazione linguaggio e parlato (Jurafsky)
- Text Mining Application Programming
- Il Text Mining Manuale
- bisbetica Testo
- Algoritmi di Intelligent Web
- Costruire applicazioni di ricerca
- IEEE Journal
assicuratevi di fare una valutazione approfondita prima di implementare tali applicazioni/algoritmi in produzione in quanto possono aumentare in modo ricorsivo i requisiti di archiviazione dei dati. È possibile utilizzare AWS/Hadoop per il clustering, Mahout per la classificazione su larga scala, tra gli altri. Memorizza i tuoi set di dati in MongoDB o dump non strutturati in jackrabbit, ecc. Prova prima a sperimentare con i prototipi. Ci sono vari archivi che puoi usare per basare la tua formazione su reuters corpus, tipster, TREC, ecc. Puoi anche controllare alchemyapi, GATE, UIMA, OpenNLP, ecc.
Costruire estrazioni da testo standard è più facile che dire un documento web in modo che la rappresentazione in fase di pre-elaborazione diventi ancora più cruciale per definire che cosa esattamente si stia tentando di estrarre da una rappresentazione di documento standardizzata.
Le misure standard includono: precisione, richiamo, misura f1 tra gli altri.
Che tipo di informazioni (cluster? Regole di associazione? Novità? Schemi sequenziali?)? Che tipo di dati (serie temporali? Transazioni? Immagini? Testo?)? Che tipo di analisi? Quale dominio? – Anonymous