2012-02-13 14 views
5

Ho lavorato su java per trovare la somiglianza tra due documenti. Preferisco trovare una somiglianza semantica, ma non ho fatto sforzi per trovarlo ancora. Sto usando il seguente approccio.Python vs Java per l'elaborazione del linguaggio naturale

  1. termini di estrazione/gettoni (sto usando JAWS con wordnet rimuovere sinonimi migliora quindi le somiglianze)
  2. fare una matrice termine documento
  3. LSA
  4. coseno di similitudine

Quando i Stavo guardando poche pagine StackOverflow, ho avuto parecchi collegamenti alle implementazioni Python.

Vorrei sapere se Python è un linguaggio migliore per trovare la somiglianza di testo e vorrei anche sapere se posso trovare similairty semantica tra due documenti in pitone

+0

Tutto ciò che puoi fare in Python, puoi anche farlo in Java (con abbastanza lavoro). Detto questo, esiste [Natural Language Toolkit] (http://www.nltk.org/) che è una libreria Python che fornisce molti strumenti per l'elaborazione del linguaggio naturale. –

risposta

2

si Supponendo che non hanno una restrizione piattaforma che vincolerebbe la tua scelta del linguaggio, dovresti scegliere il tuo linguaggio in base a quello con cui sei più a tuo agio (preferisco Python) e che ha le migliori librerie per la tua applicazione (come @GregHewgill ha sottolineato gli strumenti Python (Natural Language Toolkit) sono maturi e completi).

Così mentre personalmente sceglierei Python, è davvero qualcosa che devi scegliere per te.

== == EDIT

Questo question sulle librerie Java di PNL può aiutare a decidere se è possibile utilizzare Java per l'analisi; la risposta più alta ha una lista che puoi investigare. Senza ulteriori informazioni sulla serie di problemi, non posso fornire consigli più specifici.

+0

Grazie .. Non ho mai lavorato su Python in precedenza. Ma se ha così tanta funzionalità, ho pensato di passare a Python e farne uso. Quindi volevo sapere se sarebbe vantaggioso o offrissero funzionalità simili solo a – CTsiddharth

+1

. Io trovo Python come linguaggio più naturale e più espressivo. ** Ma in realtà riguarda le biblioteche **. Se avessi un problema da risolvere e le migliori librerie fossero basate su Java, userei un linguaggio basato su JVM. – ironchefpython

+0

Grazie per il link. Il mio progetto mira a classificare i documenti in base alla loro somiglianza con un documento di riferimento. Il mio obiettivo è trovare il documento più pertinente da un repository locale. Dal momento che ha prospettive di essere utilizzato in tempo reale, voglio che sia il più efficace possibile. – CTsiddharth

Problemi correlati