Attualmente sto sviluppando un programma con la capacità di confrontare un testo piccolo (ad esempio 250 caratteri) con una raccolta di testi simili (circa 1000-2000 testi).Confronto di testo NLP/Machine Learning
Lo scopo è valutare se il testo A è simile a uno o più testi nella raccolta e, in tal caso, il testo nella raccolta deve essere recuperabile per ID. Ogni testo avrà un ID univoco.
C'è che mi piacerebbe l'uscita di essere due modi:
Opzione 1: Testo A abbinato Testo B con il 90% di somiglianza, di testo C con il 70% di somiglianza, e così via.
Opzione 2: Testo Un testo corrispondente D con la massima somiglianza
Ho letto alcune machine learning a scuola, ma non sono sicuro che l'algoritmo adatta questo problema il migliore o se devo considerare l'utilizzo di PNL (non ha familiarità con l'argomento).
Qualcuno ha un suggerimento su quale algoritmo utilizzare o dove posso trovare la letteratura del nessecary per risolvere il mio problema?
Grazie per qualsiasi contributo!
Sono abbastanza nuovo in ML e speravo di utilizzare i servizi cloud ML Google, Azire, Watson. Devo risolvere anche il confronto testuale, cosa hai implementato? – jasan