Sto usando Python con nltk. Ho bisogno di elaborare del testo in inglese senza spazi bianchi, ma la funzione word_tokenize in nltk non può gestire problemi come questo. Quindi, come tokenize testo senza spazi bianchi. C'è qualche strumento in Python?Come tokenizzare parole continue senza delimitatori di spazi bianchi?
risposta
Non sono a conoscenza di tali strumenti, ma la soluzione del problema dipende dalla lingua.
Per la lingua turca è possibile eseguire la scansione del testo di input lettera per lettera e accumulare lettere in una parola. Quando sei sicuro che la parola accumulata forma una parola valida da un dizionario, la salvi come un token separato, cancella il buffer per accumulare nuova parola e continua il processo.
Si può provare questo per l'inglese, ma presumo che si possono trovare situazioni in cui la fine di una parola può essere un inizio di qualche parola del dizionario, e questo può causare alcuni problemi.
forse Viterbi algorithm potrebbe aiutare? Nessuna certezza ... ma probabilmente meglio di farlo manualmente.
Questa risposta a un'altra domanda SO (e l'altra risposta ad alta votazione) potrebbe aiutare: https://stackoverflow.com/a/481773/583834
- 1. Tokenizzare una stringa e includere delimitatori in C++
- 2. Laravel Blade senza spazi bianchi extra?
- 3. Pandas DataFrames: come avvolgere il testo senza spazi bianchi
- 4. Strip spazi bianchi su input
- 5. Manubri, controllo spazi bianchi
- 6. aggiunge spazi bianchi?
- 7. Come rimuovere elementi con spazi bianchi?
- 8. Oracle: come rimuovere gli spazi bianchi?
- 9. TeX: parsing di stringhe e spaziatura di spazi bianchi
- 10. Dividi stringa da più delimitatori
- 11. Come dividere() una stringa mantenendo gli spazi bianchi
- 12. Xcode 4.5 - spazi bianchi finali
- 13. debug spazi bianchi in VBA
- 14. Ignora spazi bianchi con PEG.js
- 15. Aggiunta di spazi bianchi alla stringa
- 16. spazi bianchi nel percorso di windows filepath
- 17. Come dividere una stringa per spazi bianchi e ignorare gli spazi bianchi iniziali e finali in una serie di parole utilizzando un'espressione regolare?
- 18. Impostazione Vim preferenze spazi bianchi di filetype
- 19. Concatenazione di spazi bianchi in Bash
- 20. Sovraccarico di indentazione degli spazi bianchi HTML
- 21. git svn windows linux spazi bianchi
- 22. Strani spazi bianchi durante l'analisi di un PDF
- 23. Split NSString per numero di spazi bianchi
- 24. NSPredicate che ignora gli spazi bianchi
- 25. Dividere una stringa usando spazi bianchi in Javascript?
- 26. Come produrre la firma XML senza spazi bianchi e interruzioni di riga in Java?
- 27. numpy.genfromtxt: Delimitatori ambigui?
- 28. Rimuovi spazi bianchi iniziali dal file
- 29. Java Regex che sostituisce solo più spazi bianchi con spazi senza interruzioni
- 30. In che modo google riconosce 2 parole senza spazi?
perciò non ci sono spazi? Qual è il dominio? – Jared
Come si identifica una parola? –
A meno che non stiate scandendo il testo lettera per lettera e testate tutte le possibili combinazioni di caratteri continui, ci deve essere un delimitatore – Yotam