Mi chiedevo come si si andava a sbrogliare le stringhe in inglese (o in altre lingue occidentali) se si rimuovevano gli spazi bianchi?Justadistraction: tokenizing inglese senza spazi vuoti. Murakami SheepMan
L'ispirazione per la domanda è il carattere Sheep Man nel romanzo di Murakami 'Dance Dance Dance'
Nel romanzo, la pecora L'uomo è tradotto come dicendo cose come:
"likewesaid, abbiamo' «Togliti di nuovo la spina», disse l'uomo delle pecore. "Ma non lo so ... da solo.
Quindi, alcuni segni di punteggiatura vengono mantenuti, ma non tutti. Basta per un umano da leggere, ma in qualche modo arbitrario.
Quale sarebbe la vostra strategia per la creazione di un parser per questo? Combinazioni comuni di lettere, conteggi delle sillabe, grammatiche condizionali, previsioni sull'anticipo/dietro, ecc.?
In particolare, in Python, come si strutturerebbe un flusso di traduzione (permissivo)? Non chiedendo una risposta completa, solo un po 'di più su come risolverebbe il problema.
Lo chiedo in modo frivolo, ma penso che sia una domanda che potrebbe avere delle risposte interessanti (nlp/crypto/frequenza/social). Grazie!
Si potrebbe provare un albero radice per lettera per lettera le ricerche. Ti permetterebbe anche di capire facilmente se ci fossero più potenziali incontri. – Olson
Oh, wow. Avevo pensato a qualcosa del genere (un albero con 26 bambini su ciascun nodo, era il mio pensiero), ma il mio capo ha detto che era un'idea ridicola. Devo smettere di ascoltarlo. > :( – JoshD
+1 In realtà avevo pensato a qualcosa del genere un po 'di tempo fa, mi sono imbattuto negli stessi problemi: "salve" == "hithere" == "clicca qui". "Per ottenere" == " insieme "==" insieme ". – inspectorG4dget