Ho un testo e utilizzo questa semplice espressione regolare per dividerlo in parole: [ \n]
. Divide il testo in parole usando spazi e interruzioni di riga.Come dividere un testo usando regex, ma le parole divise continuano a mantenere il separatore di espressioni regolari?
Voglio sapere se c'è un modo per mantenere lo spazio bianco o l'interruzione di linea nella parola splitta, perché userò questo per una semplice rilevazione di frase dopo qualche elaborazione.
Sto utilizzando il metodo String#split
.
Il tuo \ n significa qualcosa di speciale (fine della frase)? Non stai elaborando i normali paragrafi su più righe con "." come fine della frase? – toto2
@ toto2 Anche la punteggiatura è usata per determinare la fine della frase, ma il contenuto proviene dal contenuto HTML, quindi molte frasi come il titolo non hanno la punteggiatura che determina dove finiscono le frasi, solo l'interruzione di riga. –
Non sono sicuro che dovresti fare affidamento su \ n durante l'elaborazione di HTML, dal momento che potresti avere un documento perfettamente fine senza un singolo \ n. – toto2