Attualmente sto sviluppando un'applicazione Web per scaricare lo stream di Twitter e cercando di creare un processo di elaborazione naturale del mio.Stringa di divisione contenente lettere e numeri non separati da alcun delimitatore specifico in PHP
Poiché i miei dati provengono da Twitter (limitato a 140 caratteri) ci sono molte parole abbreviate, o in questo caso, spazio omesso.
Ad esempio:
"Hi, my name is Bob. I m 19yo and 170cm tall"
Dovrebbe essere token a:
- hi
- my
- name
- bob
- i
- 19
- yo
- 170
- cm
- tall
noti che 19
e yo
in 19yo
hanno spazio tra di loro. Lo uso principalmente per estrarre numeri con le loro unità.
Semplicemente, ciò di cui ho bisogno è un modo per "esplodere" ogni token che contiene un numero di numeri o lettere senza delimitatore.
'123abc'
saranno ['123', 'abc']
'abc123'
saranno ['abc', '123']
'abc123xyz'
sarà ['abc', '123', 'xyz']
e così via.
Qual è il modo migliore per ottenerlo in PHP?
Ho trovato qualcosa vicino ad esso, ma è C# e spesifically per la divisione giorno/mese. How do I split a string in C# based on letters and numbers
#giustamente curioso, perché hai bisogno di un'estrazione del genere? – hjpotter92
Potrei vedere questo per la creazione dinamica di slug, ma potrebbe anche essere fatto con delimitazione spazio/punteggiatura. – Dutchie432
@ chasing-death perché la fonte dei dati (flusso twitter) ha scrittura incoerente – akhyar