Sono un reboxp noob e sto provando a dividere i paragrafi in frasi. Nel mio linguaggio usiamo un bel po 'di abbreviazioni (come: bl.a.) nel mezzo delle frasi, quindi sono giunto alla conclusione che quello che devo fare è cercare segni di punteggiatura, che sono seguiti da un singolo spazio e quindi una parola che inizia con una lettera maiuscola come:Divisione di paragrafi in frasi con regexp e PHP
[sentence1]...anymore. However...[sentence2]
Così un paragrafo come:
Der er en lang og bevæget forhistorie bag lov om varsling m.v. i forbindelse med afskedigelser af større omfang. Det er ikke en bureaukratisk lovtekst blandt så mange andre.
dovrebbe finire in questo output:
[0] => Der er en lang og bevæget forhistorie bag lov om varsling m.v. i forbindelse med afskedigelser af større omfang.
[1] => Det er ikke en bureaukratisk lovtekst blandt så mange andre.
e non questo:
[0] => Der er en lang og bevæget forhistorie bag lov om varsling m.v.
[1] => i forbindelse med afskedigelser af større omfang.
[2] => Det er ikke en bureaukratisk lovtekst blandt så mange andre.
ho trovato una soluzione che fa la prima parte di questo con la funzione lookbehind positivo:
$regexp = (?<=[.!?] | [.!?][\'"]);
e poi
$sentences = preg_split($regexp, $paragraph, -1, PREG_SPLIT_NO_EMPTY);
che è un punto di partenza, ma spaccature Troppe volte a causa delle molte abbreviazioni.
Ho provato a fare questo:
(?<=[.!?]\s[A-Z] | [.!?][\'"])
al bersaglio ogni occorrenza di una
. or ! or ?
seguito da uno spazio e una lettera maiuscola, ma che non ha funzionato.
Qualcuno sa, se c'è un modo per realizzare ciò che sto cercando di fare?
Così si vuole creare una nuova linea rompere ogni volta che il criterio di 'Questo. È'? –
Non necessariamente, sono abbastanza soddisfatto del formato di output della funzione PHP preg_split. Quello con il quale faccio fatica è scrivere la regexp che cerca il "This". E 'un criterio. – acrmuui
Ciao, grazie per aver risposto. Ho effettivamente letto quelle risposte esatte prima di postare, ma non sono riuscito a trovare nessuno di loro, che cerca il modello esatto di una punteggiatura seguito da uno spazio seguito da una parola che inizia con una lettera maiuscola. O mi sta sfuggendo qualcosa? – acrmuui