Desidero confrontare due documenti indipendentemente dalle interruzioni di riga. Se il contenuto è lo stesso, ma la posizione e la quantità delle interruzioni di riga sono diverse, voglio mappare le linee di un documento alle righe nell'altro.Confronto di due documenti usando regex
Dato:
Documento 1
I went to Paris in July 15, where I met some nice people.
And I came back
to NY in Aug 15.
I am planning
to go there soon
after I finish what I do.
Documento 2
I went
to Paris
in July 15,
where I met
some nice people.
And I came back to NY in Aug 15.
I am planning to go
there soon after I finish what I do.
voglio un algoritmo in grado di determinare che la linea 1 nel documento 1 contiene lo stesso testo di righe da 1 a 5 nel documento 2, le righe 2 e 3 del documento 1 contengono lo stesso testo della riga 6 nel documento 2, ecc.
1 = 1,2,3,4,5
2,3 = 6
4,5,6 = 7,8
C'è un modo con espressioni regolari per abbinare ogni riga in ogni documento, se si estende su più righe negli altri documenti?
Quali sono quei numeri? –
Un approccio sarebbe semplicemente quello di dividere entrambi gli input in parole, mantenendo le linee da cui provengono, e le parole corrispondono le parole una per una (assumendo che le parole siano le stesse). – nneonneo
le righe corrispondenti a ciascun documento – hmghaly