Sono un'infermiera e conosco Python ma non sono un esperto, l'ho appena usata per elaborare sequenze di DNA
Abbiamo documenti ospedalieri scritti in lingue umane e io dovrei inserire questi dati in un database o file CSV ma sono più di 5000 linee e questo può essere così difficile. Tutti i dati sono scritti in un formato coerente Lasciate che vi mostri un esempioEstrazione di informazioni mediche usando Python
11/11/2010 - 09:00am : He got nausea, vomiting and died 4 hours later
dovrei ottenere i seguenti dati
Sex: Male
Symptoms: Nausea
Vomiting
Death: True
Death Time: 11/11/2010 - 01:00pm
Un altro esempio
11/11/2010 - 09:00am : She got heart burn, vomiting of blood and died 1 hours later in the operation room
E io ottenere
Sex: Female
Symptoms: Heart burn
Vomiting of blood
Death: True
Death Time: 11/11/2010 - 10:00am
th L'ordine non è coerente quando dico in ....... quindi è una parola chiave e tutto il testo dopo è un posto finché non trovo un'altra parola chiave
All'inizio Lui o Lei determina il sesso, ha ottenuto ... ..... tutto ciò che segue è un gruppo di sintomi che dovrei dividere in base al separatore che può essere una virgola, hypen o qualsiasi altra cosa ma è coerente per la stessa riga
morirà ..... ore più tardi dovrebbe anche ottenere come molte ore, a volte il paziente è stil vivo e scaricato .... ecc.
Vale a dire che abbiamo un sacco di convenzioni e penso che se riesco a tokenizzare il testo con parole chiave e modelli posso fare il lavoro. Quindi, per favore, se si conosce un utile funzione/modules/tutorial/strumento per farlo preferibilmente in python (se non python così uno strumento GUI sarebbe bello)
Alcuni poche informazioni:
there are a lot of rules to express various medical data but here are few examples
- Start with the same date/time format followed by a space followd by a colon followed by a space followed by He/She followed space followed by rules separated by and
- Rules:
* got <symptoms>,<symptoms>,....
* investigations were done <investigation>,<investigation>,<investigation>,......
* received <drug or procedure>,<drug or procedure>,.....
* discharged <digit> (hour|hours) later
* kept under observation
* died <digit> (hour|hours) later
* died <digit> (hour|hours) later in <place>
other rules do exist but they follow the same idea
Può essere utile se è possibile fornire altri esempi, compresi quelli in cui ci sono ordini diversi o quando un paziente vive/è dimesso. – GWW
Esiste un elenco di parole chiave che sono sintomi validi? Tutti i record inizieranno con "lui" o "lei"? Tutti i record iniziano con la data/ora nello stesso formato? Se il paziente è dimesso, il record avrà sempre la parola "scaricata" seguita da "x ore dopo"? – philosodad
ok ho aggiunto alcune informazioni in fondo alla domanda. – Nurse