2016-05-13 14 views
5

Ho un corpus di alcuni 100mila documenti legali (principalmente dall'Unione Europea) - leggi, commenti, documenti giudiziari, ecc. Sto provando ad algoritmicamente a dare un senso a loro.PNL di testi legali?

Ho modellato le relazioni conosciute (temporali, questo-cambia-questo, ecc.). Ma a livello di singolo documento, vorrei avere strumenti migliori per consentire una comprensione veloce. Sono aperto alle idee, ma ecco una domanda più specifica:

Ad esempio: esistono metodi NLP per determinare le parti rilevanti/controverse dei documenti rispetto al boilerplate? I documenti del TTIP recentemente trapelati sono migliaia di pagine con tabelle di dati, ma una frase da qualche parte potrebbe distruggere un settore.

Ho giocato in giro con il nuovo Parsey McParface di google e altre soluzioni NLP in passato, ma mentre funzionano in modo impressionante, non sono sicuro di quanto siano bravi a isolare il significato.

risposta

1

Vedo che hai un caso interessante. Hai anche menzionato la presenza di un corpus (che è davvero un ottimo vantaggio). Permettetemi di mettere in relazione una soluzione che avevo abbozzato per estrapolare il punto cruciale dai documenti di ricerca.

Per dare un senso ai documenti, sono necessari trigger per dire (o addestrare) il computer alla ricerca di questi "trigger". È possibile avvicinarsi a questo utilizzando un algoritmo di apprendimento supervisionato con una semplice implementazione di un problema di classificazione del testo al livello più elementare. Ma questo avrebbe bisogno di un lavoro precedente, l'aiuto degli esperti di dominio inizialmente per i "trigger" di discernimento dai dati testuali. Esistono strumenti per estrarre gli elenchi di frasi - ad esempio, prendere frasi in una frase, assegnare pesi basati su co-occorrenze e rappresentarli come vettori. Questi sono i tuoi dati di allenamento. Questo può essere un ottimo inizio per incorporare la PNL nel tuo dominio.

-4

Non utilizzare i trigger. Ciò di cui hai bisogno è una disambiguazione del senso della parola e adattamento del dominio. Volete dare un senso ai documenti, capisco la semantica per capire il significato. Puoi costruire un'ontologia legale dei termini in sko o nel formato json-ld, rappresentarla ontologicamente in un grafico di conoscenza e usarla con analisi di dipendenza come tensorflow/parseymcparseface. Oppure, puoi trasmettere in streaming i tuoi documenti usando un'architettura basata su kappa - qualcosa come kafka-flink-elasticsearch con livelli intermedi NLP aggiunti usando CoreNLP/Tensorflow/UIMA, inserisci nella cache l'impostazione dell'indicizzazione tra flink ed elasticsearch usando i redis per accelerare il processo. Per comprendere la rilevanza è possibile applicare casi specifici dall'aumento della ricerca. Inoltre, applica l'analisi del sentimento per elaborare intenti e verità. Il tuo caso d'uso è uno di estrazione di informazioni, riepilogo e dati web/collegati semantici. Poiché l'UE ha un sistema giuridico diverso, è necessario prima generalizzare su ciò che è realmente un documento legale, quindi ridurlo a concetti giuridici specifici in relazione a un argomento o una regione. Puoi anche utilizzare qui le tecniche di modellazione argomento da LDA o Word2Vec/Sense2Vec. Inoltre, Lemon potrebbe anche aiutare a convertire lessicale in semantica e semantica in lessicale i.e NLP-> ontology -> ontology-> NLP. In sostanza, alimenta il clustering nella classificazione di un riconoscimento di entità con nome. Puoi anche usare il clustering per aiutarti a costruire l'ontologia o vedere quali sono i vettori di parole in un documento o in una serie di documenti usando la similarità del coseno. Ma, per fare tutto ciò che è meglio visualizzare la scarsità di parole dei tuoi documenti. Qualcosa come il ragionamento di senso comune + l'apprendimento profondo potrebbe aiutare anche nel tuo caso.

3

Per dare un senso ai documenti è necessario eseguire una sorta di analisi semantica.Avete due possibilità principali con i loro esempi:

Utilizzare frame semantico: http://www.cs.cmu.edu/~ark/SEMAFOR/

Usa Semantic Ruolo etichettatura (SRL): http://cogcomp.org/page/demo_view/srl

Una volta che siete in grado di estrarre informazioni dai documenti allora si può applicare alcuni post-elaborazione per determinare quali informazioni sono rilevanti. La ricerca di quali informazioni sono rilevanti è legata all'attività e non penso che tu possa trovare uno strumento generico che estrae le informazioni "pertinenti".

Problemi correlati