2016-06-27 10 views
8

Con i risultati di due diversi sistemi di riepilogo (sys1 e sys2) e gli stessi riepiloghi di riferimento, li ho valutati sia con BLEU sia con ROUGE. Il problema è: tutti i punteggi ROUGE di sys1 erano superiori a sys2 (ROUGE-1, ROUGE-2, ROUGE-3, ROUGE-4, ROUGE-L, ROUGE-SU4, ...) ma il punteggio di BLEU di sys1 era inferiore del punteggio BLEU di sys2 (abbastanza).Test di riepilogo del testo - BLEU vs ROUGE

Quindi la mia domanda è: sia ROUGE che BLEU si basano su n-gram per misurare il simile tra i sommari dei sistemi e i sommari dell'umano. Quindi, perché ci sono differenze nei risultati di una valutazione del genere? E qual è la differenza principale tra ROUGE e BLEU per spiegare questo problema?

Qualsiasi consiglio e suggerimento sarà molto apprezzato! Grazie!

risposta

12

In generale:

Bleu misura la precisione: quanto le parole (e/o n-grammi) nelle macchina sommari generati apparsi nei sommari di riferimento umani.

misure

Rouge ricordano: quanto le parole (e/o n-grammi) nelle sommari di riferimento umani apparsi nella macchina generato sommari.

Naturalmente, questi risultati sono complementari, come spesso accade nel caso della precisione rispetto al richiamo. Se hai molte parole dai risultati di sistema che appaiono nei riferimenti umani avrai un alto Bleu, e se hai molte parole dai riferimenti umani che appaiono nei risultati di sistema avrai un Rouge alto.

Nel tuo caso sembrerebbe che sys1 abbia un Rouge più alto di sys2 poiché i risultati in sys1 consistono di avere più parole dai riferimenti umani che appaiono in esse rispetto ai risultati di sys2. Tuttavia, dal momento che il tuo punteggio Bleu ha dimostrato che sys1 ha un richiamo inferiore rispetto a sys2, ciò suggerirebbe che non molte parole dai tuoi risultati sys1 apparissero nei riferimenti umani, rispetto a sys2.

Questo potrebbe accadere ad esempio se il vostro sys1 sta emettendo risultati che contengono parole dai riferimenti (upping the Rouge), ma anche molte parole che i riferimenti non includevano (abbassando il Bleu). sys2, come sembra, sta dando risultati per cui la maggior parte delle parole emesse appaiono nei riferimenti umani (upping the Blue), ma mancano anche molte parole dai suoi risultati che appaiono nei riferimenti umani.

BTW, c'è qualcosa chiamato penalità di brevità, che è abbastanza importante ed è già stato aggiunto alle implementazioni standard di Bleu. Esso penalizza i risultati di sistema che sono più corti rispetto alla lunghezza generale di un riferimento (ulteriori informazioni su di esso here). Questo integra il comportamento metrico n-grammo che in effetti penalizza più a lungo dei risultati di riferimento, poiché il denominatore cresce più lungo è il risultato del sistema.

Si potrebbe anche implementare qualcosa di simile per Rouge, ma questa volta penalizzare i risultati del sistema che sono più rispetto alla lunghezza di riferimento generale, che altrimenti avrebbe permesso loro di ottenere artificialmente alti punteggi Rouge (in quanto più lungo è il risultato, il più alto la possibilità che tu colpissi qualche parola che appare nei riferimenti). In Rouge dividiamo per la lunghezza dei riferimenti umani, quindi avremmo bisogno di una penalità aggiuntiva per risultati di sistema più lunghi che potrebbero aumentare artificialmente il loro punteggio di Rouge.

Infine, è possibile utilizzare la misura F1 per rendere le metriche di lavorare insieme: F1 = 2 * (Bleu * Rouge)/(Bleu + Rouge)

+0

Hai inviato la risposta esatta a due domande. Se pensi che uno di essi sia un duplicato dell'altro, devi contrassegnarli come tali (e non pubblicare la stessa risposta due volte). – Jaap

+1

Le risposte non sono esattamente le stesse, e le domande non sono esattamente le stesse .. È corretto che una delle risposte contenga l'altra, ma non riesco a vedere un modo chiaro per far convergere le due domande. –

+0

La * altra risposta * deve essere contrassegnata come duplicata imo. – Jaap

1

Sia ROUGE e BLEU si basano su n-grammo per misurare il simile tra i sommari dei sistemi e le sintesi umane. Quindi, perché ci sono differenze nei risultati di una valutazione del genere? E qual è la differenza principale tra ROUGE e BLEU per spiegare questo problema?

Esistono sia la precisione ROUGE-n che il richiamo di precisione ROUGE-n. l'implementazione ROUGE originale dal documento che ha introdotto ROUGE {3} calcola entrambi, così come il punteggio F1 risultante.

Da http://text-analytics101.rxnlp.com/2017/01/how-rouge-works-for-evaluation-of.html (mirror):

ROUGE richiamo:

enter image description here

ROUGE precisione:

enter image description here

(L'implementazione ROUGE originale dalla carta che ha introdotto ROUGE { 1} può eseguire alcuni mo cose come lo stemming)

La precisione e il richiamo di ROUGE-n sono facili da interpretare, a differenza di BLEU (vedere Interpreting ROUGE scores).

La differenza tra la precisione di ROUGE-n e BLEU è che BLEU introduce un termine di brevità e calcola anche la corrispondenza di n-grammo per diverse dimensioni di n-grammi (diversamente dal ROUGE-n, dove c'è solo uno dimensione n-grammi scelta). Stack Overflow non supporta LaTeX, quindi non entrerò in più formule da confrontare con BLEU. {2} spiega chiaramente BLEU.


Riferimenti:

Problemi correlati