5

Ho preparato un set di dati per riconoscere un certo tipo di oggetti (circa 2240 esempi di oggetti negativi e solo circa 90 esempi di oggetti positivi). Tuttavia, dopo aver calcolato 10 funzioni per ciascun oggetto nel set di dati, il numero di istanze di allenamento esclusive è sceso a circa 130 e 30, rispettivamente.Devo mantenere/rimuovere esempi di allenamento identici che rappresentano oggetti diversi?

Poiché le istanze di allenamento identiche rappresentano effettivamente oggetti diversi, posso dire che questa duplicazione contiene informazioni pertinenti (ad esempio la distribuzione dei valori delle caratteristiche degli oggetti), che può essere utile in un modo o nell'altro?

+0

La rete neurale riceve informazioni diverse dalle funzioni? E i valori delle funzionalità sono in realtà identici o solo molto simili? – seaotternerd

+0

A1: No, non riceve altre informazioni. A2: i valori delle funzionalità sono identici. –

risposta

10

Se si omettono i duplicati, si altererà la velocità di base di ciascun oggetto distinto. Se i dati di allenamento sono un campione rappresentativo del mondo reale, allora non lo vuoi, perché in effetti ti stai allenando per un mondo leggermente diverso (uno con tariffe di base diverse).

Per chiarire il punto, prendere in considerazione uno scenario in cui ci sono solo due oggetti distinti. I tuoi dati originali contengono 99 dell'oggetto A e 1 dell'oggetto B. Dopo aver eliminato i duplicati, hai 1 oggetto A e 1 oggetto B. Un classificatore addestrato sui dati deduplicati sarà sostanzialmente diverso da quello addestrato sui dati originali.

Il mio consiglio è di lasciare i duplicati nei dati.

+0

Grazie per la risposta. Potrebbe suggerire qualsiasi riferimento che fornisca un'ulteriore spiegazione di questo problema? –

+0

La preparazione dei dati di addestramento soffre di diverse limitazioni, il che significa che i dati di addestramento non sono necessariamente un campione rappresentativo del mondo reale. Inoltre, mantenere le istanze di addestramento duplicate influirà sulla stima di accuratezza della convalida incrociata, poiché potrebbero esistere istanze identiche nel sottogruppo di addestramento e nel sottogruppo di test. –

+0

Ultima domanda :) Con questo livello di squilibrio, prima di deduplicare i dati o dopo, dovrei usare una tecnica di sovracampionamento? –

Problemi correlati