Quando un file Parquet data
è scritto con il partizionamento sulla sua colonna date
otteniamo una struttura di directory simile:I file dei metadati del parquet devono essere riavvolti?
/data
_common_metadata
_metadata
_SUCCESS
/date=1
part-r-xxx.gzip
part-r-xxx.gzip
/date=2
part-r-xxx.gzip
part-r-xxx.gzip
Se la partizione date=2
viene eliminato senza il coinvolgimento di utilità Parquet (tramite la shell o browser di file, ecc) è necessario eseguire il rollback di uno qualsiasi dei file di metadati quando era presente solo la partizione date=1
?
Oppure è corretto eliminare le partizioni a piacere e riscriverle (o meno) in seguito?