Ho appena iniziato con DataFrame ieri e mi piace davvero fino ad ora.Spark DataFrames: registerTempTable vs non
Non capisco una cosa però ... (riferimento all'esempio in "programmazione Specificare lo schema" qui: https://spark.apache.org/docs/latest/sql-programming-guide.html#programmatically-specifying-the-schema)
In questo esempio il dataframe è registrata come una tabella (sto indovinando quello di fornire accesso alle query SQL ..?) ma la stessa identica informazione a cui si accede può essere eseguita anche da peopleDataFrame.select ("nome").
Quindi la domanda è .. Quando si desidera registrare un dataframe come tabella invece di utilizzare solo le funzioni dateframe fornite? Ed è un'opzione più efficiente dell'altra?
Quindi SQLContext è l'implementazione di spark del motore SQL (parser, optimizer, executor, ecc.), Giusto? Cosa succede quando usi HiveContext? L'esecuzione della query sql viene delegata a Hive? Mi sono imbattuto in una lettura che diceva che una distribuzione hive non è richiesta quando si utilizza HiveContext. Come funzionano allora le cose internamente? –