Boto3 EMR - Passo alveare

È possibile eseguire passaggi di alveare utilizzando boto 3? Lo sto facendo usando la CLI di AWS, ma dai documenti (http://boto3.readthedocs.org/en/latest/reference/services/emr.html#EMR.Client.add_job_flow_steps), sembra che solo i barattoli siano accettati. Se sono possibili passi Hive, dove sono le risorse?Boto3 EMR - Passo alveare

Grazie

fonte

2015-09-05 intl

Nella versione precedente di Boto, c'era una classe di supporto di nome HiveStep che ha reso facile per la costruzione del passaggio del flusso un lavoro per l'esecuzione di un lavoro Hive. Tuttavia in Boto3, l'approccio è cambiato e le classi vengono generate in fase di esecuzione dall'API REST di AWS. Di conseguenza, nessuna classe di helper esiste. Guardando il codice sorgente di HiveStep, https://github.com/boto/boto/blob/2d7796a625f9596cbadb7d00c0198e5ed84631ed/boto/emr/step.py si può vedere che questa è una sottoclasse di Step, che è una classe con proprietà jarargs e mainclass, molto simile ai requirments in Boto3.

Si scopre che tutti i passaggi del flusso di lavoro su EMR, compresi quelli Hive, devono ancora essere istanziati da un JAR. Pertanto è possibile eseguire passaggi Hive tramite Boto3, ma non esiste una classe helper per semplificare la costruzione della definizione.

Osservando l'approccio utilizzato da HiveStep nella versione precedente di Boto, è possibile creare una definizione di flusso di lavoro valida.

Oppure, potresti ricorrere all'utilizzo della versione precedente di Boto.

fonte

2015-09-10 12:59:07 mattinbits

quello che sarebbe un esempio di un passo alveare utilizzando Boto3? Non riesco a trovare esempi o indicazioni di sorta. Preferirei usare l'ultima etichetta di rilascio (4.0). – intl

Non sei sicuro di cosa intendi con l'etichetta di rilascio 4.0? – mattinbits

È l'ultima versione di emr 4.0. È passato come argomento dalla CLI. – intl

sono stato in grado di ottenere questo lavoro utilizzando Boto3:

# First create your hive command line arguments 
hive_args = "hive -v -f s3://user/hadoop/hive.hql" 

# Split the hive args to a list 
hive_args_list = hive_args.split() 

# Initialize your Hive Step 
hiveEmrStep=[ 
     { 
      'Name': 'Hive_EMR_Step', 
      'ActionOnFailure': 'CONTINUE', 
      'HadoopJarStep': { 
       'Jar': 'command-runner.jar', 
       'Args': hive_args_list 
      } 
     }, 
    ] 

# Create Boto3 session and client 
session = boto3.Session(region_name=AWS_REGION,profile_name=AWS_PROFILE) 
client = session.client('emr') 

# Submit and execute EMR Step 
client.add_job_flow_steps(JobFlowId=cluster_id,Steps=hiveEmrStep) 

#Where cluster_id is the ID of your cluster from AWS EMR (ex: j-2GS7xxxxxx)

fonte

2016-05-18 20:25:06

Boto3 EMR - Passo alveare

risposta

Problemi correlati