2014-12-24 8 views

risposta

5
  • summary() ~ describe()
  • head() ~ head()

io non sono sicuro circa la str() equivalente.

+1

dtypes() è un equivalente approssimativo per str() –

1

Non so molto di R, ma qui ci sono alcuni cavi:

str => 

difficile ... per le funzioni che è possibile utilizzare dir(), dir() sul set di dati vi darà tutte le metodi, quindi forse non è quello che vuoi ...

summary => describe. 

Vedere i parametri per personalizzare i risultati.

head => your can use head(), or use slices. 

testa come già. Per ottenere le prime 10 righe di un set di dati chiamato ds ds[:10] stesso per coda ds[:-10]

15

Fornisce un'uscita simile a R str(). Presenta valori univoci invece dei valori iniziali.

def rstr(df): return df.shape, df.apply(lambda x: [x.unique()]) 

print(rstr(iris)) 

((150, 5), sepal_length [[5.1, 4.9, 4.7, 4.6, 5.0, 5.4, 4.4, 4.8, 4.3,... 
sepal_width  [[3.5, 3.0, 3.2, 3.1, 3.6, 3.9, 3.4, 2.9, 3.7,... 
petal_length [[1.4, 1.3, 1.5, 1.7, 1.6, 1.1, 1.2, 1.0, 1.9,... 
petal_width  [[0.2, 0.4, 0.3, 0.1, 0.5, 0.6, 1.4, 1.5, 1.3,... 
class   [[Iris-setosa, Iris-versicolor, Iris-virginica]] 
dtype: object) 
5

Pandas offre un'ampia Comparison with R/R libraries:

R   | Pandas 
--------------------------- 
summary(df) | df.describe() 
head(df) | df.head() 
4

Per un pitone equivalente alla funzione str() in R, I utilizzare il metodo dtypes. Questo fornirà i tipi di dati per ogni colonna.

In [22]: df2.dtypes 
Out[22]: 
Survived  int64 
Pclass  int64 
Sex   object 
Age   float64 
SibSp   int64 
Parch   int64 
Ticket  object 
Fare  float64 
Cabin  object 
Embarked  object 
dtype: object 
19

Nel panda metodo info() crea un'uscita molto simile come R str():

> str(train) 
'data.frame': 891 obs. of 13 variables: 
$ PassengerId: int 1 2 3 4 5 6 7 8 9 10 ... 
$ Survived : int 0 1 1 1 0 0 0 0 1 1 ... 
$ Pclass  : int 3 1 3 1 3 3 1 3 3 2 ... 
$ Name  : Factor w/ 891 levels "Abbing, Mr. Anthony",..: 109 191 358 277 16 559 520 629 417 581 ... 
$ Sex  : Factor w/ 2 levels "female","male": 2 1 1 1 2 2 2 2 1 1 ... 
$ Age  : num 22 38 26 35 35 NA 54 2 27 14 ... 
$ SibSp  : int 1 1 0 1 0 0 0 3 0 1 ... 
$ Parch  : int 0 0 0 0 0 0 0 1 2 0 ... 
$ Ticket  : Factor w/ 681 levels "110152","110413",..: 524 597 670 50 473 276 86 396 345 133 ... 
$ Fare  : num 7.25 71.28 7.92 53.1 8.05 ... 
$ Cabin  : Factor w/ 148 levels "","A10","A14",..: 1 83 1 57 1 1 131 1 1 1 ... 
$ Embarked : Factor w/ 4 levels "","C","Q","S": 4 2 4 4 4 3 4 4 4 2 ... 
$ Child  : num 0 0 0 0 0 NA 0 1 0 1 ... 


train.info() 
<class 'pandas.core.frame.DataFrame'> 
RangeIndex: 891 entries, 0 to 890 
Data columns (total 12 columns): 
PassengerId 891 non-null int64 
Survived  891 non-null int64 
Pclass   891 non-null int64 
Name   891 non-null object 
Sex   891 non-null object 
Age   714 non-null float64 
SibSp   891 non-null int64 
Parch   891 non-null int64 
Ticket   891 non-null object 
Fare   891 non-null float64 
Cabin   204 non-null object 
Embarked  889 non-null object 
dtypes: float64(2), int64(5), object(5) 
memory usage: 83.6+ KB 
+0

str non dice il numero di elementi non nulli, errore? – hhh

Problemi correlati