Come possiamo eseguire un join tra due Spark DataFrame senza colonne duplicate?
Scenario di esempio
Supponiamo di avere due DataFrame:df1
e df2
, entrambi con colonne col
.
Vogliamo unirci a df1
e df2
sopra la colonna col
, quindi potremmo eseguire un join come questo:
joined = df1.join(df2, df1.col == df2.col)
Unisciti a DataFrames senza colonne duplicate
Possiamo specificare la colonna di join utilizzando un array o una stringa per evitare colonne duplicate.
joined = df1.join(df2, ["col"])
# OR
joined = df1.join(df2, "col")