Python >> Programma Python >  >> Python

Come rimuovere le colonne duplicate su Join in un DataFrame Spark

Come possiamo eseguire un join tra due Spark DataFrame senza colonne duplicate?

Scenario di esempio

Supponiamo di avere due DataFrame:df1 e df2 , entrambi con colonne col .

Vogliamo unirci a df1 e df2 sopra la colonna col , quindi potremmo eseguire un join come questo:

joined = df1.join(df2, df1.col == df2.col)

Unisciti a DataFrames senza colonne duplicate

Possiamo specificare la colonna di join utilizzando un array o una stringa per evitare colonne duplicate.

joined = df1.join(df2, ["col"])
# OR
joined = df1.join(df2, "col")