У меня есть фрейм данных, который выглядит так:
df:
col1 col2
a [p1,p2,p3]
b [p1,p4]
Желаемый результат:
df_out:
col1 col2 col3
p1 p2 a
p1 p3 a
p2 p3 a
p1 p4 b
Я провел небольшое исследование и считаю, что преобразование df
в rdd
, а затем flatMap
с cartesian
продуктом идеально подходят для решения этой проблемы. Однако я не мог объединить их вместе.
Спасибо,