Допустим, у нас есть два очень больших кадра данных — A и B. Теперь я понимаю, что если я использую один и тот же разделитель хэшей для обоих RDD, а затем выполняю соединение, ключи будут совмещены, и соединение может быть быстрее с уменьшением перетасовки ( единственная перетасовка, которая произойдет, будет, когда разделитель изменится на A и B).
Я хотел попробовать что-то другое - я хочу попробовать широковещательное соединение вот так -> скажем, B меньше, чем A, поэтому мы выбираем B для трансляции, но B по-прежнему очень большой кадр данных. Итак, что мы хотим сделать, так это сделать несколько фреймов данных из B, а затем отправить каждый в виде широковещательной рассылки для объединения в A.
Кто-нибудь пробовал это? Чтобы разделить один фрейм данных на несколько, я вижу только метод randomSplit, но это не очень хороший вариант.
Есть ли другой лучший способ выполнить эту задачу?
Спасибо!