У меня есть «данные» DataFrame, которые содержат user_id. Чтобы получить все user_id=1, я просто делаю это
filter(data, data$user_id==1)
Скажем, я хочу создать новый DataFrame 'new_data', содержащий первые 10 user_id, а именно user_id= 1, 2, 3,..., 10.
Один из способов сделать это в SparkR —
newdata <- unionAll(filter(data, data$user_id==1), filter(data, data$user_id==2))
for(j in 3:10){
newdata<- unionAll(newdata, filter(data, data$user_id==j) )
}
Это прекрасно работает, однако для больших значений j может потребоваться время. Должен ли быть более умный и простой способ сделать это?