WedX - журнал о программировании и компьютерных науках

Как прочитать некоторые определенные файлы из набора файлов как один RDD

у меня есть коллекция файлов в каталоге, и я хочу прочитать некоторые конкретные файлы из этих файлов как один RDD, например:

2000.txt
2001.txt
2002.txt
2003.txt
2004.txt
2005.txt
2006.txt
2007.txt
2008.txt
2009.txt
2010.txt
2011.txt
2012.txt

и я хочу прочитать каждый конкретный диапазон из этих файлов, например:

range = 4
from = 2004

then read files : 2004.txt , 2005.txt , 2006.txt , 2007.txt
as one RDD (data)

как я могу сделать это в искре scala?

23.07.2015

  • Сначала сгенерируйте последовательность имен файлов, затем вызовите для нее sc.parallelize и map или flatMap с методом, который считывает содержимое файла? Это, конечно, предполагает, что файлы видны со всех ведомых устройств spark. 23.07.2015
  • @AHAD Где хранятся эти файлы? Локальная файловая система, HDFS, что-то еще? Каков максимальный размер файла? 23.07.2015
  • эти файлы находятся в локальной файловой системе, и я хочу запустить код в кластере узлов. 23.07.2015
  • Существует также некоторая поддержка путевых гломов (выражений с подстановочными знаками), например, sparkContext.textFile("/path/to/200[89]*") захватывает данные за 2008 и 2009 годы. 23.07.2015
  • @AHAD, если файлы хранятся локально, вам придется скопировать их либо в HDFS, либо в каталог nfs, который сопоставлен со всеми узлами spark. Конечно, это не будет проблемой, если вы просто играете с локальным экземпляром. 23.07.2015

Ответы:


1

Поскольку текстовый файл Spark предоставляет Hadoop. FileInputFormat, вы можете указать varargs каталогов и подстановочные знаки. Следовательно, это должно работать (непроверено):

def datedRange(fromYear: Int, years: Int) = 
  sc.textFile(Seq.tabulate(years)(x => fromYear + x).map(y => s"/path/to/dir/$y"): _*)
23.07.2015
Новые материалы

Как проанализировать работу вашего классификатора?
Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)
Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js
Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!
Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли
Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..


Для любых предложений по сайту: [email protected]