WedX - журнал о программировании и компьютерных науках

Публикации по теме 'hadoop'


Как получить доступ к вашим томам Hadoop с искровых шагов при работе под Apache-Airflow
Я довольно много работал с конвейерами Apache Airflow, чтобы автоматизировать кластеры ElasticMapReduce (EMR) на Amazon Web Services (AWS) для инженерных потоков данных, так что это первая из серии публикаций, в которых освещаются некоторые неожиданные ситуации. проблемы, с которыми я столкнулся при использовании этого инструмента, а также некоторые обходные пути, которые могут оказаться полезными, если вы столкнетесь с аналогичными проблемами. Итак, во-первых, что именно я пытаюсь..

Введение в Spark с Python: подробное объяснение архитектуры Spark и компонентов
PySpark для начинающих Введение в Spark с Python: подробное объяснение архитектуры Spark и компонентов Объяснение Spark для начинающих - ELI5 Обзор В этой статье мы обсудим архитектуру фреймворка Hadoop и ограничения MapReduce при обработке больших данных, которые выступают в качестве мотивации для разработки фреймворка Apache Spark. После этого мы обсудим различные компоненты Spark и его архитектуру и, наконец, взглянем на PySpark API. Table of contents : 1. Big Data and..

Вопросы по теме 'hadoop'

Использование программы grep map-reduce на Hadoop
Я использую программу hadoop grep, которая встроена в пример файла jar. hadoop jar /usr/lib/hadoop/hadoop-examples.jar grep /user/tavasthi/log /user/tavasthi/log_result_output 'ip1 | ip2' Но результаты приходят неправильно. Я намерен искать...
27.03.2024

Почему картограф идентичности может выйти из памяти?
В задании Hadoop только для редукции входные файлы обрабатываются средством сопоставления удостоверений и отправляются редукторам без изменений. В какой-то своей работе я был очень удивлен, увидев, что задание не удалось на этапе карты с «Ошибкой...

Локальность данных при использовании HDFS другого кластера
Аналогично локальности данных, если HDFS не используется , но характерно для HDFS. У нас есть 2 кластера Hadoop, и мы отправляем задачу свиньи в кластер A JobTracker, который считывает большой набор данных (100 ГБ) из кластера B и присоединяется к...
23.04.2024

Пропуск плохих входных файлов в hadoop
Я использую Amazon Elastic MapReduce для обработки некоторых файлов журналов, загруженных на S3. Файлы журналов загружаются ежедневно с серверов, использующих S3, но кажется, что некоторые из них повреждаются во время передачи. Это приводит к...

Импорт дампа против параллельной обработки против Hadoop
На самом деле я хочу скопировать 50 ГБ базы данных с одного сервера на другой сервер, я просто хочу знать, какой из трех вариантов лучше. Спасибо

Как читать файлы из HDFS в Reducer с помощью Rhipe (R)
Я работаю над созданием нескольких картографов и редукторов. Два маппера и редуктора делают свое дело и сохраняют вывод в выходной папке HDFS. Теперь мне нужно прочитать эти два уменьшенных файла из HDFS из третьего преобразователя, но я не мог...
19.03.2024

Проблема с подключением кафки извне
Я использую песочницу hortonwork для сервера kafka, пытаясь подключить kafka из eclipse с кодом java. Используйте эту конфигурацию для подключения к производителю для отправки сообщения metadata.broker.list=sandbox.hortonworks.com:45000...

Ошибка JAVA_HOME при обновлении до Spark 1.3.0
Я пытаюсь обновить проект Spark, написанный на Scala, с Spark 1.2.1 до 1.3.0, поэтому я изменил свой build.sbt следующим образом: -libraryDependencies += "org.apache.spark" %% "spark-core" % "1.2.1" % "provided" +libraryDependencies +=...

Запускает ли копирование из локального каталога в HDFS задание mapreduce?
Когда мы выдаем команду hdfs put или copyfromlocal , вызывает ли она задание mapreduce ? Если да, то сколько картографов запущено? Если нет, то как осуществляется передача? Я прочитал Анатомию файла в Полное руководство по Hadoop , но хотел...
01.05.2024

Загрузка данных в таблицу Hive по HDFS и локальным файлам
Если мы загружаем данные из HDFS в таблицы Hive, в чем преимущество перед загрузкой данных из локального файла? Если мы загружаем данные из HFDS в Hive, разве это не репликация данных в HDFS?
10.04.2024

Драйвер Hive ql, как указать имя базы данных, отличное от значения по умолчанию
Я пишу пример программы для подключения к хранилищу метаданных Hive с использованием класса org.apache.hadoop.hive.ql.Driver. Пример фрагмента приведен ниже. String userName = "test"; HiveConf conf = new HiveConf(SessionState.class);...
12.04.2024

Мониторинг кластера HBase
Я узнал, что Hbase предоставляет различные метрики, которые можно использовать для мониторинга кластера и настройки параметров конфигурации для достижения наилучшей производительности. Так может ли кто-нибудь сказать, что означают эти показатели и...

Вставка данных в таблицу Hive с помощью HiveContext с помощью Spark Scala
Мне удалось вставить данные в таблицу Hive из моего искрового кода, используя HiveContext, как показано ниже. val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) sqlContext.sql("CREATE TABLE IF NOT EXISTS e360_models.employee(id...

как динамически удалять разделы из таблицы кустов?
Я новичок в улье. Может ли кто-нибудь помочь мне с этим требованием? Мое требование - динамически удалять разделы. У меня был SQL, который приводит к различным регионам (SQL ниже: после ALTER TABLE FROM ). Теперь я хочу удалить регионы...
22.04.2024

REST API, взаимодействующий со Spark
Я пытаюсь подключить свой контекст Spark к REST API. Итак, мой поток таков: я отправляю запрос из своего UI-nodejs в REST API, который должен взаимодействовать с контекстом искры (задание Spark работает над таблицами куста), который содержит...

как я могу вставить одну строку в таблицу кустов с разделом?
Я хочу вставить одну строку в tb_table, но кажется, что улей этого не поддерживает. Мой sql: insert into tb_test values('000','111') partition (day='20190404'); Исключение: FAILED: строка ParseException 1:40 отсутствует EOF в...
22.04.2024

Новые материалы

Как проанализировать работу вашего классификатора?
Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)
Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js
Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!
Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли
Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..


Для любых предложений по сайту: [email protected]