Публикации по тематике hadoop

Публикации по теме 'hadoop'

Как получить доступ к вашим томам Hadoop с искровых шагов при работе под Apache-Airflow

Я довольно много работал с конвейерами Apache Airflow, чтобы автоматизировать кластеры ElasticMapReduce (EMR) на Amazon Web Services (AWS) для инженерных потоков данных, так что это первая из серии публикаций, в которых освещаются некоторые неожиданные ситуации. проблемы, с которыми я столкнулся при использовании этого инструмента, а также некоторые обходные пути, которые могут оказаться полезными, если вы столкнетесь с аналогичными проблемами. Итак, во-первых, что именно я пытаюсь..

Введение в Spark с Python: подробное объяснение архитектуры Spark и компонентов

PySpark для начинающих Введение в Spark с Python: подробное объяснение архитектуры Spark и компонентов Объяснение Spark для начинающих - ELI5 Обзор В этой статье мы обсудим архитектуру фреймворка Hadoop и ограничения MapReduce при обработке больших данных, которые выступают в качестве мотивации для разработки фреймворка Apache Spark. После этого мы обсудим различные компоненты Spark и его архитектуру и, наконец, взглянем на PySpark API. Table of contents : 1. Big Data and..

Вопросы по теме 'hadoop'

Использование программы grep map-reduce на Hadoop

Я использую программу hadoop grep, которая встроена в пример файла jar. hadoop jar /usr/lib/hadoop/hadoop-examples.jar grep /user/tavasthi/log /user/tavasthi/log_result_output 'ip1 | ip2' Но результаты приходят неправильно. Я намерен искать...

hadoop mapreduce grep

27.03.2024

Почему картограф идентичности может выйти из памяти?

В задании Hadoop только для редукции входные файлы обрабатываются средством сопоставления удостоверений и отправляются редукторам без изменений. В какой-то своей работе я был очень удивлен, увидев, что задание не удалось на этапе карты с «Ошибкой...

java out-of-memory amazon-emr hadoop

24.03.2024

Локальность данных при использовании HDFS другого кластера

Аналогично локальности данных, если HDFS не используется , но характерно для HDFS. У нас есть 2 кластера Hadoop, и мы отправляем задачу свиньи в кластер A JobTracker, который считывает большой набор данных (100 ГБ) из кластера B и присоединяется к...

hadoop hdfs

23.04.2024

Пропуск плохих входных файлов в hadoop

Я использую Amazon Elastic MapReduce для обработки некоторых файлов журналов, загруженных на S3. Файлы журналов загружаются ежедневно с серверов, использующих S3, но кажется, что некоторые из них повреждаются во время передачи. Это приводит к...

hadoop hadoop-streaming elastic-map-reduce

24.04.2024

Импорт дампа против параллельной обработки против Hadoop

На самом деле я хочу скопировать 50 ГБ базы данных с одного сервера на другой сервер, я просто хочу знать, какой из трех вариантов лучше. Спасибо

oracle hadoop parallel-processing

25.03.2024

Как читать файлы из HDFS в Reducer с помощью Rhipe (R)

Я работаю над созданием нескольких картографов и редукторов. Два маппера и редуктора делают свое дело и сохраняют вывод в выходной папке HDFS. Теперь мне нужно прочитать эти два уменьшенных файла из HDFS из третьего преобразователя, но я не мог...

r hadoop mapreduce

19.03.2024

Проблема с подключением кафки извне

Я использую песочницу hortonwork для сервера kafka, пытаясь подключить kafka из eclipse с кодом java. Используйте эту конфигурацию для подключения к производителю для отправки сообщения metadata.broker.list=sandbox.hortonworks.com:45000...

apache-kafka hadoop cloudera hortonworks-data-platform

24.03.2024

Ошибка JAVA_HOME при обновлении до Spark 1.3.0

Я пытаюсь обновить проект Spark, написанный на Scala, с Spark 1.2.1 до 1.3.0, поэтому я изменил свой build.sbt следующим образом: -libraryDependencies += "org.apache.spark" %% "spark-core" % "1.2.1" % "provided" +libraryDependencies +=...

java apache-spark hadoop scala

16.03.2024

Запускает ли копирование из локального каталога в HDFS задание mapreduce?

Когда мы выдаем команду hdfs put или copyfromlocal , вызывает ли она задание mapreduce ? Если да, то сколько картографов запущено? Если нет, то как осуществляется передача? Я прочитал Анатомию файла в Полное руководство по Hadoop , но хотел...

hadoop mapreduce

01.05.2024

Загрузка данных в таблицу Hive по HDFS и локальным файлам

Если мы загружаем данные из HDFS в таблицы Hive, в чем преимущество перед загрузкой данных из локального файла? Если мы загружаем данные из HFDS в Hive, разве это не репликация данных в HDFS?

hadoop hive

10.04.2024

Драйвер Hive ql, как указать имя базы данных, отличное от значения по умолчанию

Я пишу пример программы для подключения к хранилищу метаданных Hive с использованием класса org.apache.hadoop.hive.ql.Driver. Пример фрагмента приведен ниже. String userName = "test"; HiveConf conf = new HiveConf(SessionState.class);...

hadoop hive hiveql

12.04.2024

Мониторинг кластера HBase

Я узнал, что Hbase предоставляет различные метрики, которые можно использовать для мониторинга кластера и настройки параметров конфигурации для достижения наилучшей производительности. Так может ли кто-нибудь сказать, что означают эти показатели и...

hadoop cloudera hbase opentsdb

19.04.2024

Вставка данных в таблицу Hive с помощью HiveContext с помощью Spark Scala

Мне удалось вставить данные в таблицу Hive из моего искрового кода, используя HiveContext, как показано ниже. val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) sqlContext.sql("CREATE TABLE IF NOT EXISTS e360_models.employee(id...

apache-spark hadoop apache-spark-sql scala hive

12.04.2024

как динамически удалять разделы из таблицы кустов?

Я новичок в улье. Может ли кто-нибудь помочь мне с этим требованием? Мое требование - динамически удалять разделы. У меня был SQL, который приводит к различным регионам (SQL ниже: после ALTER TABLE FROM ). Теперь я хочу удалить регионы...

sql hadoop hdfs hive

22.04.2024

REST API, взаимодействующий со Spark

Я пытаюсь подключить свой контекст Spark к REST API. Итак, мой поток таков: я отправляю запрос из своего UI-nodejs в REST API, который должен взаимодействовать с контекстом искры (задание Spark работает над таблицами куста), который содержит...

python node.js rest apache-spark hadoop

28.04.2024

как я могу вставить одну строку в таблицу кустов с разделом?

Я хочу вставить одну строку в tb_table, но кажется, что улей этого не поддерживает. Мой sql: insert into tb_test values('000','111') partition (day='20190404'); Исключение: FAILED: строка ParseException 1:40 отсутствует EOF в...

hadoop hive hiveql

22.04.2024

Новые материалы

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли

Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Data Visualization Neural Networks Startup Tutorial Statistics Productivity Reactjs Learning