WedX - журнал о программировании и компьютерных науках

Публикации по теме 'apache-spark'


Как DeepCure масштабирует конвейеры данных в облаке
Инжиниринг платформы Как DeepCure масштабирует открытие лекарств в облаке Обзор облачного автоматизированного решения для поиска лекарств, созданного с помощью Kubernetes. Компьютерный дизайн лекарств (CADD), также известный как скрининг in silico , стал эффективным методом, позволяющим сократить время и деньги, необходимые для открытия новых лекарств. Как следует из названия, этот процесс включает в себя использование вычислительных ресурсов, а более широкое внедрение передовых..

Обнаружение контента и рекомендации по использованию машинного обучения Spark на экземплярах с высокой памятью Linode
Одна из причин, по которой я люблю статистику и машинное обучение, заключается в том, что они предоставляют методы, позволяющие компьютерам решать проблемы умно и быстро, что в противном случае потребовало бы значительных ручных усилий и времени. В этой статье я описываю, как я подошел к одной такой проблеме, связанной с обнаружением контента и рекомендациями, с использованием методов неконтролируемого машинного обучения. Я также воспользовался возможностью изучить решение с помощью..

Избегайте зависимостей ML, синхронизирующих черную дыру
Использование MLFlow и Apache Spark для изоляции логических выводов и зависимостей обучения. Вы когда-нибудь пытались развернуть модель машинного обучения только для того, чтобы получить сообщение об ошибке, похожее на следующее? RuntimeError: Running pandas version ('1.5.3') is incompatible with min ('1.1.0'} and max ('1.2.5') versions Если вы развернули и получили ошибку, это ваш счастливый день. Лучше ошибка, чем модельная зависимость, которая дает немного разные результаты для..

Почему ваши Spark-коды неэффективны
Spark — это мощный механизм обработки данных с открытым исходным кодом, который произвел революцию в обработке больших данных. Он предоставляет платформу распределенных вычислений, которая позволяет аналитикам данных и инженерам обрабатывать большие наборы данных в нужном масштабе. Однако при больших объемах данных возникает проблема оптимизации запросов Spark для эффективной обработки. В этой статье мы рассмотрим некоторые передовые практики и методы оптимизации, которые вы можете..

Вопросы по теме 'apache-spark'

Настройка памяти исполнителя и количества исполнителей на рабочий узел
Как настроить память Executor в кластере Spark. Кроме того, как настроить количество исполнителей на рабочий узел? Есть ли способ узнать, сколько памяти исполнителя свободно для кэширования или сохранения новых RDD.
20.04.2024

Ошибка JAVA_HOME при обновлении до Spark 1.3.0
Я пытаюсь обновить проект Spark, написанный на Scala, с Spark 1.2.1 до 1.3.0, поэтому я изменил свой build.sbt следующим образом: -libraryDependencies += "org.apache.spark" %% "spark-core" % "1.2.1" % "provided" +libraryDependencies +=...

Как прочитать некоторые определенные файлы из набора файлов как один RDD
у меня есть коллекция файлов в каталоге, и я хочу прочитать некоторые конкретные файлы из этих файлов как один RDD, например: 2000.txt 2001.txt 2002.txt 2003.txt 2004.txt 2005.txt 2006.txt 2007.txt 2008.txt 2009.txt 2010.txt 2011.txt 2012.txt...
23.04.2024

Объединение двух фреймов данных с использованием нескольких столбцов в качестве ключей, хранящихся в массиве в Apache Spark
Как рассчитать объединение двух фреймов данных, используя несколько столбцов в качестве ключа? Например, DF1, DF2 - это два фрейма данных. Это способ, которым мы можем вычислить соединение, JoinDF = DF1.join(DF2, DF1("column1") ===...

Вставка данных в таблицу Hive с помощью HiveContext с помощью Spark Scala
Мне удалось вставить данные в таблицу Hive из моего искрового кода, используя HiveContext, как показано ниже. val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) sqlContext.sql("CREATE TABLE IF NOT EXISTS e360_models.employee(id...

Как устранить ошибку «Не удалось определить имя хоста экземпляра» с помощью spark-ec2?
Попытка запустить кластер Spark на EC2, получая ошибку «Не удалось определить имя хоста экземпляра» (чувствительные элементы заменены на * ): $ spark-ec2 --vpc-id=vpc-* --subnet-id=subnet-* --slaves=1 --key-pair=*...

Как разделить большой фрейм данных и использовать более мелкие части для выполнения нескольких широковещательных соединений в Spark?
Допустим, у нас есть два очень больших кадра данных — A и B. Теперь я понимаю, что если я использую один и тот же разделитель хэшей для обоих RDD, а затем выполняю соединение, ключи будут совмещены, и соединение может быть быстрее с уменьшением...
17.04.2024

REST API, взаимодействующий со Spark
Я пытаюсь подключить свой контекст Spark к REST API. Итак, мой поток таков: я отправляю запрос из своего UI-nodejs в REST API, который должен взаимодействовать с контекстом искры (задание Spark работает над таблицами куста), который содержит...

Как написать набор данных в тему Kafka?
Я использую Spark 2.1.0 и Kafka 0.9.0. Я пытаюсь передать результат пакетного задания искры в kafka. Предполагается, что задание выполняется каждый час, но не в потоковом режиме. В поисках ответа в сети я смог найти только интеграцию kafka с...

искра - приложение возвращает разные результаты в зависимости от разной памяти исполнителя?
Я замечаю какое-то странное поведение, у меня есть искровая работа, которая считывает данные и выполняет некоторую группировку, упорядочение и объединение и создает выходной файл. Проблема заключается в том, что когда я запускаю одно и то же...
27.03.2024

ИЛИ условие в фрейме данных полное внешнее соединение, снижающее производительность spark/scala
Я вижу, что если мое условие присоединения включает предложение OR, это занимает много времени по сравнению с предложением AND. Я делаю полное соединение. Мой модульный тест не показывает большой разницы, но при работе с большим набором данных он...

искровое декартово произведение каждого элемента в столбце
У меня есть фрейм данных, который выглядит так: df: col1 col2 a [p1,p2,p3] b [p1,p4] Желаемый результат: df_out: col1 col2 col3 p1 p2 a p1 p3 a p2 p3 a p1 p4 b Я провел небольшое исследование и...

Jar соединителя Spark MySql
Я подключаюсь к базе данных MySql из искрового приложения (spark-2.0.0-bin-hadoop2.7). При подключении получаю ошибку ниже. Вот мой код: def main(args: Array[String]) { val conf = new SparkConf() .setAppName("LoadMySql")...
07.04.2024

Сохранение смещения сообщения в Kafka с помощью KafkaUtils.createDirectStream
Как сохранить смещение сообщения в Kafka, если я использую KafkaUtils.createDirectStream для чтения сообщений. Kafka теряет значение смещения каждый раз, когда приложение выходит из строя. Затем оно считывает значение, указанное в auto.offset.reset...

Pyspark: как распараллелить обработку нескольких файлов gz в HDFS
У меня есть много файлов gz , хранящихся в кластере HDFS из 20 узлов, которые необходимо агрегировать по столбцам. Файлы gz очень большие (1 ГБ каждый и всего 200 файлов). Формат данных — значение ключа с двумя значениями столбца:...

Получение потоковых данных из набора данных с помощью пользовательского приемника [Spark Streaming]
Я новичок в Spark и его библиотеках! У меня есть случай, когда мне нужно отправить набор данных на store() пользовательского приемника, а затем передать данные из этого пользовательского приемника. Я получаю набор данных таким образом внутри...

Django поднять AppRegistryNotReady (приложения еще не загружены.) django.core.exceptions.AppRegistryNotReady: приложения еще не загружены
Я пытаюсь использовать pyspark для предварительной обработки данных для модели прогнозирования. Я получаю сообщение об ошибке, когда пытаюсь запустить spark.createDataFrame из своей предварительной обработки. Есть ли способ проверить, как выглядит...

Искра: У исполнителей разные задачи
Я использую Spark 2.4.3 с 12 исполнителями, каждый с 5 ядрами и 40 памятью. Я установил defaultParallelism на 180. Я использую следующий код для чтения двух отдельных текстовых файлов из hdfs. val f1 = sc.textFile("file1",...
08.04.2024

Показать все начальные отдельные элементы после фильтрации и группировки по
Это мой начальный кадр данных: продажиDf itemName sales_quantity Apple 200 Apple 400 Pear 300 Pear 500 Banana 300 salesDf.where(col('sales_quantity') > 300)\...

Новые материалы

Объяснение документов 02: BERT
BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?
Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)
Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js
Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!
Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..


Для любых предложений по сайту: [email protected]