Публикации по тематике apache-spark

Публикации по теме 'apache-spark'

Как DeepCure масштабирует конвейеры данных в облаке

Инжиниринг платформы Как DeepCure масштабирует открытие лекарств в облаке Обзор облачного автоматизированного решения для поиска лекарств, созданного с помощью Kubernetes. Компьютерный дизайн лекарств (CADD), также известный как скрининг in silico , стал эффективным методом, позволяющим сократить время и деньги, необходимые для открытия новых лекарств. Как следует из названия, этот процесс включает в себя использование вычислительных ресурсов, а более широкое внедрение передовых..

Обнаружение контента и рекомендации по использованию машинного обучения Spark на экземплярах с высокой памятью Linode

Одна из причин, по которой я люблю статистику и машинное обучение, заключается в том, что они предоставляют методы, позволяющие компьютерам решать проблемы умно и быстро, что в противном случае потребовало бы значительных ручных усилий и времени. В этой статье я описываю, как я подошел к одной такой проблеме, связанной с обнаружением контента и рекомендациями, с использованием методов неконтролируемого машинного обучения. Я также воспользовался возможностью изучить решение с помощью..

Избегайте зависимостей ML, синхронизирующих черную дыру

Использование MLFlow и Apache Spark для изоляции логических выводов и зависимостей обучения. Вы когда-нибудь пытались развернуть модель машинного обучения только для того, чтобы получить сообщение об ошибке, похожее на следующее? RuntimeError: Running pandas version ('1.5.3') is incompatible with min ('1.1.0'} and max ('1.2.5') versions Если вы развернули и получили ошибку, это ваш счастливый день. Лучше ошибка, чем модельная зависимость, которая дает немного разные результаты для..

Почему ваши Spark-коды неэффективны

Spark — это мощный механизм обработки данных с открытым исходным кодом, который произвел революцию в обработке больших данных. Он предоставляет платформу распределенных вычислений, которая позволяет аналитикам данных и инженерам обрабатывать большие наборы данных в нужном масштабе. Однако при больших объемах данных возникает проблема оптимизации запросов Spark для эффективной обработки. В этой статье мы рассмотрим некоторые передовые практики и методы оптимизации, которые вы можете..

Вопросы по теме 'apache-spark'

Настройка памяти исполнителя и количества исполнителей на рабочий узел

Как настроить память Executor в кластере Spark. Кроме того, как настроить количество исполнителей на рабочий узел? Есть ли способ узнать, сколько памяти исполнителя свободно для кэширования или сохранения новых RDD.

apache-spark rdd

20.04.2024

Ошибка JAVA_HOME при обновлении до Spark 1.3.0

Я пытаюсь обновить проект Spark, написанный на Scala, с Spark 1.2.1 до 1.3.0, поэтому я изменил свой build.sbt следующим образом: -libraryDependencies += "org.apache.spark" %% "spark-core" % "1.2.1" % "provided" +libraryDependencies +=...

java apache-spark hadoop scala

16.03.2024

Как прочитать некоторые определенные файлы из набора файлов как один RDD

у меня есть коллекция файлов в каталоге, и я хочу прочитать некоторые конкретные файлы из этих файлов как один RDD, например: 2000.txt 2001.txt 2002.txt 2003.txt 2004.txt 2005.txt 2006.txt 2007.txt 2008.txt 2009.txt 2010.txt 2011.txt 2012.txt...

file apache-spark scala

23.04.2024

Объединение двух фреймов данных с использованием нескольких столбцов в качестве ключей, хранящихся в массиве в Apache Spark

Как рассчитать объединение двух фреймов данных, используя несколько столбцов в качестве ключа? Например, DF1, DF2 - это два фрейма данных. Это способ, которым мы можем вычислить соединение, JoinDF = DF1.join(DF2, DF1("column1") ===...

apache-spark dataframe apache-spark-sql scala join

06.04.2024

Вставка данных в таблицу Hive с помощью HiveContext с помощью Spark Scala

Мне удалось вставить данные в таблицу Hive из моего искрового кода, используя HiveContext, как показано ниже. val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) sqlContext.sql("CREATE TABLE IF NOT EXISTS e360_models.employee(id...

apache-spark hadoop apache-spark-sql scala hive

12.04.2024

Как устранить ошибку «Не удалось определить имя хоста экземпляра» с помощью spark-ec2?

Попытка запустить кластер Spark на EC2, получая ошибку «Не удалось определить имя хоста экземпляра» (чувствительные элементы заменены на * ): $ spark-ec2 --vpc-id=vpc-* --subnet-id=subnet-* --slaves=1 --key-pair=*...

amazon-ec2 apache-spark spark-ec2

11.04.2024

Как разделить большой фрейм данных и использовать более мелкие части для выполнения нескольких широковещательных соединений в Spark?

Допустим, у нас есть два очень больших кадра данных — A и B. Теперь я понимаю, что если я использую один и тот же разделитель хэшей для обоих RDD, а затем выполняю соединение, ключи будут совмещены, и соединение может быть быстрее с уменьшением...

apache-spark scala

17.04.2024

REST API, взаимодействующий со Spark

Я пытаюсь подключить свой контекст Spark к REST API. Итак, мой поток таков: я отправляю запрос из своего UI-nodejs в REST API, который должен взаимодействовать с контекстом искры (задание Spark работает над таблицами куста), который содержит...

python node.js rest apache-spark hadoop

28.04.2024

Как написать набор данных в тему Kafka?

Я использую Spark 2.1.0 и Kafka 0.9.0. Я пытаюсь передать результат пакетного задания искры в kafka. Предполагается, что задание выполняется каждый час, но не в потоковом режиме. В поисках ответа в сети я смог найти только интеграцию kafka с...

apache-kafka apache-spark apache-spark-sql scala

01.05.2024

искра - приложение возвращает разные результаты в зависимости от разной памяти исполнителя?

Я замечаю какое-то странное поведение, у меня есть искровая работа, которая считывает данные и выполняет некоторую группировку, упорядочение и объединение и создает выходной файл. Проблема заключается в том, что когда я запускаю одно и то же...

apache-spark yarn

27.03.2024

ИЛИ условие в фрейме данных полное внешнее соединение, снижающее производительность spark/scala

Я вижу, что если мое условие присоединения включает предложение OR, это занимает много времени по сравнению с предложением AND. Я делаю полное соединение. Мой модульный тест не показывает большой разницы, но при работе с большим набором данных он...

apache-spark apache-spark-sql scala join

02.04.2024

искровое декартово произведение каждого элемента в столбце

У меня есть фрейм данных, который выглядит так: df: col1 col2 a [p1,p2,p3] b [p1,p4] Желаемый результат: df_out: col1 col2 col3 p1 p2 a p1 p3 a p2 p3 a p1 p4 b Я провел небольшое исследование и...

apache-spark apache-spark-sql scala rdd

27.03.2024

Jar соединителя Spark MySql

Я подключаюсь к базе данных MySql из искрового приложения (spark-2.0.0-bin-hadoop2.7). При подключении получаю ошибку ниже. Вот мой код: def main(args: Array[String]) { val conf = new SparkConf() .setAppName("LoadMySql")...

mysql apache-spark jdbc

07.04.2024

Сохранение смещения сообщения в Kafka с помощью KafkaUtils.createDirectStream

Как сохранить смещение сообщения в Kafka, если я использую KafkaUtils.createDirectStream для чтения сообщений. Kafka теряет значение смещения каждый раз, когда приложение выходит из строя. Затем оно считывает значение, указанное в auto.offset.reset...

apache-kafka apache-spark spark-streaming-kafka

17.03.2024

Pyspark: как распараллелить обработку нескольких файлов gz в HDFS

У меня есть много файлов gz , хранящихся в кластере HDFS из 20 узлов, которые необходимо агрегировать по столбцам. Файлы gz очень большие (1 ГБ каждый и всего 200 файлов). Формат данных — значение ключа с двумя значениями столбца:...

python apache-spark pyspark hdfs gzip

30.03.2024

Получение потоковых данных из набора данных с помощью пользовательского приемника [Spark Streaming]

Я новичок в Spark и его библиотеках! У меня есть случай, когда мне нужно отправить набор данных на store() пользовательского приемника, а затем передать данные из этого пользовательского приемника. Я получаю набор данных таким образом внутри...

java apache-spark apache-spark-sql spark-streaming apache-spark-dataset

29.03.2024

Django поднять AppRegistryNotReady (приложения еще не загружены.) django.core.exceptions.AppRegistryNotReady: приложения еще не загружены

Я пытаюсь использовать pyspark для предварительной обработки данных для модели прогнозирования. Я получаю сообщение об ошибке, когда пытаюсь запустить spark.createDataFrame из своей предварительной обработки. Есть ли способ проверить, как выглядит...

django apache-spark pyspark

29.04.2024

Искра: У исполнителей разные задачи

Я использую Spark 2.4.3 с 12 исполнителями, каждый с 5 ядрами и 40 памятью. Я установил defaultParallelism на 180. Я использую следующий код для чтения двух отдельных текстовых файлов из hdfs. val f1 = sc.textFile("file1",...

apache-spark

08.04.2024

Показать все начальные отдельные элементы после фильтрации и группировки по

Это мой начальный кадр данных: продажиDf itemName sales_quantity Apple 200 Apple 400 Pear 300 Pear 500 Banana 300 salesDf.where(col('sales_quantity') > 300)\...

python apache-spark pyspark apache-spark-sql pyspark-dataframes

23.03.2024

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning