Публикации по теме 'apache-spark'
Как DeepCure масштабирует конвейеры данных в облаке
Инжиниринг платформы
Как DeepCure масштабирует открытие лекарств в облаке
Обзор облачного автоматизированного решения для поиска лекарств, созданного с помощью Kubernetes.
Компьютерный дизайн лекарств (CADD), также известный как скрининг in silico , стал эффективным методом, позволяющим сократить время и деньги, необходимые для открытия новых лекарств. Как следует из названия, этот процесс включает в себя использование вычислительных ресурсов, а более широкое внедрение передовых..
Обнаружение контента и рекомендации по использованию машинного обучения Spark на экземплярах с высокой памятью Linode
Одна из причин, по которой я люблю статистику и машинное обучение, заключается в том, что они предоставляют методы, позволяющие компьютерам решать проблемы умно и быстро, что в противном случае потребовало бы значительных ручных усилий и времени.
В этой статье я описываю, как я подошел к одной такой проблеме, связанной с обнаружением контента и рекомендациями, с использованием методов неконтролируемого машинного обучения.
Я также воспользовался возможностью изучить решение с помощью..
Избегайте зависимостей ML, синхронизирующих черную дыру
Использование MLFlow и Apache Spark для изоляции логических выводов и зависимостей обучения.
Вы когда-нибудь пытались развернуть модель машинного обучения только для того, чтобы получить сообщение об ошибке, похожее на следующее?
RuntimeError: Running pandas version ('1.5.3') is incompatible with min ('1.1.0'} and max ('1.2.5') versions
Если вы развернули и получили ошибку, это ваш счастливый день. Лучше ошибка, чем модельная зависимость, которая дает немного разные результаты для..
Почему ваши Spark-коды неэффективны
Spark — это мощный механизм обработки данных с открытым исходным кодом, который произвел революцию в обработке больших данных. Он предоставляет платформу распределенных вычислений, которая позволяет аналитикам данных и инженерам обрабатывать большие наборы данных в нужном масштабе. Однако при больших объемах данных возникает проблема оптимизации запросов Spark для эффективной обработки. В этой статье мы рассмотрим некоторые передовые практики и методы оптимизации, которые вы можете..
Вопросы по теме 'apache-spark'
Настройка памяти исполнителя и количества исполнителей на рабочий узел
Как настроить память Executor в кластере Spark. Кроме того, как настроить количество исполнителей на рабочий узел?
Есть ли способ узнать, сколько памяти исполнителя свободно для кэширования или сохранения новых RDD.
20.04.2024
Ошибка JAVA_HOME при обновлении до Spark 1.3.0
Я пытаюсь обновить проект Spark, написанный на Scala, с Spark 1.2.1 до 1.3.0, поэтому я изменил свой build.sbt следующим образом:
-libraryDependencies += "org.apache.spark" %% "spark-core" % "1.2.1" % "provided"
+libraryDependencies +=...
16.03.2024
Как прочитать некоторые определенные файлы из набора файлов как один RDD
у меня есть коллекция файлов в каталоге, и я хочу прочитать некоторые конкретные файлы из этих файлов как один RDD, например:
2000.txt
2001.txt
2002.txt
2003.txt
2004.txt
2005.txt
2006.txt
2007.txt
2008.txt
2009.txt
2010.txt
2011.txt
2012.txt...
23.04.2024
Объединение двух фреймов данных с использованием нескольких столбцов в качестве ключей, хранящихся в массиве в Apache Spark
Как рассчитать объединение двух фреймов данных, используя несколько столбцов в качестве ключа? Например, DF1, DF2 - это два фрейма данных.
Это способ, которым мы можем вычислить соединение,
JoinDF = DF1.join(DF2, DF1("column1") ===...
06.04.2024
Вставка данных в таблицу Hive с помощью HiveContext с помощью Spark Scala
Мне удалось вставить данные в таблицу Hive из моего искрового кода, используя HiveContext, как показано ниже.
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
sqlContext.sql("CREATE TABLE IF NOT EXISTS e360_models.employee(id...
12.04.2024
Как устранить ошибку «Не удалось определить имя хоста экземпляра» с помощью spark-ec2?
Попытка запустить кластер Spark на EC2, получая ошибку «Не удалось определить имя хоста экземпляра» (чувствительные элементы заменены на * ):
$ spark-ec2 --vpc-id=vpc-* --subnet-id=subnet-* --slaves=1 --key-pair=*...
11.04.2024
Как разделить большой фрейм данных и использовать более мелкие части для выполнения нескольких широковещательных соединений в Spark?
Допустим, у нас есть два очень больших кадра данных — A и B. Теперь я понимаю, что если я использую один и тот же разделитель хэшей для обоих RDD, а затем выполняю соединение, ключи будут совмещены, и соединение может быть быстрее с уменьшением...
17.04.2024
REST API, взаимодействующий со Spark
Я пытаюсь подключить свой контекст Spark к REST API. Итак, мой поток таков: я отправляю запрос из своего UI-nodejs в REST API, который должен взаимодействовать с контекстом искры (задание Spark работает над таблицами куста), который содержит...
28.04.2024
Как написать набор данных в тему Kafka?
Я использую Spark 2.1.0 и Kafka 0.9.0.
Я пытаюсь передать результат пакетного задания искры в kafka. Предполагается, что задание выполняется каждый час, но не в потоковом режиме.
В поисках ответа в сети я смог найти только интеграцию kafka с...
01.05.2024
искра - приложение возвращает разные результаты в зависимости от разной памяти исполнителя?
Я замечаю какое-то странное поведение, у меня есть искровая работа, которая считывает данные и выполняет некоторую группировку, упорядочение и объединение и создает выходной файл.
Проблема заключается в том, что когда я запускаю одно и то же...
27.03.2024
ИЛИ условие в фрейме данных полное внешнее соединение, снижающее производительность spark/scala
Я вижу, что если мое условие присоединения включает предложение OR, это занимает много времени по сравнению с предложением AND. Я делаю полное соединение.
Мой модульный тест не показывает большой разницы, но при работе с большим набором данных он...
02.04.2024
искровое декартово произведение каждого элемента в столбце
У меня есть фрейм данных, который выглядит так:
df:
col1 col2
a [p1,p2,p3]
b [p1,p4]
Желаемый результат:
df_out:
col1 col2 col3
p1 p2 a
p1 p3 a
p2 p3 a
p1 p4 b
Я провел небольшое исследование и...
27.03.2024
Jar соединителя Spark MySql
Я подключаюсь к базе данных MySql из искрового приложения (spark-2.0.0-bin-hadoop2.7). При подключении получаю ошибку ниже.
Вот мой код:
def main(args: Array[String]) {
val conf = new SparkConf()
.setAppName("LoadMySql")...
07.04.2024
Сохранение смещения сообщения в Kafka с помощью KafkaUtils.createDirectStream
Как сохранить смещение сообщения в Kafka, если я использую KafkaUtils.createDirectStream для чтения сообщений. Kafka теряет значение смещения каждый раз, когда приложение выходит из строя. Затем оно считывает значение, указанное в auto.offset.reset...
17.03.2024
Pyspark: как распараллелить обработку нескольких файлов gz в HDFS
У меня есть много файлов gz , хранящихся в кластере HDFS из 20 узлов, которые необходимо агрегировать по столбцам. Файлы gz очень большие (1 ГБ каждый и всего 200 файлов). Формат данных — значение ключа с двумя значениями столбца:...
30.03.2024
Получение потоковых данных из набора данных с помощью пользовательского приемника [Spark Streaming]
Я новичок в Spark и его библиотеках!
У меня есть случай, когда мне нужно отправить набор данных на store() пользовательского приемника, а затем передать данные из этого пользовательского приемника.
Я получаю набор данных таким образом внутри...
29.03.2024
Django поднять AppRegistryNotReady (приложения еще не загружены.) django.core.exceptions.AppRegistryNotReady: приложения еще не загружены
Я пытаюсь использовать pyspark для предварительной обработки данных для модели прогнозирования. Я получаю сообщение об ошибке, когда пытаюсь запустить spark.createDataFrame из своей предварительной обработки. Есть ли способ проверить, как выглядит...
29.04.2024
Искра: У исполнителей разные задачи
Я использую Spark 2.4.3 с 12 исполнителями, каждый с 5 ядрами и 40 памятью. Я установил defaultParallelism на 180.
Я использую следующий код для чтения двух отдельных текстовых файлов из hdfs.
val f1 = sc.textFile("file1",...
08.04.2024
Показать все начальные отдельные элементы после фильтрации и группировки по
Это мой начальный кадр данных:
продажиDf
itemName
sales_quantity
Apple
200
Apple
400
Pear
300
Pear
500
Banana
300
salesDf.where(col('sales_quantity') > 300)\...
23.03.2024
Новые материалы
Объяснение документов 02: BERT
BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка.
Во время предварительного обучения модель обучается на неразмеченных данных с помощью..
Как проанализировать работу вашего классификатора?
Не всегда просто знать, какие показатели использовать
С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..
Работа с цепями Маркова, часть 4 (Машинное обучение)
Нелинейные цепи Маркова с агрегатором и их приложения (arXiv)
Автор : Бар Лайт
Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..
Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
Как вы сегодня, ребята?
В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..
Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение.
В этом процессе мы будем использовать неконтролируемое обучение, чтобы..
Учебные заметки: создание моего первого пакета Node.js
Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm.
Оглавление
Глоссарий
I. Новый пакет
1.1 советы по инициализации..
Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!
Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных.
Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..