3 библиотеки Python для научных вычислений, которые вы должны знать как специалист по данным
Python является одним из наиболее часто используемых языков программирования в мире и предоставляет разработчикам широкий набор библиотек.
В любом случае, когда дело доходит до манипулирования данными и научных вычислений, мы обычно думаем о таких библиотеках, как Numpy
, Pandas
или SciPy
.
В этой статье мы представляем 3 библиотеки Python, которые могут вас заинтересовать.
1. Даск
Представляем Даск
Dask — это гибкая библиотека параллельных вычислений, которая обеспечивает распределенные вычисления и параллелизм для крупномасштабной обработки данных.
Итак, почему мы должны использовать Dask? Как говорится на их сайте:
Python стал доминирующим языком как для анализа данных, так и для общего программирования. Этот рост был вызван вычислительными библиотеками, такими как NumPy, pandas и scikit-learn. Однако эти пакеты не были предназначены для масштабирования за пределы одной машины. Dask был разработан для естественного масштабирования этих пакетов и окружающей экосистемы для многоядерных машин и распределенных кластеров, когда наборы данных превышают объем памяти.
Итак, одно из распространенных применений Dask, как говорится, это:
Dask DataFrame используется в ситуациях, когда панды обычно необходимы, обычно когда панды терпят неудачу из-за размера данных или скорости вычислений:
- Работа с большими наборами данных, даже если эти наборы данных не помещаются в памяти.
- Ускорение длительных вычислений за счет использования многих ядер
- Распределенные вычисления на больших наборах данных со стандартными операциями панд, такими как группировка, объединение и вычисления временных рядов.
Таким образом, Dask — хороший выбор, когда нам нужно иметь дело с огромными фреймами данных Pandas. Это потому, что Даск:
Позволяет пользователям управлять наборами данных объемом более 100 ГБ на ноутбуке или наборами данных объемом более 1 ТБ на рабочей станции.
Что является довольно впечатляющим результатом.
Что происходит под капотом, так это:
Dask DataFrames координирует многие панды DataFrames/Series…