3 библиотеки Python для научных вычислений, которые вы должны знать как специалист по данным

Python является одним из наиболее часто используемых языков программирования в мире и предоставляет разработчикам широкий набор библиотек.

В любом случае, когда дело доходит до манипулирования данными и научных вычислений, мы обычно думаем о таких библиотеках, как Numpy, Pandas или SciPy.

В этой статье мы представляем 3 библиотеки Python, которые могут вас заинтересовать.

1. Даск

Представляем Даск

Dask — это гибкая библиотека параллельных вычислений, которая обеспечивает распределенные вычисления и параллелизм для крупномасштабной обработки данных.

Итак, почему мы должны использовать Dask? Как говорится на их сайте:

Python стал доминирующим языком как для анализа данных, так и для общего программирования. Этот рост был вызван вычислительными библиотеками, такими как NumPy, pandas и scikit-learn. Однако эти пакеты не были предназначены для масштабирования за пределы одной машины. Dask был разработан для естественного масштабирования этих пакетов и окружающей экосистемы для многоядерных машин и распределенных кластеров, когда наборы данных превышают объем памяти.

Итак, одно из распространенных применений Dask, как говорится, это:

Dask DataFrame используется в ситуациях, когда панды обычно необходимы, обычно когда панды терпят неудачу из-за размера данных или скорости вычислений:

- Работа с большими наборами данных, даже если эти наборы данных не помещаются в памяти.

- Ускорение длительных вычислений за счет использования многих ядер

- Распределенные вычисления на больших наборах данных со стандартными операциями панд, такими как группировка, объединение и вычисления временных рядов.

Таким образом, Dask — хороший выбор, когда нам нужно иметь дело с огромными фреймами данных Pandas. Это потому, что Даск:

Позволяет пользователям управлять наборами данных объемом более 100 ГБ на ноутбуке или наборами данных объемом более 1 ТБ на рабочей станции.

Что является довольно впечатляющим результатом.

Что происходит под капотом, так это:

Dask DataFrames координирует многие панды DataFrames/Series…