Основы Pandas - Часть 3

В своей предыдущей статье я рассмотрел некоторые из распространенных запросов, с которыми сталкивается новичок при работе с различными наборами данных. Эта статья является продолжением моих предыдущих статей.

Я продолжу демонстрировать дальнейшие концепции, используя тот же набор данных (НЛО), который использовался в первой и второй частях этой статьи.

Как изменить категориальные характеристики на числовые?

Категориальные характеристики необходимо изменить на числовые, чтобы они соответствовали какой-либо конкретной модели. Хотя использование Label Encoder выгодно и удобно, pandas предоставляет метод для изменения категориальных характеристик на числовые с помощью get_dummies.

pd.get_dummies(ufo,columns=['City'])

Как применить функцию к серии pandas или DataFrame?

Этого можно добиться тремя способами.

applymap-Применить функцию к каждому элементу в DataFrame
apply-Применить функцию к каждому элементу в серии
map - Сопоставить существующие значения Серии с другим набором значений

Давайте отделим год от заданного формата времени в DataFrame.

ufo['Time']=ufo['Time'].apply(lambda x:x.split('/')[2])
#splits string using '/' as a separator 
ufo['Time']=ufo['Time'].apply(lambda x:x.split(' ')[0])
#splits string using ' ' as a separator

Для демонстрации карты и метода applymap я создал новый столбец и назвал его «Новый» (отсутствие творчества), содержащий значения 0 и 1.

ufo['Valid']=ufo.New.map({0:'No',1:'Yes'})

ufo.loc[:,'Time':'New'].applymap(float)
#apply map is only valid for DataFrame and not series object

Как мне найти и удалить повторяющиеся строки в пандах?

Вы можете обнаружить повторяющиеся строки, присвоив .duplicated() всему DataFrame. Можно также проверить аналогичные значения столбца, используя тот же атрибут для объекта серии.

Логика для duplicated:

keep='first' (по умолчанию): помечать дубликаты как True, за исключением первого вхождения.
keep='last': пометить дубликаты как истинные, за исключением последнего вхождения.
keep=False: пометить все дубликаты как True.

ufo.duplicated().sum()
#checks the total no of rows that are identicle 
ufo.drop_duplicates(keep='first',inplace=True)
#dropping duplicate entries keeping the very first of each

Конечно, остается еще много техник, которые в конечном итоге можно обнаружить, играя с наборами данных, но в моей серии статей освещаются некоторые, если не все запросы, с которыми я столкнулся при работе с наборами данных. Надеюсь, вам понравилось читать мои статьи

Это знаменует конец серии «Основы Pandas». Надеюсь, вам понравилось это читать. Ознакомьтесь с двумя другими статьями, относящимися к этой серии, здесь

Основы Pandas - Часть 1

Основы Pandas - Часть 2

Спасибо 😉

смотрите также:

Новые материалы

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли

Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Data Visualization Neural Networks Startup Tutorial Statistics Productivity Reactjs Learning