Как объединить несколько столбцов с похожими именами в кадре данных Pandas без потери данных

Я работаю с некоторыми запутанными данными и пытаюсь понять, как объединить несколько столбцов с похожей информацией в один столбец. Например, у меня есть кадр данных, который выглядит так, и я хочу знать, как объединить все три столбца в один:

Страна ------------ Состояние ------ Температура ------ Температура ------ Градусы

США ----- Кентукки --- $76 ------ 76 -------------------- Н/Д

США ----- Аризона ----- 92\n ------- Н/Д ------------------ Н/Д

США ----- Мичиган -- 45 ----------- 45@ ------------------ 60

02.12.2019

В случаях, когда градусы, температура и температура имеют допустимые разные значения, какова ваша цель? Вы хотите расставить приоритеты друг над другом? 02.12.2019
Это всего лишь грубый пример, так как моя настоящая проблема связана с конфиденциальными данными. Однако моей целью было бы сохранить две температуры, но разделить их с помощью / в одном столбце/строке. 02.12.2019

Ответы:

Вы можете попробовать это, а затем удалить ненужные столбцы:

df['combined'] = df.apply(lambda x: list([x['Temp'],
                                        x['Temperature'],
                                        x['Degrees']]),axis=1)

Вы также можете сделать что-то подобное, если хотите, чтобы они были разделены косой чертой.

df.apply(lambda x: x.Temp + ' / ' + x.Temperature + ' / ' + x.Degrees, axis=1)

# or simply

df['combined'] = df.Temp + ' / ' + df.Temperature + ' / ' + df.Degrees

Я проверил это на некоторых данных, которые у меня есть с данными NaN, и он работал с данными NaN, возможно, стоит попробовать:

import numpy as np
def combine_with_nan(x):
   try:
      np.isnan(x.Temp)
      Temp = 'NaN'
   except:
      Temp = x.Temp
   try:
      np.isnan(x.Temperature)
      Temperature = 'NaN'
   except:
      Temperature = x.Temperature
   try:
      np.isnan(x.Degrees)
      Degrees = 'NaN'
   except:
      Degrees = x.Degrees
   return Temp + ' / ' + Temperature + ' / ' + Degrees

df.apply(combine_with_nan, axis=1)

02.12.2019

Выполнение df.Temp + ' / ' + df.Temperature + ' / ' + df.Degrees без apply() должно быть быстрее (и меньше кода) 02.12.2019

Только что попробовал, однако на самом деле он не объединяет данные в один столбец, а создает список в каждой ячейке нового столбца. 02.12.2019

Будет ли этот метод работать со значениями NaN, сохраняя при этом каждую температуру в одной строке? 02.12.2019

Нет, к сожалению, с этим вы должны сначала сделать что-то вроде df.fillna('N/A') . Это не сработает с данными nan 02.12.2019

Да, это моя проблема, у меня есть около 15 столбцов с похожими данными, которые разбросаны. Поэтому я пытаюсь объединить их в один столбец, сохраняя при этом их в одном индексе, поскольку данные связаны с информацией о клиентах. 02.12.2019

@CodeMonkey Я обновил что-то, что работало с некоторыми данными, которые у меня есть с бабушкой, может быть, это сработает для вас? ЛМК 02.12.2019

Я думаю, что моя проблема немного сложнее, чем я думал изначально. У меня есть около 3000 строк имен клиентов и около 400 столбцов информации, относящейся к этим клиентам. Однако почти все столбцы имеют большую часть отсутствующих данных, и они распределены среди 15 из 400 столбцов, а пустые места представляют собой NaN. Я хочу объединить эти 15 столбцов, некоторые из которых могут содержать повторяющиеся значения в одном столбце. Столбец должен быть связан с именем. Я изо всех сил старался объяснить это, но я все еще не уверен, что это полностью объясняет мою проблему. Спасибо за вашу помощь до сих пор, очень признателен. 03.12.2019

Новые материалы

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли

Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Data Visualization Neural Networks Startup Tutorial Statistics Productivity Reactjs Learning