Python Pandas - недостающие данные

Отсутствие данных всегда является проблемой в реальных сценариях. Такие области, как машинное обучение и интеллектуальный анализ данных, сталкиваются с серьезными проблемами в точности их прогнозирования модели из-за низкого качества данных, вызванного отсутствием значений. В этих областях обработка недостающего значения является основной целью, чтобы сделать их модели более точными и достоверными.

Когда и почему пропускаются данные?

Давайте рассмотрим онлайн-опрос для продукта. Часто люди не делятся всей информацией, связанной с ними. Немногие люди делятся своим опытом, но не знают, как долго они используют продукт; немногие люди рассказывают, как долго они используют продукт, их опыт, но не их контактную информацию. Таким образом, так или иначе часть данных всегда отсутствует, и это очень часто встречается в реальном времени.

Давайте теперь посмотрим, как мы можем обрабатывать пропущенные значения (скажем, NA или NaN), используя Pandas.

Python Pandas — недостающие данные

Когда и почему пропускаются данные?

Проверить пропущенные значения

Пример 1

Пример 2

Расчеты с отсутствующими данными

Пример 1

Пример 2

Очистка / заполнение недостающих данных

Заменить NaN скалярным значением

Заполнить NA Вперед и Назад

Пример 1

Пример 2

Отбросьте недостающие значения

Пример 1

Пример 2

Заменить отсутствующие (или) общие значения

Пример 1

Пример 2

Популярные уроки и статьи

Инициализаторы экземпляра в Java объяснены

AJAX - Краткое руководство

TempDB для производительности