Учебники

Логистическая регрессия в Python — Получение данных

Этапы получения данных для выполнения логистической регрессии в Python подробно обсуждаются в этой главе.

Загрузка набора данных

Если вы еще не загрузили упомянутый ранее набор данных UCI, загрузите его сейчас отсюда . Нажмите на папку данных. Вы увидите следующий экран —

Базы данных машинного обучения

Загрузите файл bank.zip, нажав на данную ссылку. ZIP-файл содержит следующие файлы:

Банка

Мы будем использовать файл bank.csv для разработки нашей модели. Файл bank-names.txt содержит описание базы данных, которая понадобится вам позже. В файле bank-full.csv содержится гораздо больший набор данных, который вы можете использовать для более сложных разработок.

Здесь мы включили файл bank.csv в загружаемый исходный zip-архив. Этот файл содержит поля, разделенные запятыми. Мы также внесли несколько изменений в файл. Для обучения рекомендуется использовать файл, включенный в исходный zip-файл проекта.

Загрузка данных

Чтобы загрузить данные из файла CSV, который вы только что скопировали, введите следующую инструкцию и запустите код.

In [2]: df = pd.read_csv('bank.csv', header=0)

Вы также сможете проверить загруженные данные, выполнив следующую инструкцию кода:

IN [3]: df.head()

Как только команда будет запущена, вы увидите следующий вывод:

Загруженные данные

По сути, он напечатал первые пять строк загруженных данных. Изучите 21 присутствующих столбцов. Мы будем использовать только несколько столбцов из них для разработки нашей модели.

Далее нам нужно очистить данные. Данные могут содержать несколько строк с NaN . Чтобы устранить такие строки, используйте следующую команду —

IN [4]: df = df.dropna()

К счастью, bank.csv не содержит строк с NaN, поэтому в нашем случае этот шаг действительно не требуется. Тем не менее, в целом трудно обнаружить такие строки в огромной базе данных. Поэтому всегда безопаснее запускать приведенный выше оператор для очистки данных.

Примечание. Вы можете легко проверить размер данных в любой момент времени, используя следующую инструкцию:

IN [5]: print (df.shape)
(41188, 21)

Количество строк и столбцов будет напечатано в выходных данных, как показано во второй строке выше.

Следующее, что нужно сделать, это изучить пригодность каждого столбца для модели, которую мы пытаемся построить.