К настоящему времени мы узнали о трех структурах данных Pandas и о том, как их создавать. Мы сосредоточимся в основном на объектах DataFrame из-за его важности в обработке данных в реальном времени, а также обсудим несколько других DataStructures.
Основные функции серии
Sr.No. | Атрибут или метод и описание |
---|---|
1 |
оси Возвращает список меток оси строк |
2 |
DTYPE Возвращает dtype объекта. |
3 |
пустой Возвращает True, если серия пуста. |
4 |
ndim Возвращает количество измерений базовых данных по определению 1. |
5 |
размер Возвращает количество элементов в базовых данных. |
6 |
ценности Возвращает Серию как ndarray. |
7 |
голова() Возвращает первые n строк. |
8 |
хвост() Возвращает последние n строк. |
оси
Возвращает список меток оси строк
DTYPE
Возвращает dtype объекта.
пустой
Возвращает True, если серия пуста.
ndim
Возвращает количество измерений базовых данных по определению 1.
размер
Возвращает количество элементов в базовых данных.
ценности
Возвращает Серию как ndarray.
голова()
Возвращает первые n строк.
хвост()
Возвращает последние n строк.
Давайте теперь создадим Серию и посмотрим на все вышеупомянутые операции с табличными атрибутами.
пример
import pandas as pd import numpy as np #Create a series with 100 random numbers s = pd.Series(np.random.randn(4)) print s
Его вывод выглядит следующим образом —
0 0.967853 1 -0.148368 2 -1.395906 3 -1.758394 dtype: float64
оси
Возвращает список меток серии.
import pandas as pd import numpy as np #Create a series with 100 random numbers s = pd.Series(np.random.randn(4)) print ("The axes are:") print s.axes
Его вывод выглядит следующим образом —
The axes are: [RangeIndex(start=0, stop=4, step=1)]
Приведенный выше результат представляет собой компактный формат списка значений от 0 до 5, т. Е. [0,1,2,3,4].
пустой
Возвращает логическое значение, указывающее, является ли объект пустым или нет. Истина означает, что объект пуст.
import pandas as pd import numpy as np #Create a series with 100 random numbers s = pd.Series(np.random.randn(4)) print ("Is the Object empty?") print s.empty
Его вывод выглядит следующим образом —
Is the Object empty? False
ndim
Возвращает количество измерений объекта. По определению, Series — это 1D структура данных, поэтому она возвращает
import pandas as pd import numpy as np #Create a series with 4 random numbers s = pd.Series(np.random.randn(4)) print s print ("The dimensions of the object:") print s.ndim
Его вывод выглядит следующим образом —
0 0.175898 1 0.166197 2 -0.609712 3 -1.377000 dtype: float64 The dimensions of the object: 1
размер
Возвращает размер (длину) серии.
import pandas as pd import numpy as np #Create a series with 4 random numbers s = pd.Series(np.random.randn(2)) print s print ("The size of the object:") print s.size
Его вывод выглядит следующим образом —
0 3.078058 1 -1.207803 dtype: float64 The size of the object: 2
ценности
Возвращает фактические данные в серии в виде массива.
import pandas as pd import numpy as np #Create a series with 4 random numbers s = pd.Series(np.random.randn(4)) print s print ("The actual data series is:") print s.values
Его вывод выглядит следующим образом —
0 1.787373 1 -0.605159 2 0.180477 3 -0.140922 dtype: float64 The actual data series is: [ 1.78737302 -0.60515881 0.18047664 -0.1409218 ]
Голова и хвост
Чтобы просмотреть небольшой образец объекта Series или объекта DataFrame, используйте методы head () и tail ().
head () возвращает первые n строк (соблюдайте значения индекса). Количество отображаемых элементов по умолчанию — пять, но вы можете передать пользовательский номер.
import pandas as pd import numpy as np #Create a series with 4 random numbers s = pd.Series(np.random.randn(4)) print ("The original series is:") print s print ("The first two rows of the data series:") print s.head(2)
Его вывод выглядит следующим образом —
The original series is: 0 0.720876 1 -0.765898 2 0.479221 3 -0.139547 dtype: float64 The first two rows of the data series: 0 0.720876 1 -0.765898 dtype: float64
tail () возвращает последние n строк (соблюдайте значения индекса). Количество отображаемых элементов по умолчанию — пять, но вы можете передать пользовательский номер.
import pandas as pd import numpy as np #Create a series with 4 random numbers s = pd.Series(np.random.randn(4)) print ("The original series is:") print s print ("The last two rows of the data series:") print s.tail(2)
Его вывод выглядит следующим образом —
The original series is: 0 -0.655091 1 -0.881407 2 -0.608592 3 -2.341413 dtype: float64 The last two rows of the data series: 2 -0.608592 3 -2.341413 dtype: float64
Базовая функциональность DataFrame
Давайте теперь поймем, что такое основная функциональность DataFrame. В следующих таблицах перечислены важные атрибуты или методы, которые помогают в базовой функциональности DataFrame.
Sr.No. | Атрибут или метод и описание |
---|---|
1 |
T Транспонирует строки и столбцы. |
2 |
оси Возвращает список с метками осей строк и меток осей столбцов в качестве единственных элементов. |
3 |
dtypes Возвращает dtypes в этом объекте. |
4 |
пустой True, если NDFrame полностью пуст [нет элементов]; если какая-либо из осей имеет длину 0. |
5 |
ndim Количество осей / размеры массива. |
6 |
форма Возвращает кортеж, представляющий размерность DataFrame. |
7 |
размер Количество элементов в NDFrame. |
8 |
ценности Numpy представление NDFrame. |
9 |
голова() Возвращает первые n строк. |
10 |
хвост() Возвращает последние n строк. |
T
Транспонирует строки и столбцы.
оси
Возвращает список с метками осей строк и меток осей столбцов в качестве единственных элементов.
dtypes
Возвращает dtypes в этом объекте.
пустой
True, если NDFrame полностью пуст [нет элементов]; если какая-либо из осей имеет длину 0.
ndim
Количество осей / размеры массива.
форма
Возвращает кортеж, представляющий размерность DataFrame.
размер
Количество элементов в NDFrame.
ценности
Numpy представление NDFrame.
голова()
Возвращает первые n строк.
хвост()
Возвращает последние n строк.
Давайте теперь создадим DataFrame и посмотрим, как работают вышеупомянутые атрибуты.
пример
import pandas as pd import numpy as np #Create a Dictionary of series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Age':pd.Series([25,26,25,23,30,29,23]), 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} #Create a DataFrame df = pd.DataFrame(d) print ("Our data series is:") print df
Его вывод выглядит следующим образом —
Our data series is: Age Name Rating 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80
T (Транспонировать)
Возвращает транспонирование DataFrame. Строки и столбцы будут чередоваться.
import pandas as pd import numpy as np # Create a Dictionary of series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Age':pd.Series([25,26,25,23,30,29,23]), 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} # Create a DataFrame df = pd.DataFrame(d) print ("The transpose of the data series is:") print df.T
Его вывод выглядит следующим образом —
The transpose of the data series is: 0 1 2 3 4 5 6 Age 25 26 25 23 30 29 23 Name Tom James Ricky Vin Steve Smith Jack Rating 4.23 3.24 3.98 2.56 3.2 4.6 3.8
оси
Возвращает список меток осей строк и меток осей столбцов.
import pandas as pd import numpy as np #Create a Dictionary of series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Age':pd.Series([25,26,25,23,30,29,23]), 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} #Create a DataFrame df = pd.DataFrame(d) print ("Row axis labels and column axis labels are:") print df.axes
Его вывод выглядит следующим образом —
Row axis labels and column axis labels are: [RangeIndex(start=0, stop=7, step=1), Index([u'Age', u'Name', u'Rating'], dtype='object')]
dtypes
Возвращает тип данных каждого столбца.
import pandas as pd import numpy as np #Create a Dictionary of series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Age':pd.Series([25,26,25,23,30,29,23]), 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} #Create a DataFrame df = pd.DataFrame(d) print ("The data types of each column are:") print df.dtypes
Его вывод выглядит следующим образом —
The data types of each column are: Age int64 Name object Rating float64 dtype: object
пустой
Возвращает логическое значение, указывающее, является ли объект пустым или нет; Истина означает, что объект пуст.
import pandas as pd import numpy as np #Create a Dictionary of series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Age':pd.Series([25,26,25,23,30,29,23]), 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} #Create a DataFrame df = pd.DataFrame(d) print ("Is the object empty?") print df.empty
Его вывод выглядит следующим образом —
Is the object empty? False
ndim
Возвращает количество измерений объекта. По определению DataFrame является 2D-объектом.
import pandas as pd import numpy as np #Create a Dictionary of series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Age':pd.Series([25,26,25,23,30,29,23]), 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} #Create a DataFrame df = pd.DataFrame(d) print ("Our object is:") print df print ("The dimension of the object is:") print df.ndim
Его вывод выглядит следующим образом —
Our object is: Age Name Rating 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80 The dimension of the object is: 2
форма
Возвращает кортеж, представляющий размерность DataFrame. Кортеж (a, b), где a представляет количество строк, а b представляет количество столбцов.
import pandas as pd import numpy as np #Create a Dictionary of series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Age':pd.Series([25,26,25,23,30,29,23]), 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} #Create a DataFrame df = pd.DataFrame(d) print ("Our object is:") print df print ("The shape of the object is:") print df.shape
Его вывод выглядит следующим образом —
Our object is: Age Name Rating 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80 The shape of the object is: (7, 3)
размер
Возвращает количество элементов в DataFrame.
import pandas as pd import numpy as np #Create a Dictionary of series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Age':pd.Series([25,26,25,23,30,29,23]), 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} #Create a DataFrame df = pd.DataFrame(d) print ("Our object is:") print df print ("The total number of elements in our object is:") print df.size
Его вывод выглядит следующим образом —
Our object is: Age Name Rating 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80 The total number of elements in our object is: 21
ценности
Возвращает фактические данные в DataFrame как NDarray.
import pandas as pd import numpy as np #Create a Dictionary of series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Age':pd.Series([25,26,25,23,30,29,23]), 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} #Create a DataFrame df = pd.DataFrame(d) print ("Our object is:") print df print ("The actual data in our data frame is:") print df.values
Его вывод выглядит следующим образом —
Our object is: Age Name Rating 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80 The actual data in our data frame is: [[25 'Tom' 4.23] [26 'James' 3.24] [25 'Ricky' 3.98] [23 'Vin' 2.56] [30 'Steve' 3.2] [29 'Smith' 4.6] [23 'Jack' 3.8]]
Голова и хвост
Чтобы просмотреть небольшой образец объекта DataFrame, используйте методы head () и tail (). head () возвращает первые n строк (соблюдайте значения индекса). Количество отображаемых элементов по умолчанию — пять, но вы можете передать пользовательский номер.
import pandas as pd import numpy as np #Create a Dictionary of series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Age':pd.Series([25,26,25,23,30,29,23]), 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} #Create a DataFrame df = pd.DataFrame(d) print ("Our data frame is:") print df print ("The first two rows of the data frame is:") print df.head(2)
Его вывод выглядит следующим образом —
Our data frame is: Age Name Rating 0 25 Tom 4.23 1 26 James 3.24 2 25 Ricky 3.98 3 23 Vin 2.56 4 30 Steve 3.20 5 29 Smith 4.60 6 23 Jack 3.80 The first two rows of the data frame is: Age Name Rating 0 25 Tom 4.23 1 26 James 3.24
tail () возвращает последние n строк (соблюдайте значения индекса). Количество отображаемых элементов по умолчанию — пять, но вы можете передать пользовательский номер.
import pandas as pd import numpy as np #Create a Dictionary of series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']), 'Age':pd.Series([25,26,25,23,30,29,23]), 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])} #Create a DataFrame df = pd.DataFrame(d) print ("Our data frame is:") print df print ("The last two rows of the data frame is:") print df.tail(2)
Его вывод выглядит следующим образом —