文章已发布 617 天,文章内容可能已过时。
1.数据过滤
在数据处理中,我们经常会对数据进行过滤,为此Pandas
中提供mask()
和where()
两个函数;
mask()
: 在满足条件的情况下替换数据,而不满足条件的部分则保留原始数据;where()
: 在不满足条件的情况下替换数据,而满足条件的部分则保留原始数据;
python
|
@注:从功能上可以看出,mask()和where()是正好两个相反的函数
2. 数据遍历
python
|
3. 分层索引
分层索引(MultiIndex
)是Pandas
中一种允许在一个轴上拥有多个(两个或更多)级别的索引方式。这种索引方式适用于多维数据和具有多个层次结构的数据。
3.1 使用set_index
python
|
3.2 使用**MultiIndex
**
python
|
4. 数据读写
4.1 写入表格
python
|
a.主要参数说明:
excel_writer
:Excel
文件名或ExcelWriter
对象。如果是文件名,将创建一个ExcelWriter
对象,并在退出时自动关闭文件。sheet_name
: 字符串,工作表的名称,默认为Sheet1
。na_rep
: 用于表示缺失值的字符串,默认为空字符串。float_format
: 用于设置浮点数列的数据格式。默认为None
,表示使用Excel
默认的格式,当设置%.2f
表示保留两位。columns
: 要写入的列的列表,默认为None
。如果设置为None
,将写入所有列;如果指定列名列表,将只写入指定的列。header
: 是否包含列名,默认为True
。如果设置为False
,将不写入列名。index
: 是否包含行索引,默认为True
。如果设置为False
,将不写入行索引。index_label
: 用于指定行索引列的名称。默认为None
。startrow
: 数据写入的起始行,默认为0
。startcol
: 数据写入的起始列,默认为0
。freeze_panes
: 值是一个元组,用于指定要冻结的行和列的位置。例如,(2, 3)
表示冻结第 2 行和第 3 列。默认为None
,表示不冻结任何行或列。
4.2 读取表格
python
|
主要参数说明:
io
: 文件路径、ExcelWriter
对象或者类似文件对象的路径/对象。sheet_name
: 表示要读取的工作表的名称或索引。默认为 0,表示读取第一个工作表。header
: 用作列名的行的行号。默认为 0,表示使用第一行作为列名。names
: 覆盖 header 的结果,即指定列名。index_col
: 用作行索引的列的列号或列名。usecols
: 要读取的列的列表,可以是列名或列的索引。
4.3 更多方法
除了上面的表格读取,还有更多类型的读取方式,方法简单整理如下:
5.数据可视化
Pandas
底层对Matplotlib
进行了封装,所以可以直接使用Matplotlib
的绘图方法;
5.1 折线图
python
|
5.2 散点图
python
|
color
:表示的是颜色,可以使用字符串表示颜色名称,也可以使用十六进制颜色码。s
: 散点图特有的属性,表示散点大小。
5.3 柱形图
python
|