1.数据过滤
在数据处理中,我们经常会对数据进行过滤,为此Pandas中提供mask()和where()两个函数;
mask(): 在满足条件的情况下替换数据,而不满足条件的部分则保留原始数据;where(): 在不满足条件的情况下替换数据,而满足条件的部分则保留原始数据;
|
@注:从功能上可以看出,mask()和where()是正好两个相反的函数
2. 数据遍历
|
3. 分层索引
分层索引(MultiIndex)是Pandas 中一种允许在一个轴上拥有多个(两个或更多)级别的索引方式。这种索引方式适用于多维数据和具有多个层次结构的数据。
3.1 使用set_index
|
3.2 使用**MultiIndex**
|
4. 数据读写
4.1 写入表格
|
a.主要参数说明:
excel_writer:Excel文件名或ExcelWriter对象。如果是文件名,将创建一个ExcelWriter对象,并在退出时自动关闭文件。sheet_name: 字符串,工作表的名称,默认为Sheet1。na_rep: 用于表示缺失值的字符串,默认为空字符串。float_format: 用于设置浮点数列的数据格式。默认为None,表示使用Excel默认的格式,当设置%.2f表示保留两位。columns: 要写入的列的列表,默认为None。如果设置为None,将写入所有列;如果指定列名列表,将只写入指定的列。header: 是否包含列名,默认为True。如果设置为False,将不写入列名。index: 是否包含行索引,默认为True。如果设置为False,将不写入行索引。index_label: 用于指定行索引列的名称。默认为None。startrow: 数据写入的起始行,默认为0。startcol: 数据写入的起始列,默认为0。freeze_panes: 值是一个元组,用于指定要冻结的行和列的位置。例如,(2, 3)表示冻结第 2 行和第 3 列。默认为None,表示不冻结任何行或列。
4.2 读取表格
|
主要参数说明:
io: 文件路径、ExcelWriter对象或者类似文件对象的路径/对象。sheet_name: 表示要读取的工作表的名称或索引。默认为 0,表示读取第一个工作表。header: 用作列名的行的行号。默认为 0,表示使用第一行作为列名。names: 覆盖 header 的结果,即指定列名。index_col: 用作行索引的列的列号或列名。usecols: 要读取的列的列表,可以是列名或列的索引。
4.3 更多方法
除了上面的表格读取,还有更多类型的读取方式,方法简单整理如下:

5.数据可视化
Pandas底层对Matplotlib进行了封装,所以可以直接使用Matplotlib的绘图方法;
5.1 折线图
|

5.2 散点图
|

color:表示的是颜色,可以使用字符串表示颜色名称,也可以使用十六进制颜色码。s: 散点图特有的属性,表示散点大小。
5.3 柱形图
|








