Content# 第一章 预备知识 一、Python基础 1. 列表推导式与条件赋值 2. 匿名函数与map方法 3. zip对象与enumerate方法 二、Numpy基础 1. np数组的构造 2. np数组的变形与合并 3. np数组的切片与索引 4. 常用函数 5. 广播机制 6. 向量与矩阵的计算 三、练习 Ex1:利用列表推导式写矩阵乘法 Ex2:更新矩阵 Ex3:卡方统计量 Ex4:改进矩阵计算的性能 Ex5:连续整数的最大长度 第二章 pandas基础 一、文件的读取和写入 1. 文件读取 2. 数据写入 二、基本数据结构 1. Series 2. DataFrame 三、常用基本函数 1. 汇总函数 2. 特征统计函数 3. 唯一值函数 4. 替换函数 5. 排序函数 6. apply方法 四、窗口对象 1. 滑窗对象 2. 扩张窗口 五、练习 Ex1:口袋妖怪数据集 Ex2:指数加权窗口 第三章 索引 一、索引器 1. 表的列索引 2. 序列的行索引 3. loc索引器 4. iloc索引器 5. query方法 6. 随机抽样 二、多级索引 1. 多级索引及其表的结构 2. 多级索引中的loc索引器 3. IndexSlice对象 4. 多级索引的构造 三、索引的常用方法 1. 索引层的交换和删除 2. 索引属性的修改 3. 索引的设置与重置 4. 索引的变形 四、索引运算 1. 集合的运算法则 2. 一般的索引运算 五、练习 Ex1:公司员工数据集 Ex2:巧克力数据集 第四章 分组 一、分组模式及其对象 1. 分组的一般模式 2. 分组依据的本质 3. Groupby对象 4. 分组的三大操作 二、聚合函数 1. 内置聚合函数 2. agg方法 三、变换和过滤 1. 变换函数与transform方法 2. 组索引与过滤 四、跨列分组 1. apply的引入 2. apply的使用 五、练习 Ex1:汽车数据集 Ex2:实现transform函数 第五章 变形 一、长宽表的变形 1. pivot 2. pivot_table 3. melt 4. wide_to_long 二、索引的变形 1. stack与unstack 2. 聚合与变形的关系 三、其他变形函数 1. crosstab 2. explode 3. get_dummies 四、练习 Ex1:美国非法药物数据集 Ex2:特殊的wide_to_long方法 第六章 连接 一、关系型连接 1. 连接的基本概念 2. 值连接 3. 索引连接 二、方向连接 1. concat 2. 序列与表的合并 三、类连接操作 1. 比较 2. 组合 四、练习 Ex1:美国疫情数据集 Ex2:实现join函数 第七章 缺失数据 一、缺失值的统计和删除 1. 缺失信息的统计 2. 缺失信息的删除 二、缺失值的填充和插值 1. 利用fillna进行填充 2. 插值函数 三、Nullable类型 1. 缺失记号及其缺陷 2. Nullable类型的性质 3. 缺失数据的计算和分组 四、练习 Ex1:缺失值与类别的相关性检验 Ex2:用回归模型解决分类问题 第八章 文本数据 一、str对象 1. str对象的设计意图 2. []索引器 3. string类型 二、正则表达式基础 1. 一般字符的匹配 2. 元字符基础 3. 简写字符集 三、文本处理的五类操作 1. 拆分 2. 合并 3. 匹配 4. 替换 5. 提取 四、常用字符串函数 1. 字母型函数 2. 数值型函数 3. 统计型函数 4. 格式型函数 五、练习 Ex1:房屋信息数据集 Ex2:《权力的游戏》剧本数据集 第九章 分类数据 一、cat对象 1. cat对象的属性 2. 类别的增加、删除和修改 二、有序分类 1. 序的建立 2. 排序和比较 三、区间类别 1. 利用cut和qcut进行区间构造 2. 一般区间的构造 3. 区间的属性与方法 四、练习 Ex1:统计未出现的类别 Ex2:钻石数据集 第十章 时序数据 一、时序中的基本对象 二、时间戳 1. Timestamp的构造与属性 2. Datetime序列的生成 3. dt对象 4. 时间戳的切片与索引 三、时间差 1. Timedelta的生成 2. Timedelta的运算 四、日期偏置 1. Offset对象 2. 偏置字符串 五、时序中的滑窗与分组 1. 滑动窗口 2. 重采样 六、练习 Ex1:太阳辐射数据集 Ex2:水果销量数据集 参考答案 第一章 预备知识 Ex1:利用列表推导式写矩阵乘法 Ex2:更新矩阵 Ex3:卡方统计量 Ex4:改进矩阵计算的性能 Ex5:连续整数的最大长度 第二章 pandas基础 Ex1:口袋妖怪数据集 Ex2:指数加权窗口 第三章 索引 Ex1:公司员工数据集 Ex2:巧克力数据集 第四章 分组 Ex1:汽车数据集 Ex2:实现transform函数 第五章 变形 Ex1:美国非法药物数据集 Ex2:特殊的wide_to_long方法 第六章 连接 Ex1:美国疫情数据集 Ex2:实现join函数 第七章 缺失数据 Ex1:缺失值与类别的相关性检验 Ex2:用回归模型解决分类问题 第八章 文本数据 Ex1:房屋信息数据集 Ex2:《权力的游戏》剧本数据集 第九章 分类数据 Ex1:统计未出现的类别 Ex2:钻石数据集 第十章 时序数据 Ex1:太阳辐射数据集 Ex2:水果销量数据集