本书由Python pandas项目创始人Wes McKinney亲笔撰写,详细介绍利用Python进行操作、处理、清洗和规整数据等方面的具体细节和基本要点。第2版针对Python 3.6进行全面修订和更新,涵盖新版的pandas、NumPy、IPython和Jupyter,并增加大量实际案例,可以帮助你高效解决一系列数据分析问题。
第2版中的主要更新包括:
- 所有的代码,包括把Python的教程更新到了Python 3.6版本(第1版中使用的是Python 2.7)
- 更新了Python第三方发布版Anaconda和其他所需Python包的安装指引
- 更新pandas库到2017年的新版
- 新增一章,关于更多高级pandas工具和一些使用提示
- 新增statsmodels和scikit-learn的简明使用介绍
目录
简介
第01章 准备工作
第02章 Python语法基础,IPython和Jupyter Notebooks
第03章 Python的数据结构、函数和文件
第04章 NumPy基础: 数组和矢量计算
第05章 pandas入门
第06章 数据加载、存储与文件格式
第07章 数据清洗和准备
第08章 数据规整: 聚合、合并和重塑
第09章 绘图和可视化
第10章 数据聚合与分组运算
第11章 时间序列
第12章 pandas高级应用
第13章 Python建模库介绍
第14章 数据分析案例
附录A NumPy高级应用
附录B 更多关于IPython的内容 (完)
内容简介
本书讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。我的目标是介绍Pvthon编程和用于数据处理的库和工具环境,掌握这些,可以让你成为一个数据分析专家。虽然本书的标题是“数据分析”,重点却是Pvthon编程、库,以及用于数据分析的工具。这就是数据分析要用到的Pvthon编程。
什么样的数据?
当书中出现“数据”时,究竟指的是什么呢? 主要指的是结构化数据 (structured data) ,这个故意含糊其辞的术语代指了所有通用格式的数据,例如:
- 表格型数据,其中各列可能是不同的类型 (字符串、数值、日期等)。比如保存在关系型数据库中或以制表符/逗号为分隔符的文本文件中的那些数据。
- 多维数组 (矩阵)
- 通过关键列 (对于SQL用户而言,就是主键和外键) 相互联系的多个表。
- 间隔平均或不平均的时间序列。
这绝不是一个完整的列表。大部分数据集都能被转化为更加适合分析和建模的结构化形式,虽然有时这并不是很明显。如果不行的话,也可以将数据集的特征提取为某种结构化形式。例如,一组新闻文章可以被处理为一张词频表,而这张词频表就可以用于情感分析。
大部分电子表格软件 (比如Microsoft Excel,它可能是世界上使用最广泛的数据分析工具了) 的用户不会对此类数据感到陌生。