利用Python进行数据分析原书第2版

暂无评分
473
0

作者: Wes McKinney

出版社: 机械工业出版社

格式: pdf

语言: 中文

免费资源

本书由Python pandas项目创始人Wes McKinney亲笔撰写，详细介绍利用Python进行操作、处理、清洗和规整数据等方面的具体细节和基本要点。第2版针对Python 3.6进行全面修订和更新，涵盖新版的pandas、NumPy、IPython和Jupyter，并增加大量实际案例，可以帮助你高效解决一系列数据分析问题。

第2版中的主要更新包括：

所有的代码，包括把Python的教程更新到了Python 3.6版本(第1版中使用的是Python 2.7)
更新了Python第三方发布版Anaconda和其他所需Python包的安装指引
更新pandas库到2017年的新版
新增一章，关于更多高级pandas工具和一些使用提示
新增statsmodels和scikit-learn的简明使用介绍

简介
第01章准备工作
第02章 Python语法基础，IPython和Jupyter Notebooks
第03章 Python的数据结构、函数和文件
第04章 NumPy基础: 数组和矢量计算
第05章 pandas入门
第06章数据加载、存储与文件格式
第07章数据清洗和准备
第08章数据规整: 聚合、合并和重塑
第09章绘图和可视化
第10章数据聚合与分组运算
第11章时间序列
第12章 pandas高级应用
第13章 Python建模库介绍
第14章数据分析案例
附录A NumPy高级应用
附录B 更多关于IPython的内容 (完)

内容简介

本书讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。我的目标是介绍Pvthon编程和用于数据处理的库和工具环境，掌握这些，可以让你成为一个数据分析专家。虽然本书的标题是“数据分析”，重点却是Pvthon编程、库，以及用于数据分析的工具。这就是数据分析要用到的Pvthon编程。

什么样的数据?

当书中出现“数据”时，究竟指的是什么呢? 主要指的是结构化数据 (structured data) ，这个故意含糊其辞的术语代指了所有通用格式的数据，例如:

表格型数据，其中各列可能是不同的类型 (字符串、数值、日期等)。比如保存在关系型数据库中或以制表符/逗号为分隔符的文本文件中的那些数据。
多维数组 (矩阵)
通过关键列 (对于SQL用户而言，就是主键和外键) 相互联系的多个表。
间隔平均或不平均的时间序列。
这绝不是一个完整的列表。大部分数据集都能被转化为更加适合分析和建模的结构化形式，虽然有时这并不是很明显。如果不行的话，也可以将数据集的特征提取为某种结构化形式。例如，一组新闻文章可以被处理为一张词频表，而这张词频表就可以用于情感分析。

大部分电子表格软件 (比如Microsoft Excel，它可能是世界上使用最广泛的数据分析工具了) 的用户不会对此类数据感到陌生。