本文共 3093 字,大约阅读时间需要 10 分钟。
我会经常分享一本书。我分享的书,你看完如果对你有帮助,值得你购买,请到官网购买正版书籍。
声明:我不是卖书的,我搞得是Python技术,文章最后免费为你准备了一些Python资料。
本书采用基于项目的方法,介绍用Python完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括:Python基础知识,如何从CSV、Excel、XML、JSON和PDF文件中提取数据,如何获取与存储数据,各种数据清洗与分析技术,数据可视化方法,如何从网站和API中提取数据。
本书特色
用传统的电子表格来处理数据不仅效率低下,而且无法处理某些格式的数据,对于混乱或庞大的数据集更是束手无策。本书将教你如何利用语法简单、容易上手的Python轻松处理数据。作者通过循序渐进的练习,详细介绍如何有效地获取、清洗、分析与呈现数据,如何将数据处理过程自动化,如何安排文件编辑与清洗任务,如何处理更大的数据集,以及如何利用获取的数据来创作引人入胜的故事。学完本书,你的数据处理和分析能力将更上一层楼。
* 快速了解Python基本语法、数据类型和语言概念
* 概述数据的获取与存储方式
* 清洗数据并格式化,以消除数据集中的重复值与错误
* 学习何时对数据进行标准化,何时对数据清理进行测试并将其脚本化
* 使用Scrapy写网络爬虫
* 利用新的Python库和技术对数据集进行探索与分析
* 使用Python解决方案将整个数据处理过程自动化
“如果你一直感觉电子表格(甚至关系型数据库)无法回答你想要提出的问题,或者除这些工具之外你准备进一步学习,那么这本书非常适合你。我一直在等待这本书的出现。”
——Derek Willis,ProPublica新闻应用开发者,OpenElections联合创始人
“所有新手数据科学家、数据工程师或其他技术方面的数据专家都应该读一读这本实践指南。数据处理领域正需要这样一本书,真希望我第一次开始用Python处理数据时就能有它指导。”
——Tyrone Grandison博士,Proficiency Labs Intl. CEO
前言
欢迎打开这本书。在本书中,我们将会让你的数据处理技术更上一层楼,不再只是使用电子表格,而是可以利用 Python 编程语言,将噪声数据轻松快速地转换成可用的报告。 Python 语法简单,上手很快,人人都可以用 Python 编程。
想象一下,你每周都要手动重复同一过程,比如从多个来源复制数据并粘贴到一个电子表格中,用于后续处理。这项任务可能每周都需要花费一两个小时。但当你用脚本把这项任务自动化之后,它可能只需要 30 秒就可以完成!这会节省你的时间,让你做点其他事情,或者把更多的任务自动化。再想象一下,之前你无法处理某种格式的数据,但你现在能对数据进行格式转换,完成之前无法完成的任务。但在完成本书的 Python 练习后,你应该可以更有效地从之前认为不可用的数据(过于混乱,或者数据量过大)中采集信息。
我们将带领你完成数据获取、数据清洗、数据呈现、数据规模化和自动化的过程。我们的目标是教你学会轻松处理数据的方法,这样你就可以花更多的时间专注于内容和分析。我们将克服现有工具的局限,将手动处理过程替换为简洁、易读的 Python 代码。读完这本书后,你能够将数据处理过程自动化,定期执行文件编辑和清洗任务,获取并解析你之前无法获取的数据,还能处理数据量更大的数据集。
采用基于项目的方法,每一章的复杂度会逐渐增加。我们建议你跟随本书的节奏,将书中的方法应用到自己的数据集上。如果你没有一个特定的项目或研究,也可以使用本书线上的样本数据集。
目标读者
本书针对的是那些不想用桌面工具来探索数据处理的人。如果你精于 Excel,想进一步提升数据分析水平,本书将助你一臂之力!如果你之前学过其他语言,想用 Python 学习数据处理,也会发现本书非常有用。
如果你遇到不懂的问题,建议你联系我们,这样我们可以改进书的内容。你也应该使用互联网搜索或在线提问(在线提问有一些方法和技巧,请参考 https://www.propublica.org/nerds/item/how-to-ask-programming-questions)来补充学习。我们在附录 E 中介绍了一些调试的技巧,你可以翻到那里看一下。
不适合阅读本书的读者
本书肯定不适合经验丰富的 Python 程序员,他们已经知道数据处理任务需要用到哪些库和技术。(对于这些人,我们推荐 Wes McKinney 写的《利用 Python 进行数据分析》。)如果你是经验丰富的 Python 开发者,或使用过 Scala、R 等其他具有数据分析能力的语言,本书可能也不适合你。但如果你是经验丰富的 Web 语言开发者,使用的 PHP、JavaScript 等语言本身缺乏数据分析能力,那么本书可以通过数据处理来教你 Python 的知识。
本书结构
本书的结构沿循一般数据分析项目或故事的整个生命周期。首先提出一个问题,然后获取数据、清洗数据、探索数据、传达数据中的发现、扩展到更大的数据集,最后将整个过程自动化。这种方法可以让你从简单的问题逐步过渡到更复杂的问题和研究。我们会先讲传达数据中发现的基本方法,然后再讲数据采集的高级技巧。
如果对某些章节的内容比较熟悉,你也可以将本书当作参考,或者跳过那些章节。但我们建议你大致浏览一下每一章节的内容,确保没有错过新的资源与技术。
什么是数据处理
数据处理是指将杂乱的或未加工的数据源转换成有用的信息。先寻找原始数据源,并判断其价值:这些数据集的数据质量有多好?它们与你的目标是否相关?能否找到更好的数据源?在对数据进行解析与清洗后,数据集变得可用,这时你可以利用工具和方法(如 Python 脚本)来帮你分析数据,并以报告的形式展示结果。这样你可以将无人问津的数据变得清晰可用。
目录
第 1 章 Python 简介阅读第 2 章 Python 基础阅读第 3 章 供机器读取的数据第 4 章 处理 Excel 文件第 5 章 处理 PDF 文件,以及用 Python 解决问题第 6 章 数据获取与存储第 7 章 数据清洗:研究、匹配与格式化第 8 章 数据清洗:标准化和脚本化第 9 章 数据探索和分析第 10 章 展示数据第 11 章 网页抓取:获取并存储网络数据第 12 章 高级网页抓取:屏幕抓取器与爬虫第 13 章 应用编程接口第 14 章 自动化和规模化第 15 章 结论
作者介绍
Jacqueline Kazil,数据科学家,资深软件开发者。活跃于Python软件基金会、PyLadies等社区。曾参与美国总统创新伙伴项目,是美国政府技术组织18F的联合创始人。曾担任《华盛顿邮报》数据记者。
Katharine Jarmul,资深Python开发者,PyLadies联合创始人。喜欢数据分析和获取、网页抓取、教人学习Python以及Unix,期望通过教育和培训来促进Python和其他开源语言的多元化。
前几天有私信我要Python的学习资料,我连夜整理了一些有深度的Python教程和参考资料,从入门到高级的都有,文件已经打包好了,正在学习Python的同学可以免费下载学习学习。文件下载方式:点击我的头像,关注后私信回复“资料”即可下载。首先把代码撸起来!首先把代码撸起来!首先把代码撸起来!重要的事说三遍,哈哈。“编程是门手艺活”。什么意思?得练啊。
转载地址:http://wzxqa.baihongyu.com/