Skip to content

Latest commit

 

History

History
128 lines (110 loc) · 7.71 KB

README.md

File metadata and controls

128 lines (110 loc) · 7.71 KB

🌟 大模型时代,开发模型需要海量数据,采集数据又离不开代理IP。推荐一家好用的数据集和代理IP服务 🌐💡【bright.cn】💡🌐,根植海外亮数据BrightData团队,数据集和代理市场领导者,覆盖全球的7200万IP,🌍🔥有轮动真人住宅IP跟机房IP,亲测稳定不易被封。有多种套餐可选,📦🔒还有不限流量的套餐。需要高质量代理IP的可以注册后联系中文客服,开通后赠送💵💰5美元试用和教程指引,报我名字【SeanCheney】可再得💵💰150美元套餐折扣。

💡数据集和代理IP推荐💡【bright.cn】💡,进入网站注册账号可免费获得诸如 亚马逊,沃尔玛,领英,抖音,Glassdoor,Airbnb,谷歌地图商家等数据集样本。


利用Python进行数据分析》第3版

利用Python进行数据分析》第2版

各章导读视频:https://www.bilibili.com/video/BV1pC4y117Bh/

在简书上阅读: https://www.jianshu.com/p/16e04213aa91

第三版多了41页内容,Pandas升级为1.4.0、Python升级为3.10。第三版最大的变化是紧贴Pandas升级,主要是新增了方法和特性的内容。另外,第三版有作者的在线开源电子版了,GitHub地址

第三版目录略有调整,不如第二版和第一版的变化大:

  • 第4章NumPy基础新增了生成伪随机数;
  • 第7章数据清洗新增了扩展数据类型和分类数据,实际是把第二版中第12章的内容放到新版第7章里了;
  • 第11章时间序列新增了分组时间重采样。

曾经不止一次听别人抱怨,Pandas的知识点分散、零碎、不便于记忆。在细节上,作者这次在新版中摒弃了许多容易造成记忆混乱的用法。比如,用axis = "columns"替代axis = 1,简写方式破坏了代码的可读性,作者修改了许多类似的编程细节。新版对初学者更为友好了!

在简书上阅读: https://www.jianshu.com/p/04d180d90a3f

下载本书代码,GitHub地址(建议把代码下载下来之后,安装好Anaconda,在目录文件夹中用Jupyter notebook打开)。

本书是2017年10月20号正式出版的,和第1版的不同之处有:

  • 包括Python教程内的所有代码升级为Python 3.6(第1版使用的是Python 2.7)
  • 更新了Anaconda和其它包的Python安装方法
  • 更新了Pandas为2017最新版
  • 新增了一章,关于更高级的Pandas工具,外加一些tips
  • 简要介绍了使用StatsModels和scikit-learn

对有些内容进行了重新排版。最大的改变是把第1版附录中的Python教程,单列成了现在的第2章和第3章,并且进行了扩充。


新版《利用Python进行数据分析》上市后,我一直在寻找一本Python数据分析的进阶书。经过漫长的搜索和等待,总算找到了,书名是《Fast Python》(中文书名极速Python)。

技术链条:Pandas > Arrow > Ray > ChatGPT > ?

这本书在Amazon上市后,评论并不多,只有两个5星评价。但是,看完目录后,我立即就想认真读一读。《利用Python进行数据分析》主要围绕NumPy、Pandas、Matplotlib,内容比较偏基础。而工作中要处理的数据量变得越来越大,对技术的要求越来越高,基础方法已经不够用了,必须使用能处理大规模数据集的新方法。《极速Python》从软件到硬件,从单机到分布式,对Python高性能编程和大数据分析优化进行了系统性讲解。内容亮点包括Python代码分析、数据结构优化、内存优化、高并发编程、NumPy编程、Cython代码重构、pandas进阶、数据存储。针对当下最热点的技术领域,本书还重点讲解了Arrow、GPU编程和分布式数据处理。《Fast Python》比另一本优秀的《High Performance Python》的技术栈还要全!

结合大语言模型研究热潮,阅读《极速Python》可以更好地理解最新的Python数据分析技术对技术界产生了巨大的影响。Pandas的作者Wes近年来主要开发了Arrow。Arrow提供了一种高效的数据格式和交换方式,使得在不同的计算框架和编程语言之间进行数据交换和分析变得更加容易和高效。通过将Arrow和Pandas结合使用,可以获得高性能的数据处理和分析能力。Arrow提供了快速的数据传输和交换机制,而Pandas提供了丰富的数据操作和分析功能。这使得在大规模数据集上进行数据处理和分析变得更加高效和便捷。进而,分布式机器学习框架Ray在Datasets组件中使用了Arrow,而22年底爆火的ChatGPT就是用Ray训练而成的。


加入【Python数据分析群】 我的微信·WeChat,欢迎沟通 ^_^ AI科技论谈·分享AI新知