Skip to content

🎉🎉🐳 Datawhale大数据处理导论教程 | 大数据技术方向的开篇课程🎉🎉

Notifications You must be signed in to change notification settings

datawhalechina/juicy-bigdata

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

妙趣横生大数据 Juicy Big Data

本项目《妙趣横生大数据》是Datawhale:whale:大数据技术相关内容的导论课程。

当今的时代处处充斥着大数据的影子,大数据技术也为信息技术发展带来了重大的变革,并深刻影响着人们生活的方方面面。而我们旨在带领大家走进大数据时代的浪潮中,理解并能够使用目前主流的大数据处理架构Hadoop解决相应的问题,从小白到实践者。

食用方法

🐳 推荐使用 Big Data Github在线阅读 进行学习。

项目结构:

├─docs---------------------------------------------章节主要内容(理论+实验)  
├─experiments--------------------------------------每个章节配套的补充小实验  
└─resources----------------------------------------相关资源  

以下是目录,还等什么,学就完事了~

大数据处理技术导论目录

第二章以后的章节都配置有实验内容,使用Linux操作系统进行编程实战。

课程收获

通过本教程的学习,你将能够学习到:

  • 了解并描述大数据技术的应用场景,真实世界的大数据问题和方法的例子。
  • 解释大数据4V的特性以及各种特性如何影响到数据的收集、监控、存储、分析和报告的方方面面。
  • 识别大数据问题,并能够将问题转化为数据科学问题。
  • 总结HDFS文件系统和MapReduce编程模型的特点和意义,以及它们与大数据的关系。
  • 识别和利用数据科学生命周期和相关数据流中的各种组件,如HBase,Hive等。

参考教程

  1. 《大数据处理技术原理与应用 第三版》——林子雨
  2. Big Data US SanDiego
  3. 《Hadoop权威指南》
  4. 《Hive编程指南》
  5. 《维度建模权威指南(第3版)》
  6. 《大数据处理之道》
  7. 《Spark快速大数据分析》
  8. 牛客网部分面试题

环境安装

  • Java 8
  • Hadoop 3.3.1
  • HBase 2.3.5 or 2.4.8
  • Mysql 8.0.32
  • Hive 2.3.9
  • Spark 3.2.0

安装包下载地址https://datawhale.feishu.cn/drive/folder/fldcnvODsgRWbyqVW9ApavEVEJg 密码: hO38

致谢

感谢以下Datawhale成员对项目推进作出的贡献(排名不分先后):

贡献者名单
成员 个人简介及贡献 个人主页
沈豪 复旦大学网安博士,项目负责人,参与前五章内容构建 知乎, Github
王洲烽 国防科技大学计算机研究生,Datawhale成员,主要贡献者 CSDN, Github
蒋志政 电子科技大学计算机研究生,主要贡献者 Github
王嘉鹏 小米大数据开发工程师,Datawhale成员,主要贡献者 CSDN, Github
刘洋 中科院数学与系统科学研究院研究生,Datawhale成员,主要贡献者 知乎, Github
胡锐锋 大数据平台研发工程师,Datawhale成员,主要贡献者 Github
最后,也感谢伊小雪、毛自翔、萌弟、边圣陶参与本课程的内部评审!

关注我们

扫描下方二维码关注公众号:Datawhale

  Datawhale是一个专注AI领域的开源组织,以“for the learner,和学习者一起成长”为愿景,构建对学习者最有价值的开源学习社区。关注我们,一起学习成长。

LICENSE

知识共享许可协议
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。