人工智能教学共同体 深圳信息职业技术学院
新技术课程

新技术课程

您的位置: 首页 > 新技... > 正文

Hadoop大数据基础-基于亚马逊云AWS EMR的实现

时间:2022-06-13   来源:    阅读:

你将获得

大数据基础知识、Hadoop及其组件

教学服务

1v1答疑服务 、BAT面试辅导

讲师介绍

花罡辰大数据技术专业专任教师)

大数据技术专业专任教师,有丰富的大数据技术相关教学经验。精通Java、Python、Scala等编程语言。指导学生获得多次大数据技能竞赛省赛一等奖。

课程详情

大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。

具体来说,比如电商网站的用户浏览行为记录、购买行为记录,社交网站的用户行为数据记录、用户关系数据,通信行业的用户通信行为记录、上网行为记录,APP应用的用户行为数据,交通部门的海量探测数据、路况监控数据,政府部门的民生数据,舆情数据等,由于用户基数大,因而形成的数据动辄日增数百T甚至P级别数据,这些都是真实、物化、具体的大数据。

Hadoop是一套开源的用于大规模数据集的分布式存储和处理的工具平台。它最早由Yahoo的技术团队根据Google所发布的公开论文思想用JAVA语言开发,现在则隶属于apache基金会。

Hadoop以分布式文件系统HDFS(Hadoop distributed file system)和Map Reduce分布式计算框架为核心,为用户提供了底层细节透明的分布式基础设施。

HDFS的高容错性、高伸缩性等优点,允许用户将Hadoop部署在廉价的硬件上,构建分布式文件存储系统。

Map Reduce分布式计算框架则允许用户在不了解分布式系统底层细节的情况下开发并行、分布式的应用程序,充分利用大规模的计算资源,解决传统高性能单机无法解决的大数据处理问题。

总之,Hadoop是目前分析海量数据的首选工具,并已经被各行各业广泛应用于以下场景:

大数据量存储:分布式存储(各种云盘,百度,360~还有云平台均有Hadoop应用)日志处理: Hadoop擅长这个海量计算: 并行计算ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库使用HBase做数据分析:用扩展性应对大量读写操作—Facebook构建了基于HBase的实时数据分析系统机器学习:比如Apache Mahout项目(Apache Mahout简介 常见领域:协作筛选、集群、归类)搜索引擎:Hadoop + lucene实现数据挖掘:目前比较流行的广告推荐用户行为特征建模个性化广告推荐

腾讯课堂链接

https://ke.qq.com/course/4236524?tuin=3f81a6fa&taid=12502963335505132