`
参照物
  • 浏览: 11816 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
社区版块
存档分类
最新评论

hadoop来了,你准备好了吗

阅读更多

转载自IT学习社区:http://bbs.itcast.cn/forum-122-1.html

 

    现在有一台笔记本,配置是酷睿i5、4G内存、500G硬盘。很难想象自己的第一台电脑的配置是奔腾3、512M内存、20G硬盘。那时候,自己的20G 硬盘还有很多空闲。现在,各种软件、电影、音乐、教学视频让500G的硬盘空间也装不下了。互联网的发展,产生的数据越来越多,不仅包括结构化的可以存储 在数据库中的数据,也包括网页、电子邮件、短信、微博、日志等半结构化、非结构化的数据。互联网上,每天推特发布消息约3.4亿条,新浪微博用户发博量超 过1亿条,百度大约要处理数十亿次搜索请求,淘宝网站的交易达数千万笔,联通的用户上网记录一天达到10TB(1TB=1024GB)。这一切表明,大数 据时代已经到来!

    什么是大数据哪?看一下大数据的4V特点吧。
    Volume容量大。只有几(十)GB的数据不能称为大数据,这样的数据在传统的RDBMS中就可以处理。当数据达到几百GB,甚至TB级别时,RDBMS甚至数据仓库就处理不了了。这就是大数据。
    Variety 类型多样。数据的异构(不同的数据结构)、多样也是大数据的特点,比如日志、文本、word、pdf、ppt、excel、jpg、gif、avi等各种图、文、音频、视频文件。这些文件类型是传统的RDBMS处理不了的,也没有办法检索、分析。
    Velocity 访问迅速。数据是企业的命脉,数据必须被快速处理,这正是传统的RDBMS的优势所在。但是在海量数据面前,RDBMS就无能为力了。
    Value 价值密度低。最有价值的数据已经被转换处理为结构化数据,存储在数据库、数据仓库中。对于海量的价值密度低的大数据,向来不是数据库关注的对象。但是海量 的大数据并不是没有价值的,比如长尾理论、“啤酒与尿布”,都是基于大数据产生的商业价值。因此提炼大数据中的商业价值是一个企业新的增长点,被越来越多 的企业重视。
    上面的4V带来了大数据的难以存储、难以管理、难以利用的难题。怎么办?hadoop出场了!
    数据是存储在磁盘介质中的,海量的数据必然存储在海量的磁盘中。这么多的磁盘已经超出了Windows、Linux等操作系统的文件管理能力,因此产生了分布式的文件管理系统,即DFS(Distributed File System)。分布式文件管理系统是用来管理分布在众多磁盘中的数据。分布式文件系统需要考虑分布式的读、写、检索、数据一致性、磁盘故障、冗余等问题。hadoop的hdfs就是一个分布式的dfs,专门用于在分散的磁盘中存储海量数据。
    数据被存储,那是档案馆干的事情,这可不是企业想干的事情。数据只有被利用,产生出商业价值才是有意义的。那么就需要对大数据进行检索、查询,做各种变 换,这统统称之为“计算”。最常见的计算就是去重、排序。有人想,这有什么难事,找台高性能的服务器跑就行了。其实没那么简单,因为磁盘的寻址时间、磁盘 I/O、网络I/O,相对于大数据而言,是非常大的开销。我们想了个办法:把海量数据分成小块,让一台机器处理一小块数据,所有的机器同时工作。最后把结 果汇总起来。这就是“并行计算”。hadoop中的MapReduce就是专门用来做分布式计算的并行处理框架。hadoop就是用来解决大数据的存储和计算的。
    现在,国际互联网巨头,如谷歌、雅虎、推特、脸谱等都已经使用大数据。其中谷歌就是鼻祖。在国内,hadoop的应用也越来越多,互联网公司如百度、淘宝、腾讯、新浪、搜狐早在多年前就已经在处理大数据。传统的行业,如电信、金融、银行等也开始重视大数据的商业价值。
    这么多的企业在使用大数据,那么对大数据人才的渴求越来越强烈,但是懂hadoop的人才却非常少。因此这类人的薪水是相当高的。

    下图是在前程无忧招聘网站查询hadoop职位时得到的搜索结果,可以看到大部分职位的月薪都在10k以上。月薪超过20k的职位也有很大比重。

    上图是对查询结果的一个截图,可以看到hadoop工程师的待遇还是很高的,几乎都在年薪20W以上。
    在hadoop人才稀缺的时候,你掌握了这门技术,想一想那是什么结果?
  • 大小: 5.6 KB
  • 大小: 34.2 KB
分享到:
评论

相关推荐

    基于hadoop对某网站日志分析部署实践课程设计报告参考模板.doc

    至此,我们通过Python网络爬虫手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)保存为两个日志文件,由于文件大小超出我们一般的分析工具处理的范围,故借助Hadoop来完成本次的实践。 2. 总体设计 2.1 ...

    使用docker部署hadoop集群的详细教程

    最近要在公司里搭建一个hadoop测试集群,于是采用docker来快速部署hadoop集群。 0. 写在前面 网上也已经有很多教程了,但是其中都有不少坑,在此记录一下自己安装的过程。 目标:使用docker搭建一个一主两从三台机器...

    Hadoop实战(陆嘉恒)译

    Hadoop也疯狂第9 章 在云上运行Hadoop9.1 Amazon Web Services 简介9.2 安装AWS9.2.1 获得AWS身份认证凭据9.2.2 获得命令行工具9.2.3 准备SSH密钥对9.3 在EC2 上安装Hadoop9.3.1 配置安全参数9.3.2 配置集群类型9.4 ...

    大数据面试+项目经验+真实大数据简历

    准备大数据面试时,除了准备好充实的项目经验,还需要一份真实的大数据简历来展示自己的能力和经历。 在项目经验方面,应该详细描述自己参与的大数据项目,包括项目的目标、所用工具和技术、自己在项目中扮演的角色...

    HAlign:多序列比对工具

    此外,如果 Hadoop 集群环境还没有准备好,您可以使用其独立模式来开始您的工作。 但是当您的序列文件很大(超过1GB)时,我们建议您最好在Hadoop集群上运行,以节省宝贵的时间。 首页: : 参考文献:万世祥和邹权...

    10、HDFS小文件解决方案-Archive

    10、HDFS小文件解决方案--Archive ...本文介绍hdfs在使用过程中产生小文件的处理方式。 本文使用Archive来合并hdfs的小文件。...本文依赖前提:hadoop集群可以正常使用,且相关的文件提前已经准备好。

    大数据离线计算.pdf

    ⼤数据离线计算 离线计算概述 所谓⼤数据离线计算,就是利⽤⼤数据的技术栈(主要是Hadoop),在计算开始前准备好所有输⼊数据,该输⼊数据不会产⽣变化,且 在解决⼀个问题后就要⽴即得到计算结果的计算模式。...

    gradle-spark:帮助开始使用 Apache Spark 的 Gradle 构建文件

    我们将覆盖Spark 简介REPL 简介和执行 Spark 命令在 IDE 中编写 Spark 应用程序的介绍关于这个项目我们已经准备好这个项目作为研讨会所需的所有资源的转到点。 它旨在在没有互联网连接的情况下运行,但我们不做任何...

    大数据离线计算的架构与组件.pdf

    ⼤数据离线计算概述 (1)所谓⼤数据离线计算,就是利⽤⼤数据的技术栈(主要是Hadoop),在计算开始前准备好所有输⼊数据,该输⼊数据不会产⽣变化,且在解决⼀个问题后就要⽴即得到计算结果的计算模式。 (2)离线...

    java简易版开心农场源码-bigdata-at-the-intersection-of-containerization-and-infra

    java简易版开心农场开源连续化和基础设施即代码交叉处的大数据 概念 这个存储库最初是我最近面临的一个现实世界的问题...当我们简单地使用预先准备好的解决方案来解决我们眼前的问题时,我们就会面临严重的危险。 当我

    什么是大数据开发?大数据开发要学什么?一个Java转行过程和经历.pdf

    在考虑清楚的前提下,⼀定要趁早,因为你在⼀个⾏业积累的经验越久,你转⾏付出的沉默成本越⼤,你会更没 有勇⽓,我当初之所以这么决绝的确定转⾏本质上也是因为我刚毕业,还是⼀张⽩纸,转⾏对我来说成本还算是很...

    smart-data-lake:快速构建和维护智能数据湖的框架

    一个分层的数据体系结构,不仅可以提供原始数据,还可以根据业务实体提供准备好的,安全的高质量数据,这些数据可随时用于分析用例,也称为“智能数据”。 这可与Databricks Lake House架构相媲美,实际上,Smart ...

    大数据中台架构栈.doc

    它搭配 ELK 技术栈使用起来比拟简单,更像是为你准备好的便当,开盒即食。 1.2 日志采集如何工作 我们以 Flume 为例子讲些日志采集 Agent 是怎么工作的。 Flume 由三个局部组成:Source,Channel 和 Sink,对应于...

    亚信java笔试题-How-to-get-a-SWE-internship:如何获得SWE实习机会

    所以在找实习季开始前,也就是七八月左右,请准备好一份不错的简历。 个人认为,“不错的”简历有以下几个方面,可以尽量去满足: 国内大厂(BAT等)和外企分部实习(MSRA等),如果没有的话,小厂的实习也是可以的...

    stacki:Linux Cluster Builder-裸机Red Hat和SUSE

    Stacki 5.6.5 转到了解更... 高级用户可以使用Stacki来安装应用程序(Hadoop,OpenStack,HPC等)。 Stacki历史悠久,并且在世界上一些最苛刻的组织中使用。 Stacki的默认安装过程将为ping和提示带来裸机基础架构(或V

    mercadolivre_extractor:不使用API​​从Mercadolivre中提取产品

    好吧,有许多店主正准备前往自己的商店或市场,其中许多人那里有成百上千种商品,并希望以某种方式快速插入他们的网站。 该脚本适用于此类人员,可轻松轻松地自动执行日常任务。 Python如何安装: 克隆项目安装需求...

Global site tag (gtag.js) - Google Analytics