什么是大数据？

大小非常大的数据称为大数据。通常我们处理的数据大小为MB(WordDoc，Excel)或最大GB(电影，代码)，但Peta字节即10 ^ 15字节大小的数据称为大数据。据说今天的数据几乎有90％是在过去3年中产生的。

大数据的来源

这些数据来自许多来源，例如

社交网站: ，由于这些网站在全球拥有数十亿用户，因此所有这些网站每天都会产生大量数据。电子商务站点: 诸如Amazon，Flipkart，阿里巴巴之类的站点生成大量日志，可从中追踪用户的购买趋势。气象站: 所有气象站和卫星都提供了非常庞大的数据，这些数据已存储并处理以预测天气。电信公司: 像Airtel，Vodafone这样的电信巨头研究了用户趋势，并据此发布了他们的计划，并为此存储了其百万用户的数据。股票市场: 全世界的证券交易所通过其日常交易产生大量数据。

3V的大数据

速度: 数据以非常快的速度增长。估计每两年数据量将翻一番。品种: 现在几天的数据不再存储在行和列中。数据是结构化的还是非结构化的。日志文件，CCTV素材是非结构化数据。可以保存在表中的数据是结构化的数据，例如银行的交易数据。卷: 我们处理的数据量很大，超过了Peta字节。

用例

一个电子商务网站XYZ(拥有1亿用户)希望向使用过该产品的前10位客户提供100美元的礼品券此外，他们希望找到这些客户的购买趋势，以便公司可以建议与他们相关的更多商品。

问题

数据量大

解决方案

存储: 这种庞大的数据量，Hadoop使用HDFS(Hadoop分布式文件系统)，该HDFS使用商用硬件形成集群并以分布式方式存储数据。

处理: 将Map Reduce范式应用于通过网络分发的数据以查找所需的输出。

分析: Pig，Hive可用于分析数据。

成本: Hadoop是开源的，因此成本不再是问题。

找工作要求35岁以下，35岁以上的程序员都干什么去了？

长久以来，一直有一个问题困扰着技术人——如何打破“程序员的35岁职业魔咒”，这一天迟早会到来，或早或晚。

或许是选错了行业，程序员薪水虽高，但光鲜的外表下，背后的苦衷只有自己知道。三十多岁本该是一个人事业的黄金期，但技术变化日新月异，行业竞争异常残酷，对一个企业来说，永远有比你更年轻、劳动成本更低的人可以选择，这让你的中年危机提前到来。破局的智慧可以看看这本书！>>

<< Hadoop 教程什么是Hadoop >>

昵称：邮箱：