标签：MapReduce

MapReduce实现网站用户流量统计自定义分组 MapReduce实现用户浏览网站统计

MapReduce实现网站用户流量统计网站的文件都会统计注册用户的流量信息，下面实现一个统计用户的上行流量，下行流量和总共使用流量。基本的思路还是通过map（获取日志中的一行数据，切分各个字段，抽取出我们需要的字段：手机号，上行流量，下行流量，然后封装成kv发送出去）,reduce（遍历values，然后进行累加求和再输出）和run类来处理，但是map中传……继续阅读 »

大数据

map编程 ,MapReduce实现统计过程的例子

之前在MapReduce原理里面提到的例子，今天用代码将其实现，并且剖行其过程。按照之前对那个统计的例子分析，我们将代码主要分为三块 map的过程；reduce的过程；统管调度的过程。因此，我们可以分别创建3个类WCMapper,WCReduce和WCJob. 首先，在Map的类里面，我们首先继承hadoop的父类mapper public class W……继续阅读 »

大数据

hadoop的核心：MapReduce原理

今天学习了下mapreduce的原理，毕竟这也算是hadoop的核心吧。在处理海量数据的时候（数据文件较大），比如有很多个T（几个甚至上百个T)的文件，可以考虑放在HDFS上，比如HDFS有50个节点，每个节点挂在8T的硬盘，那么从存储角度来看是完全满足了。但是这样也产生一个问题，数据都被分散在 HDFS的各个机器上，如果需要统计数据的话，需要从各个机器分……继续阅读 »