快乐学习
一个网站喵查铺子(catpuzi.com)全搞定~
MapReduce实现网站用户流量统计
网站的文件都会统计注册用户的流量信息,下面实现一个统计用户的上行流量,下行流量和总共使用流量。基本的思路还是通过map(获取日志中的一行数据,切分各个字段,抽取出我们需要的字段:手机号,上行流量,下行流量,然后封装成kv发送出去),reduce(遍历values,然后进行累加求和再输出)和run类来处理,但是map中传……继续阅读 »
之前在MapReduce原理里面提到的例子,今天用代码将其实现,并且剖行其过程。按照之前对那个统计的例子分析,我们将代码主要分为三块
map的过程;reduce的过程;统管调度的过程。
因此,我们可以分别创建3个类WCMapper,WCReduce和WCJob.
首先,在Map的类里面,我们首先继承hadoop的父类mapper
public class W……继续阅读 »
今天学习了下mapreduce的原理,毕竟这也算是hadoop的核心吧。
在处理海量数据的时候(数据文件较大),比如有很多个T(几个甚至上百个T)的文件,可以考虑放在HDFS上,比如HDFS有50个节点,每个节点挂在8T的硬盘,那么从存储角度来看是完全满足了。但是这样也产生一个问题,数据都被分散在 HDFS的各个机器上,如果需要统计数据的话,需要从各个机器分……继续阅读 »