大数据 MaoReduce

MaoReduce个人整理

MaoReduce 定义

优点:
- 易于编写: 用户只关心, 业务逻辑实现框架的接口
- 良好的扩展性: 可以动态增加服务器, 解决动态资源不够的问题
- 高容错性: 任何一台机器挂掉, 可以将任意转移到其它节点上
- 适合海量数据计算 (TB/PB) 几千台服务器共同计算

用到的txt数据

Stitch Stitch Stitch 
626
Angel Angel Angel Angel Angel Angel
624
Reuben Reuben 
625

(1). 将MapTask传给我们的文本内容先转换成String

Stitch Stitch Stitch

(2). 根据空格将一行切分成单词

Stitch 
Stitch 
Stitch

(3). 将单词输入为<单词, 1>

Stitch, 1
Stitch, 1
Stitch, 1

(1). 汇总各个key的个数

# value  key

Stitch, 1
Stitch, 1
Stitch, 1

(2). 输出该key的总次数

# value  key

Stitch, 3

Driver

(1). 获取配置信息, 获取job对象实例

(2). 指定本程序的jar保所在的本地路径

(3). 关联Mapper/Reducer业务类

(4). 指定Mapper输出数据的kv类型

(5). 指定最终输出的数据的kv类型

(6). 指定job的输入原始文件所在目录

(7). 指定job的输出结果所在目录

(8). 提交作业

作者: 我叫史迪奇
本文来自于: https://sdq3.link/MaoReduce.html博客内容遵循署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 协议