博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
hadoop官方案例grep和wordCount实践
阅读量:3963 次
发布时间:2019-05-24

本文共 784 字,大约阅读时间需要 2 分钟。

1、GREP

grep的作用?

使用正则,从文件中匹配需要查找的字符并输出。

案例步骤

以下全部内容都在hadoop-3.2.1为基础目录下进行

1、准备工作

$ mkdir input$ cp etc/hadoop/*.xml input/$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar grep input output 'dfs[a-z.]+'

hadoop-mapreduce-examples-3.2.1.jar — 官方实例的一个jar包

grep --实例名称
input —输入目录
output —输出目录,不需要建立默认生成
‘dfs[a-z.]+’ 正则内容
2、执行
执行结果
进入output目录,查看执行结果
其中,_SUCCESS 文件大小为0,主要是执行结果的一个标志文件。

2、wordCount

wordCount的作用?

从字面意思也很好理解,其实就是统计文本中的单词个数。

案例步骤

以下全部内容都在hadoop-3.2.1为基础目录下进行

1、准备工作

$ mkdir wcinput$ cd wcinput/$ vi wc.input

输入如下内容:

$ cat wc.inputzhangsan lisi wangwu zhaoliuzhangsan wangwulisiwuqisunba sunba

2、执行

$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar wordcount wcinput wcoutput

执行结果

查看结果
_SUCCESS说明执行结果成功了!
part-r-00000文件中的统计结果与实际一致。

其他,如果output输出目录原本就存在的情况下,执行会报错,如下:

在这里插入图片描述

转载地址:http://crezi.baihongyu.com/

你可能感兴趣的文章
STL里的multimap使用详解
查看>>
STL 库其中的 std::string用法总结
查看>>
模态对话框的销毁过程与非模态对话的几种销毁方法
查看>>
C++实现http下载 && 24点计算编码风格
查看>>
memcached了解使用和常用命令详解
查看>>
GDB调试各功能总结
查看>>
"undefined reference to" 多种可能出现的问题解决方法
查看>>
类结构定义
查看>>
Windows下关于多线程类 CSemaphore,CMutex,CCriticalSection,CEvent,信号量CSemaphore的使用介绍
查看>>
图像处理基本算法(汇总)以及实现
查看>>
C++编程获取本机网卡信息 本机IP 包括Windows和Linux
查看>>
C++连接CTP接口实现简单量化交易
查看>>
服务端使用c++实现websocket协议解析及通信
查看>>
C# string.Format使用说明
查看>>
Linux下安装Mysql数据库开发环境
查看>>
Linux用户及用户组添加和删除操作
查看>>
通用 Makefile 的编写方法以及多目录 makefile 写法
查看>>
C++的4种智能指针剖析使用
查看>>
RPC框架实现之容灾策略
查看>>
Docker私库
查看>>