Hadoop集群安装系列------单机安装 (根据官方文档编写)
1. 注意
单机不需要启动任何服务即可使用,在单一的jvm中运行,一般只用于调试
2. 实例
2.1 跑wordcount例子时注意
创建数据源 mkdir /root/hadoopdata/input
将一些数据导入 cp /usr/local/hadoop-2.7.1/etc/hadoop/*.xml /root/hadoopdata/input
对input中文件的单词数量进行运算
格式 hadoop jar命令 例子架包 wordcount函数 参数一:数据来源 参数二: 数据输出(统计后的结果)
[root@bihai6 mapreduce]# hadoop jar hadoop-mapreduce-examples-2.7.1.jar wordcount /root/hadoopdata/input /root/hadoopdata/output/
注意:数据输出路径必须是空的,系统会自动创建
要保证bihai6是etc/hosts与etc/sysconfig/network中的名字相同
2.2 跑九宫格
hadoop jar hadoop-mapreduce-examples-2.7.1.jar sudoku /root/hadoopdata/sudoku.txt
先把下面的数据放入sudoku.txt文件中
2.3 跑teragen
注意:输出路径也不存在 ,最后是要查找的关键字
hadoop jar hadoop-mapreduce-examples-2.7.1.jar grep /root/hadoopdata/input/core-site.xml /root/hadoopdata/output1 'xml'
2.4 SecondarySort 二次排序
[root@bihai6 output2]# hadoop jar hadoop-mapreduce-examples-2.7.1.jar secondarysort /root/hadoopdata/SecondarySort.dat /root/hadoopdata/output2
下面是数据源,将数据放在SecondarySort.dat中
相关推荐HOT
redis数据类型有几种
消息队列(stream):一个特殊的数据结构,用于支持流式处理消息,并可以支持消费者分组、消费者位移等特性。每种数据类型都有对应的命令可以进行...详情>>
2023-03-16 10:19:36hadoop集群的最主要瓶颈
Hadoop集群的主要瓶颈取决于许多因素,例如集群的大小、硬件规格、网络架构、数据复杂性和处理任务等。以下是可能影响Hadoop集群性能的一些常见...详情>>
2023-03-14 10:22:17java底层hashmap扩容怎么实现?
Hashtable的synchronized是针对整张Hash表的,即每次锁住整张表让线程独占,ConcurrentHashMap允许多个修改操作并发进行,其关键在于使用了锁分...详情>>
2022-11-08 14:31:36用户画像系统中遇到的比较难的问题是什么?
如果我们直接将用户的标签转换为稀疏向量来存储,对于类别标签使用`one-hot`编码,但这样会出现维度爆炸的问题,向量过于稀疏,向量之间的余弦...详情>>
2022-11-07 15:25:17