訂閱
糾錯(cuò)
加入自媒體

初識MapReduce的應(yīng)用場景(附JAVA和Python代碼)

Java版本代碼

先是準(zhǔn)備一個(gè)數(shù)據(jù)集,包含著已經(jīng)切割好的詞匯,這里我們設(shè)置文件的格式是txt格式的。文件名是WordMRDemo.txt,內(nèi)容是下面簡短的一句話,以空格分割開:

hello my name is spacedong  welcome to the spacedong  thank you

引入Hadoop的依賴包

//這里使用的是2.6.5的依賴包,你可以使用其他版本的
      <dependency>
           <groupId>org.a(chǎn)pache.hadoop</groupId>
           <artifactId>hadoop-common</artifactId>
           <version>2.6.5</version>
       </dependency>
       <dependency>
           <groupId>org.a(chǎn)pache.hadoop</groupId>
           <artifactId>hadoop-client</artifactId>
           <version>2.6.5</version>
       </dependency>

(溫馨提示:代碼部分可左右滑動)

新建WordMapper.java文件,代碼的作用是進(jìn)行以空格的形式進(jìn)行分詞。

public class WordMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
   @Override
   protected void map(LongWritable key, Text value, Mapper.Context context)
           throws java.io.IOException, InterruptedException {
       String line = value.toString();
       //StringTokenizer默認(rèn)按照空格來切
       StringTokenizer st = new StringTokenizer(line);
       while (st.hasMoreTokens()) {
           String world = st.nextToken();
           //map輸出
           context.write(new Text(world), new IntWritable(1));
       }
   }

新建WordReduce.java文件,作用是進(jìn)行詞匯的統(tǒng)計(jì)。

public class WordReduce extends Reducer<Text, IntWritable, Text, IntWritable> {
   @Override
   protected void reduce(Text key, Iterable<IntWritable> iterator, Context context)
           throws java.io.IOException ,InterruptedException {
       int sum = 0 ;
       for(IntWritable i:iterator){
           sum+=i.get();
       }
       context.write(key, new IntWritable(sum));
   }
 }

新建WordMRDemo.java文件,作用是運(yùn)行Job,開始分析句子。

public class WordMRDemo {
   public static void main(String[] args) {
       Configuration conf = new Configuration();
       //設(shè)置mapper的配置,既就是hadoop/conf/mapred-site.xml的配置信息
       conf.set("mapred.job.tracker", "hadoop:9000");
       try {
           //新建一個(gè)Job工作
           Job job = new Job(conf);
           //設(shè)置運(yùn)行類
           job.setJarByClass(WordMRDemo.class);
           //設(shè)置要執(zhí)行的mapper類
           job.setMapperClass(WordMapper.class);
           //設(shè)置要執(zhí)行的reduce類
           job.setReducerClass(WordReduce.class);
           //設(shè)置輸出key的類型
           job.setMapOutputKeyClass(Text.class);
           //設(shè)置輸出value的類型
           job.setMapOutputValueClass(IntWritable.class);
           //設(shè)置ruduce任務(wù)的個(gè)數(shù),默認(rèn)個(gè)數(shù)為一個(gè)(一般reduce的個(gè)數(shù)越多效率越高)
           //job.setNumReduceTasks(2);
           //mapreduce 輸入數(shù)據(jù)的文件/目錄,注意,這里可以輸入的是目錄。
           FileInputFormat.a(chǎn)ddInputPath(job, new Path("F:BigDataWorkPlacedatainput"));
           //mapreduce 執(zhí)行后輸出的數(shù)據(jù)目錄,不能預(yù)先存在,否則會報(bào)錯(cuò)。
           FileOutputFormat.setOutputPath(job, new Path("F:BigDataWorkPlacedataout"));
           //執(zhí)行完畢退出
           System.exit(job.waitForCompletion(true) ? 0 : 1);
       } catch (Exception e) {
           e.printStackTrace();
       }
   }

最后執(zhí)行WordMRDemo.java文件,然后得到的結(jié)果是out文件夾內(nèi)的內(nèi)容,它長這個(gè)樣子:

out的文件目錄

打開part-r-00000文件的內(nèi)容如下

具體的文件內(nèi)容Python代碼版本

新建map.py文件,進(jìn)行詞匯的切割。

for line in sys.stdin:
   time.sleep(1000)
   ss = line.strip().split(' ')
   for word in ss:
       print ' '.join([word.strip(), '1'])

新建red.py文件,進(jìn)行詞匯的統(tǒng)計(jì)。

cur_word = None
sum = 0
for line in sys.stdin:
   ss = line.strip().split(' ')
   if len(ss) 。 2:
       continue
   word, cnt = ss
   if cur_word == None:
       cur_word = word
   if cur_word 。 word:
       print ' '.join([cur_word, str(sum)])
       cur_word = word
       sum = 0
   sum += int(cnt)
print ' '.join([cur_word, str(sum)])

新建run.sh文件,直接運(yùn)行即可。

HADOOP_CMD="/usr/local/src/hadoop-2.6.5/bin/hadoop"
STREAM_JAR_PATH="/usr/local/src/hadoop-2.6.5/share/hadoop/tools/lib/hadoop-streaming-2.6.5.jar"
INPUT_FILE_PATH_1="/test.txt"
OUTPUT_PATH="/output"
$HADOOP_CMD fs -rmr -skipTrash $OUTPUT_PATH
# Step 1.
$HADOOP_CMD jar $STREAM_JAR_PATH
   -input $INPUT_FILE_PATH_1
   -output $OUTPUT_PATH
   -mapper "python map.py"
   -reducer "python red.py"
   -file ./map.py
   -file ./red.py

以上的是演示demo的核心代碼,完整的代碼可以上github的代碼倉庫上獲取。

GitHub地址為:http://github.com/cassieeric/bigDaaNotes

以上的文章是MapReduce系列的第一篇,下篇預(yù)告是MapReduce的編程模型,敬請期待!

福利

看完后,是否對 MapReduce 有了初步的了解呢?最后送一本電子書給大家《Hadoop的技術(shù)內(nèi)幕:深入解析MapReduce架構(gòu)設(shè)計(jì)及實(shí)現(xiàn)原理》,在公眾號后臺回復(fù) MapReduce 關(guān)鍵字即可獲取。

參考資料:

Hadoop的技術(shù)內(nèi)幕:深入解析MapReduce架構(gòu)設(shè)計(jì)及實(shí)現(xiàn)原理

題圖:cosmin Paduraru

<上一頁  1  2  
聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號