首頁技術(shù)文章正文

InputFormat接口的定義代碼如何設(shè)置?

更新時(shí)間:2020-11-04 來源:黑馬程序員 瀏覽量:

   

  InputFormat主要用于描述輸入數(shù)據(jù)的格式,它提供以下兩個(gè)功能:

  數(shù)據(jù)切分:按照某個(gè)策略將輸入數(shù)據(jù)切分成若干個(gè)分片(split),以便確定MapTask個(gè)數(shù)以及對應(yīng)的分片(split)。

  ·為Mapper提供輸入數(shù)據(jù):給定某個(gè)分片(split),將其解析成一個(gè)一個(gè)的key/value鍵值對。

  · Hadoop自帶了一個(gè) InputFormat接口,該接口的定義代碼如下所示:

public abstract class InputFormat<K, V> {

     public abstract List<InputSplit> getSplits(JobContext context

               ) throws IOException, InterruptedException;

     public abstract RecordReader<K,V>createRecordReader(InputSplit split,

                     TaskAttemptContext context

               ) throws IOException, InterruptedException;

  }

  從上述代碼可以看出,InputFormat接口定義了getSplits()和createRecordReader()兩個(gè)方法,其中,getSplits()方法負(fù)責(zé)將文件切分為多個(gè)分片(split),createRecordReader()方法負(fù)責(zé)創(chuàng)建RecordReader對象,用來從分片中讀取數(shù)據(jù)。下面,我們主要對getSplits()方法進(jìn)行介紹。 getSplits()方法主要實(shí)現(xiàn)了邏輯切片機(jī)制。其中,切片的大小splitSize是由3個(gè)值確定的,即minSize、maxSize和blockSize。 minSize:splitSize的最小值,由參數(shù)mapred.min.split.size確定,可在mapred-site.xml中進(jìn)行配置,默認(rèn)為1MB。 maxSize:splitSize的最大值,由參數(shù)mapreduce.jobtracker.split.metainfo.maxsize確定,可在mapred-site.xml中進(jìn)行設(shè)置,默認(rèn)值為10MB。 blockSize:HDFS中文件存儲塊的大小,由參數(shù)dfs.block,size確定,可在hdf-site.xml中進(jìn)行修改,默認(rèn)為128MB。

    猜你喜歡:

 MapReduce中Maper組件用法介紹【黑馬程序員】

 Spark的集群安裝部署


分享到:
在線咨詢 我要報(bào)名
和我們在線交談!