MapReduce 中的 WritableComparable：自定义键的排序规则 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众，各位朋友，欢迎来到“Hadoop奇妙夜”！今晚，我们要聊点刺激的，聊聊MapReduce里的“排序密码”——WritableComparable，特别是当你想自定义你的“排序姿势”时，它有多么重要！

想象一下，你正在参加一场盛大的舞会💃。舞池里人头攒动，每个人都希望成为最耀眼的明星。默认情况下，大家可能按照身高排队，高的在前，矮的在后。但这太没创意了！你想按照舞姿的优雅程度排序，或者按照谁的舞伴更漂亮排序，甚至按照谁的鞋子更闪亮排序！这时候，你就需要一套自定义的“舞会排序规则”了。

在MapReduce的世界里，WritableComparable就是这套自定义排序规则的钥匙🔑。

一、什么是WritableComparable？（别被名字吓跑，它没那么可怕！）

首先，让我们把这个名字拆解一下：

Writable: 这意味着它可以被序列化（变成一串字节，方便在网络上传输）和反序列化（从一串字节变回原来的对象）。在Hadoop的世界里，数据需要在不同的节点之间传递，所以序列化是必不可少的技能。
Comparable: 这意味着它可以被比较大小。我们需要比较不同的键，才能知道谁应该排在前面，谁应该排在后面。

WritableComparable，顾名思义，就是一个可以序列化并且可以比较大小的接口。它继承自Writable接口和Comparable接口，要求你必须实现两个方法：

write(DataOutput out): 将对象序列化到DataOutput流中。你可以想象成把你的“舞姿信息”编码成一段密文，方便传输。
readFields(DataInput in): 从DataInput流中反序列化对象。相当于把收到的“舞姿密文”解码，还原成你自己的舞姿信息。
compareTo(T o): 比较两个对象的大小。这就是自定义排序规则的核心！你可以根据任何你想要的逻辑来比较两个对象。比如，比较舞姿的优雅程度，或者比较鞋子的闪亮程度。

二、为什么要自定义排序？（默认的排序不好吗？）

Hadoop默认的排序是按照键的自然顺序（比如整数从小到大，字符串按照字典顺序）进行的。对于很多场景来说，这已经足够用了。但是，在某些情况下，我们需要更灵活的排序规则。

举个例子：

按频率排序单词： 你有一个文本文件，里面有很多单词，你想统计每个单词出现的次数，并按照出现次数从高到低排序。默认的排序是按照单词的字母顺序，这显然不是你想要的。
按时间排序日志： 你有一堆日志文件，每条日志都包含一个时间戳，你想按照时间顺序（从早到晚）处理这些日志。默认的排序可能无法满足你的需求。
自定义优先级排序： 你想根据一些复杂的业务规则来决定数据的处理顺序。例如，优先处理VIP客户的数据，或者优先处理紧急任务的数据。

总而言之，当默认的排序规则无法满足你的需求时，你就需要自定义排序了。就像舞会上，你想按照自己的标准来评判谁是舞王/舞后👑。

三、如何实现WritableComparable？（手把手教你跳舞！）

现在，我们来一步一步地实现一个自定义的WritableComparable。假设我们要实现一个按照温度排序的WritableComparable。

创建一个类，实现WritableComparable接口：

import org.apache.hadoop.io.WritableComparable;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

public class TemperatureWritable implements WritableComparable<TemperatureWritable> {

    private int year;
    private int month;
    private int day;
    private int temperature;

    public TemperatureWritable() {
    }

    public TemperatureWritable(int year, int month, int day, int temperature) {
        this.year = year;
        this.month = month;
        this.day = day;
        this.temperature = temperature;
    }

    // Getter 和 Setter 方法 (省略)

    @Override
    public void write(DataOutput out) throws IOException {
        out.writeInt(year);
        out.writeInt(month);
        out.writeInt(day);
        out.writeInt(temperature);
    }

    @Override
    public void readFields(DataInput in) throws IOException {
        year = in.readInt();
        month = in.readInt();
        day = in.readInt();
        temperature = in.readInt();
    }

    @Override
    public int compareTo(TemperatureWritable o) {
        // 自定义排序逻辑：按照温度从高到低排序
        if (this.temperature > o.temperature) {
            return -1; // this排在o前面
        } else if (this.temperature < o.temperature) {
            return 1;  // this排在o后面
        } else {
            // 如果温度相同，则按照年份排序
            if (this.year < o.year) {
                return -1;
            } else if (this.year > o.year) {
                return 1;
            } else {
                // 如果年份也相同，则按照月份排序
                if (this.month < o.month) {
                    return -1;
                } else if (this.month > o.month) {
                    return 1;
                } else {
                    // 如果月份也相同，则按照日期排序
                    if (this.day < o.day) {
                        return -1;
                    } else if (this.day > o.day) {
                        return 1;
                    } else {
                        return 0; // 完全相同
                    }
                }
            }
        }
    }

    @Override
    public String toString() {
        return year + "-" + month + "-" + day + " " + temperature;
    }
}

实现write方法：

在write方法中，我们将对象的各个字段序列化到DataOutput流中。注意，序列化的顺序要和反序列化的顺序一致。就像你跳舞的时候，先迈左脚，再迈右脚，别人看你跳舞的时候也要先看你迈左脚，再看你迈右脚，顺序不能乱。

实现readFields方法：

在readFields方法中，我们从DataInput流中反序列化对象的各个字段。顺序要和write方法中序列化的顺序一致。

实现compareTo方法：

这是最关键的方法！在这里，我们定义了自定义的排序逻辑。在上面的例子中，我们首先按照温度从高到低排序。如果温度相同，则按照年份排序，如果年份也相同，则按照月份排序，如果月份也相同，则按照日期排序。

四、如何在MapReduce中使用自定义的WritableComparable？（让舞曲响起！）

现在，我们已经有了自定义的WritableComparable，接下来就要在MapReduce中使用它了。

在Mapper中：

在Mapper中，我们将自定义的WritableComparable作为键输出。例如：

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class TemperatureMapper extends Mapper<LongWritable, Text, TemperatureWritable, IntWritable> {

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString();
        String[] parts = line.split(","); // 假设数据格式为 年,月,日,温度

        try {
            int year = Integer.parseInt(parts[0]);
            int month = Integer.parseInt(parts[1]);
            int day = Integer.parseInt(parts[2]);
            int temperature = Integer.parseInt(parts[3]);

            TemperatureWritable temperatureWritable = new TemperatureWritable(year, month, day, temperature);
            context.write(temperatureWritable, new IntWritable(temperature)); // 键是 TemperatureWritable，值是温度
        } catch (NumberFormatException e) {
            // 处理数据格式错误的情况
            System.err.println("Error parsing line: " + line);
        }
    }
}

在Reducer中：

Reducer的输入键类型必须和Mapper的输出键类型一致，也就是我们的自定义WritableComparable。Reducer会接收到按照我们自定义的排序规则排序后的数据。

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class TemperatureReducer extends Reducer<TemperatureWritable, IntWritable, TemperatureWritable, IntWritable> {

    @Override
    protected void reduce(TemperatureWritable key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        // key 是 TemperatureWritable，已经按照温度排序
        int sum = 0;
        int count = 0;
        for (IntWritable value : values) {
            sum += value.get();
            count++;
        }

        int averageTemperature = sum / count;
        context.write(key, new IntWritable(averageTemperature)); // 输出最高温度的年份和平均温度
    }
}

在Job配置中：

确保你的Job配置中指定了正确的Mapper和Reducer类，以及输入输出的键值类型。

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class TemperatureDriver {

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "Temperature Analysis");

        job.setJarByClass(TemperatureDriver.class);
        job.setMapperClass(TemperatureMapper.class);
        job.setReducerClass(TemperatureReducer.class);

        job.setMapOutputKeyClass(TemperatureWritable.class);
        job.setMapOutputValueClass(IntWritable.class);

        job.setOutputKeyClass(TemperatureWritable.class);
        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

五、WritableComparable的进阶用法（舞步升级！）

二次排序： 如果你想在Reducer中对同一个键下的值进行排序，你可以使用二次排序。这需要你自定义一个Partitioner，将具有相同键的数据分发到同一个Reducer，然后在Reducer中使用一个List来存储这些值，并对List进行排序。
组合键： 如果你想根据多个字段进行排序，你可以创建一个包含多个字段的WritableComparable。在compareTo方法中，你可以按照你想要的优先级比较这些字段。
优化compareTo方法： compareTo方法的性能非常重要，因为它会被频繁地调用。尽量避免在compareTo方法中进行复杂的计算，可以使用一些技巧来提高性能，例如使用缓存，或者使用位运算。

六、常见问题和注意事项（跳舞也要注意安全！）

序列化和反序列化的顺序必须一致。 否则，你可能会得到意想不到的结果。
compareTo方法必须满足传递性。 也就是说，如果a > b 并且 b > c，那么 a > c 必须成立。否则，排序结果可能会出错。
自定义的WritableComparable必须是可变的。 因为Hadoop会重用WritableComparable对象，所以你需要在readFields方法中更新对象的状态。
注意空指针异常。 在compareTo方法中，要处理null值的情况。

七、总结（舞会落幕，收获满满！）

WritableComparable是MapReduce中自定义排序规则的关键。通过实现WritableComparable接口，你可以灵活地控制数据的排序方式，从而满足各种各样的业务需求。掌握WritableComparable，就像掌握了舞会的“排序密码”，你可以让你的数据按照你想要的节奏翩翩起舞💃🕺。

好了，今天的“Hadoop奇妙夜”就到这里。希望大家都能掌握WritableComparable的精髓，在MapReduce的世界里跳出属于自己的精彩！感谢大家的观看，我们下期再见！🎉

发表回复 取消回复

发表回复取消回复