Java8-Lambda编程[2] Colloctor接口

Collector，意为收集器。上一节提到Stream类的一个及时求值方法collect就是以Collector对象为参数的，它会根据传入的Collector对象返回一个收集类。collect方法还有一种三参数形式，与reduce方法的该形式一样涉及并行知识，我们将留到下一节再进行讨论。Collector是一个泛型接口，含有三个泛型参数，我们暂不深究它的原理，直接使用_java.util.stream_包中为我们准备好的Collectors工具类来获取Collector对象，以调用collect方法。由于在Java8之前接口不允许有静态方法，所以要用的东西都放在了辅助类Collectors中，它为我们提供了三个获取Collector对象的静态方法，即给出了三种实现方式，分别是toList、toSet、toCollection方法。toList与toSet没有参数，会自动选择合适的List与Set的实现方案，而toCollection则需要用户提供一个Supplier对象来选取生成收集类的方案。讲得有些晦涩，还是直接来看代码吧：

    List<String> strings= Arrays.asList("aa","ab","dd","zz","ff","ar");
    //收集为列表
    List<String> list=strings.stream()
            .collect(Collectors.toList());
    //收集为集合
    Set set=strings.stream()
            .collect(Collectors.toSet());
    //收集为收集 具体类型为TreeSet
    Collection collection=strings.stream()
            .collect(Collectors.toCollection(TreeSet::new));
    //输出
    System.out.println(list);//[aa, ab, dd, zz, ff, ar]
    System.out.println(set);//[aa, dd, zz, ff, ab, ar]
    System.out.println(collection);//[aa, ab, ar, dd, ff, zz]

三个方法的转换结果顺序各不相同，toList方法转换后的是一个ArrayList对象，顺序同产生流的List对象完全一致，而后两个方法分别转换为HashSet、TreeSet。前两个方法对于收集类的实现方式由系统为我们优选，而toCollection方法则要求我们自力更生，选取合适的实现。collect方法除了能将流收集为收集类，收集为映射也不是不可以，只是要传入两个Function对象来确定键与值的生成方式，后面还有两个参数是可选的，分别决定映射的混合方式（BinaryOperator对象）与Map接口的具体实现（Supplier对象）。下面是一个例子：

    List<String> strings= Arrays.asList("a11","b22","c33","d44","f55");
    Stream<String> stream = strings.stream();
    Map<String, String> map =
            stream.collect(toMap(s -> s.substring(0, 1), s -> s.substring(1)));
    System.out.println(map);//{a=11, b=22, c=33, d=44, f=55}

这里我们按照首字符将流映射为一个HashMap（默认实现），要注意生成流的列表中不可以有首字符相同的字符串，否则会抛出异常提示键值重复。我们可以通过添加第三个参数的方式来解决这个问题：

        List<String> strings = Arrays.asList("a11", "a22", "a33", "d44", "f55");
        Stream<String> stream = strings.stream();
        Map<String, String> map =
                stream.collect(toMap(
                        s -> s.substring(0, 1),
                        s -> s.substring(1),
                        (s1, s2) -> s1 + "-" + s2));
        System.out.println(map);//{a=11-22-33, d=44, f=55}

除了简单的收集操作，collect方法还实现更为高级的功能，用于对收集后的对象进行分组与统计等操作。例如下面的代码：

    List<String> list=Arrays.asList("aa", "ab", "dd", "zz", "ff", "ar");
    Set<String> strings = list.stream().collect(Collectors.toSet());
    Stream<String> stream = strings.stream();
    //按照条件分裂为两个列表的映射
    Map<Boolean,List<String>> part
            =stream.collect(Collectors.partitioningBy(s->s.startsWith("a")));
    stream=strings.stream();
    //按照条件分组为多个列表的映射
    Map<String,List<String>> group=
            stream.collect(Collectors.groupingBy(s->s.substring(0,1)));
    //按照预设的格式连接成字符串
    stream=strings.stream();
    String str=stream.collect(Collectors.joining("-","{","}"));
    //输出
    System.out.println(part);//{false=[dd, zz, ff], true=[aa, ab, ar]}
    System.out.println(group);//{a=[aa, ab, ar], d=[dd], f=[ff], z=[zz]}
    System.out.println(str);//{aa-ab-dd-zz-ff-ar}

上述三个方法分别名为partitioningBy、groupingBy、joining，都有一个共同点就是后面带有ing，动感十足。我们一个个来看，partitioningBy方法的作用是根据传入的Lambda表达式（一个Predicate对象）来进行判断，符合条件的元素与不符合条件的元素将会被分裂为两组，分别收集成一个List对象，并按照true和false两个Boolean型的键值映射为一个Map对象。groupingBy方法则是按照Lambda表达式（一个Function对象）的运算结果来对元素进行分组，每组都是一个List对象，并以相应的运算结果为键值映射为一个Map对象。joining方法则更为简单，它按照用户传入的三个参数，将元素连接成一个字符串，三个参数分别用于设置字符串的分隔符、前缀、后缀，也可以省略前后缀，或进一步省略分隔符。

上述三个方法均还有一个可选参数，可以传入一个Collector类型的对象，将收集操作进行函数嵌套形式的级联。这种设计模式有点像装饰器模式，最终返回一个Collector对象给collect方法，来对流中的元素进行特定形式的收集。我们可以利用这点特性将上面三个操作合并到一起：

    Object o=stream.collect(
        Collectors.partitioningBy(s -> s.startsWith("a"),
                Collectors.groupingBy(s -> s.substring(0, 1),
                        Collectors.joining("-", "{", "}")
                )));
    System.out.println(o);
    //{false={d={dd}, f={ff}, z={zz}}, true={a={aa-ab-ar}}}

上述表达式的结果看起来很奇怪，但其实也不怪人家，我们自己的logy其实就写的很奇怪。想要一口气实现上述的三个操作，结果却先对流中的元素进行了分组，然后在把a开头的字符串组与其余字符串组分裂开，最后对true映射的a组字符串进行了连接。流在遍历的时候，具体的函数执行顺序我不敢妄加揣测，所以出了这样的结果令我们不能不小心对待。下面还是来看一个更好的例子吧，为了代码更为简洁，我将Collectors类的静态方法直接引入：

import java.util.stream.Collectors;
import static java.util.stream.Collectors.*;
...
        List<String>strings=Arrays.asList("a1","aa2","aaa3","b1","bb2","cc2","ccc3","d1");
        Stream<String> stream = strings.stream();
        Map<Character,Double> average=stream.collect(
                groupingBy(s -> s.charAt(0),
                        mapping(s->s.concat("cc"),
                                averagingInt(s->s.length())
                        )));
        System.out.println(average);//{a=5.0, b=4.5, c=5.5, d=4.0}

averagingInt方法用来求取平均值，根据Integer类型的样本数产生Double类型的结果数。请注意我的用辞，这里的方法并不是传参返回结果的函数，而是传入操作（Lambda表达式）给此方法返回一个收集器，再将收集器传入collect方法，产生最后得到的收集或映射的值。上面的代码先按照首字符对字符串进行了分组，我们最后返回的Map对象的第一个泛型参数为Character就是在此决定的，然后将每个字符串映射为自身连接上“cc”，最后求出每组串长度的平均数，作为Map对象的第二个参数，即值的类型。注意这里我虽然描述了操作的执行顺序，但是这并不代表着方法调用的顺序，在上面的代码中，如果我交换groupingBy与mapping两个方法的顺序，代码的执行结果并不会改变。对于像我这样的初学者来说，最好不要妄自揣测收集器相关函数的调用顺序，否则可能会写出事与愿违的代码。

类似averagingInt的方法还有averagingLong、averagingDouble、summing族、maxBy、minBy、count、summaring族，分别用于计算平均值、和、最大值、总个数、综合统计量。其中Summaring族方法会产生一个NumSummaryStatistics（Num=Int、Long、Double，意为统计资料）对象，再根据具体的getCount、getMax等方法获取各项统计信息。maxBy、minBy两个方法传入Comparator对象（比较器）产生Optional(可空)对象，如下面的代码：

    Optional<String> max=strings.stream().collect(
             maxBy(Comparator.comparing(String::length)));
    System.out.println(max.get());//aaa3

值得一提，mapping、maxBy、minBy之类的收集器方法与流方法相比起来，显得有些老派，我们可以用相对应的流方法来替换这些收集器方法，尽量往台面上靠。比如xia面的代码，我的编译器（IDEA）就建议我将其替换为map方法改写的形式：

    //改写前
    Optional max=stream.collect(
              mapping(String::trim,//一个没影响的方法 不要在意
               maxBy(Comparator.comparing(String::length))
                    ));
    System.out.println(max.get());
    //改写后
    Optional max=stream
             .map(String::intern)
              .collect(maxBy(Comparator.comparing(String::length)));
    System.out.println(max.get());

除了上述的这些方法，Collectors类还有以下方法：groupingByConcurrent、toConcurrentMap、collectingAndThen，它们的名字都很长，不过不要害怕，因为一般也用不太着。前两个方法看名字就知道和并发相关，我们暂且搁置不谈，collectingAndThen方法用于在收集后进行后续操作，它有两个参数，第一个参数为确定具体收集方式的Collector对象，第二个参数为确定后续操作的Function对象，如:

   //将流收集为列表，并算出列表的容量
   Stream<String> stream = strings.stream();
   stream.collect(collectingAndThen(toList(),o->o.size()));

讲了这么多的函数，一般的操作我们都可以得心应手，如果你还不满足这些功能，想要自己规定一个更为复杂的功能，那么这里还有最后一个方法可供选择——reducing。看名字和Stream的reduce方法很像，只是加上按例ing变得活泼了，它的功能和reduce是一样的，都是对流进行归纳操作。reducing方法有三种重载，必须要有的是一个BinaryOperator类型的参数用来确定具体的合并方式，此参数决定着collect方法最后的返回值。可选的两个参数都要写在它的前面，第一个是归纳后的默认值，第二个是归纳之前要进行的映射操作，让我们直接来看一个例子：

    List<String> strings = Arrays.asList(" aa", " bb", " cc", " dd");
    //一参数
    Stream<String> stream = strings.stream();
    Optional s1=stream.collect(reducing(String::concat));
    //二参数
    stream = strings.stream();
    String s2=stream.collect(reducing("Begin:",String::concat));
    //三参数
    stream = strings.stream();
    String s3=stream.collect(reducing("Begin:",String::trim,String::concat));
    //输出
    System.out.println(s1.get());//aa bb cc dd
    System.out.println(s2);//Begin: aa bb cc dd
    System.out.println(s3);//Begin:aabbccdd

上面的例子中，我们调用了reducing方法的三种重载，其中一参数形式由于缺乏默认值可能会有空操作的风险，所以产生了一个Optional对象。ruducing方法虽然看起来活力满满，但其实这种写法其实也很老派了，完全可以用reduce方法和map方法来代替：

    //一参数
    Stream<String> stream= strings.stream();
    Optional s1= stream.reduce(String::concat);
    //二参数
    stream = strings.stream();
    String s2= stream.reduce("Begin:", String::concat);
    //三参数
    stream = strings.stream();
    String s3= stream.map(String::trim)
            .reduce("Begin:", String::concat);

Collector接口是_java.util.stream_包中唯一名称不带有Stream的接口，它的用途一般也仅限于Stream的collect方法，关于它与Stream族接口的恩怨纠纷，我们以后再细说。