병렬 스트림

컬렉션에 parallelSteram을 호출하면 병렬 스트림이 생성
병렬 스트림이란 각각의 스레드에서 처리할 수 있도록 스트림 요소를 여러 청크로 분할한 스트림으로 멀티코어 프로세서가 각각의 청크를 처리하도록 할당

순차 스트림을 병렬 스트림으로 변환하기

스트림에 parallel 메서드를 호출하면 기존의 함수형 리듀싱 연산이 병렬로 처리된다.

public long parallelSum(long n) {
    return Stream.iterate(1L, i -> i + 1)
        .limit(n)
        .parallel()
        .reduce(0L, Long::sum);
}

순차 스트림에 parallel을 호출해도 스트림 자체에는 변화가 일어나지 않고 내부적으로 이후 연산이 병렬로 수행되야 한다는 Boolean 플래그가 설정된다.
sequential(): 반대로 병렬 스트림을 순차 스트림으로 바꿔준다.
sequential()과 parallel()가 모두 있으면 마지막에 호출된 연산으로 결정된다.

스트림 성능 측정

병렬화를 하면 무조건 성능이 좋아질까?

//기본 반복문
public static long iterativeSum(long n) {
    long result = 0;
    for (long i = 1L; i <= n; i++) {
        result += i;
    }
    return result;
}

//순차
public static long sequentialSum(long n) {
    return Stream.iterate(1L, i -> i + 1).limit(n).reduce(0L, Long::sum);
}

//병렬
public static long parallelSum(long n) {
    return Stream.iterate(1L, i -> i + 1).limit(n).parallel().reduce(0L, Long::sum);
}

위의 예시 코드에서 성능비교를 하면 기본반복 > 순차 스트림 > 병렬 스트림 순으로 성능이 좋게 나왔다.
이런 결과가 나온 이유

반복 결과로 박싱된 객체가 만들어져 숫자를 더하려면 언박싱을 해야함
반복 작업은 병렬로 수행할 수 있는 독립 단위로 나누기 어려움

위의 예시에서 리듀싱 시작 지점에 전체 리스트가 준비되지 않아 스트림을 분할할 수 없어서 순차 스트림과 같은 방식으로 처리되며 스레드 할당의 오버헤드만 증가하였다.

더 특화된 메서드 사용

아래 예제는 병렬 스트림을 사용 시 성능이 올라가는 경우다.

public long parallelRangedSum(long n) {
    return LongStream.rangeClosed(1, n).parallel().reduce(0L, Long::sum);
  }

위의 코드는 특정 범위의 숫자를 이용해야 할 때 사용하였던 LongStream의 경우 기본형을 사용하여 박싱, 언박싱이 일어나지 않는다.
범위가 주어져서 청크로 나누기 쉽다.