[DV자료] 그래프에 두 개의 Y축을 사용하면 안되는 이유와 대안

2022. 4. 16. 11:38디자인 자료: UX UI (번역)

"https://blog.datawrapper.de/dualaxis/" 를 번역한 글입니다.


요약

두 개의 서로 다른 y축이 있는 차트는 대부분의 사람들이 두 개의 데이터 계열에 대해 직관적으로 올바른 설명을 하기 어렵게 만든다고 생각합니다. 두 가지 대안을 강력하게 권장합니다. 하나가 아닌 두 개의 차트를 사용하고 인덱스 차트를 사용하는 것입니다.

 

때때로 우리는 데이터 시각화 도구 Datawrapper 에서 두 개의 다른 y축(이중 Y 차트, 이중 축 차트, 이중 스케일 데이터 차트 또는 중첩 차트라고도 함)이 있는 차트를 생성할 수 있는지 묻는 이메일을 받습니다. 그것은 아닙니다 – 그리고 우리는 그것을 추가하지 않을 것입니다. 그것이 우리 사용자의 삶을 힘들게 했다면 미안하지만 우리는 이중 축 차트를 반대 하는 많은 차트 전문가의 의견에 동의합니다. 우리는 당신이 우리의 목소리를 듣기를 바랍니다.

사람들이 이중 축 차트를 사용하려는 상황을 먼저 살펴본 다음 문제를 설명하고 다음 4가지 대안을 살펴보겠습니다.

 

사람들이 이중 축 차트를 사용하는 이유

사람들이 이중 축 차트를 사용하는 이유는 무엇입니까? 우리는 주위를 둘러보고 대부분의 사람들이 그것을 보여주기 위해 사용한다는 것을 발견했습니다.

 

1 ... 측정값은 동일하지만 크기가 다른 두 개의 데이터 시리즈

예를 들어 한 축에는 글로벌 GDP, 다른 축에는 독일 GDP:

 

2 … 어떤 것의 상대값과 절대값을 보여주는 두 개의 데이터 시리즈 

예를 들어 한 축은 1인당 GDP, 다른 축은 절대 GDP:

 

3 ...완전히 다른 값에 대한 두 개의 데이터 시리즈 

예를 들어 한 축에는 국가의 GDP가 표시되고 다른 축에는 해당 국가의 기대 수명이 표시됩니다.

 

4 ... 하나의 데이터 시리즈이지만 y축은 다른 축척 을 보여줍니다.

예를 들어 한 축에는 화씨 값, 다른 축에는 섭씨 값을 표시합니다.

보시다시피 이중 축 차트는  크기(=숫자 범위) 및/또는 측정값(GDP, 기대 수명 등) 이 다른 두 개의 서로 다른 데이터 시리즈를 표시하는 데 자주 사용됩니다 . 종종 그들의 목표는  두 경향을 서로 비교 하는 것입니다 . 독자들에게 그렇게 할 수 있는 가능성을 제공하는 것은 많은 의미가 있습니다. 그러나 이중 축 차트가 적합하지 않은 몇 가지 이유가 있습니다. 실제로 이 4가지 사용 사례 중 마지막 이중 축 차트만 두 번째 데이터 시리즈가 아닌 대체 척도를 표시하기 위해 두 번째 Y축만 사용하기 때문에 의심의 여지 없이 마지막 이중 축 차트만 사용할 수 있다고 생각합니다.

대안을 생각하기 전에 이중 축 차트의 문제점을 살펴보겠습니다.

 

 

이중 축 차트의 문제

간단히 말해서 문제는 다음과 같습니다.  이중 축 차트의 눈금은 임의적이므로 두 데이터 계열 간의 관계에 대해 독자를 (의도적으로) 오도할 수 있습니다.

 2004년에서 2016년 사이에 독일 GDP와 세계 GDP에 대한 실제  Worldbank 데이터를 사용하여 다음을 설명하겠습니다.

이 차트에는 두 개의 서로 다른 y축이 있습니다. 왼쪽 축은 40조 달러에서 80조 달러 범위의 글로벌 GDP를 보여줍니다. 오른쪽 축은 2조 5000억 달러에서 4조 달러 사이의 독일 GDP를 보여줍니다. 측정값(US-Dollar)은 동일하지만 크기가 크게 다릅니다. 두 번째 축은 좋은 솔루션처럼 보이지만 세 가지 문제가 있습니다.

 

다른 높이에서 기준선이 0이면 오도될 수 있습니다.

이중 축 차트에서 두 척도의 비율은 종종 서로 다릅니다. 왼쪽 축이 0으로 내려가면 차트 길이가 두 배입니다. 오른쪽 축이 0으로 내려가면 차트 길이가 거의 3배가 됩니다. 다음은 두 축을 0으로 확장했을 때의 모습입니다.

 

따라서  차트는  독일 GDP와 세계 GDP가 거의 같은 비율로(적어도 2014년까지) 상승하는 것처럼 보이지만 그렇지 않습니다. 2014년까지 세계 GDP는 80% 증가했습니다. 독일 GDP 40% 증가.

대부분의 독자는 척도가 하나뿐인 꺾은선형 차트에 익숙합니다. 그래서 그들이 두 개의 척도가 있는 꺾은선형 차트를 볼 때 그들의 직관은 정상적인 "나는 꺾은선형 차트를 읽는 방법입니다" 모드로 들어갑니다. "오, 두 개의 선, 멋지다, 같은 비율, 흥미롭다" 독자들은 이 두 선이 꺾은선형 차트에서 보던 것보다 더 적은 관계를 가지고 있음을 스스로에게 적극적으로 상기시켜야 합니다.

그렇다면 이 두 선 사이의 관계는 얼마나 작습니까? 미쳐 보자. 정말 중요한 것은 없겠죠?  스케일을 약간만 조정하면 두 데이터 세트로 모든 종류의 진술 을 할 수 있습니다  .

하지만 그건 우리가 해결할 수 있는 문제죠, 그렇죠? 0 기준선을 같은 높이로 설정할 수 있습니다. 제외하고:

 

같은 높이에서 기준선이 0일지라도 오해의 소지가 있습니다.

이것은 동일한 기준선에서 차트가 어떻게 보이는지 보여줍니다. (즉, 두 y축을 모두 0으로 확장하면 높이가 같습니다.) 최상의 경우 독자는 이제 "글로벌 GDP가 독일 GDP보다 더 많이 증가한 것 같습니다"라고 생각할 것입니다. 예! 성공! 단, 최악의 경우 독자들은 다음과 같이 생각할 것입니다. “처음 몇 년 동안 독일 GDP는 세계 GDP보다 높았습니다. 그리고 2011년에는 두 GDP가 동일했습니다.”

 

왜 그렇게 생각할까요? 인간은 사물이 가까이 있으면 관계를 맺는 경향이 있기 때문에  이 관계는 사물에서 보는 의미의 큰 부분을 차지합니다. 데이터 포인트와 데이터 시리즈도 이 규칙의 예외는 아닙니다. 우리는 자동으로 선과 점을 서로 비교합니다. 그리고 다른 척도가 관련되어 있다는 것을 기억하기 어렵습니다. 차트에서 사물이 가깝게 보인다면 실제로는 몇 마일 떨어져 있다는 사실을 지속적으로 기억하기 어렵습니다.

그들은 단지 읽기 어렵다

"하." "독자들은 그냥 자세히 봐야 합니다. 이 차트를 잠시 쳐다보고 모든 것을 알아냈습니다.” 글쎄, 당신을 위해 좋은. 그러나 대부분의 독자는 머리로 수학을 하는 것을 좋아하지 않습니다. (어느 쪽도 괜찮습니다: 우리의 일은 그들을 위해 수학을 하는 것입니다.)

2011년 의 한  연구는  그 주장을 뒷받침합니다. Petra Isenberg, Anastasia Bezerianos, Pierre Dragicevic 및 Jean-Daniel Fekete는 15명에게 모두 다른 크기의 값을 보여주는 4개의 다른 차트를 보여주고 이 사람들이 차트를 얼마나 잘 읽을 수 있는지 관찰했습니다. 그 중 하나는 연구원들이 "중첩 차트"라고 부르는 이중 축이 있는 차트였습니다. 그들이 알아낸 것은 다음과 같습니다.

 

우리는 중첩된 차트가 정확도와 시간 면에서 모두 저조한 성능을 보인다는 것을 전반적으로 발견했습니다. 설문지에서 참가자들의 피드백은 중첩된 차트와 명확하게 대조되었으며 참가자 한 명을 제외하고 모두 가장 낮은 순위를 기록했습니다. 참가자들은 두 스케일의 비단조적이고 불연속적인 특성을 해독하기 위해 매우 혼란스럽고 너무 많은 집중이나 반성을 요구한다고 말했습니다. 

– 이중 척도 데이터 차트에 관한 연구

 

연구원들은 계속해서 이중 축 차트를 완전히 피하도록 권장합니다. 우리는 동의한다. 이중 축 차트의 위험성은 직관적이지 않다는 점을 여기서 보여주려고 했습니다. 차트 디자이너는 원하는 대로 축을 자유롭게 조작할 수 있으며, 이는 데이터가 실제로 말하는 것과는 다른 첫 번째 시각적 인상으로 이어질 수 있습니다.

 

대안

그러나 희망이 있습니다! 대안이 있습니다. 여기에서는 그 중 네 가지를 제시할 것입니다. 두 개의 차트 생성, 인덱스 차트, 레이블 지정 및 연결된 산점도.

해결 방법 1: 나란히 있는 차트

문제가 두 줄이 너무 가깝기 때문에 의미를 만드는 것이라면 분리합시다! 첫 번째 솔루션은 병렬 차트라고도 하는 두 개의 데이터 시리즈로 두 개의 다른 차트를 만드는 것입니다. 이점은 이중 축 차트와 마찬가지로 병렬 차트  는 숫자가 얼마나 다른지 신경 쓰지 않는다는 것 입니다. 두 개의 다른 차트에 대해 두 개의 다른 축을 만들 수 있습니다. 단점은 두 개의 차트에 하나의 차트보다 더 많은 공간이 필요할 수 있다는 것입니다.

 

솔루션 2: 인덱스 차트

두 데이터 시리즈를 하나의 차트에 유지하려는 경우 인덱스 차트를 만들 수 있습니다. 절대 숫자에 대해서는 아무 것도 알려주지 않지만  시간 경과에 따른 데이터 시리즈의 상대적 변화를 보여주는 차트입니다 .   시간이 지남에 따라 변수가 증가하거나 감소한 비율 입니다. 레이블 또는 도구 설명은 절대 숫자에 대한 정보를 다시 가져올 수 있습니다.  그리고 내 동료인 Gregor가 이 차트 에서 여러 암호화폐의 성장과 하락을 서로 비교한 것처럼 동일한 차트에 두 개 이상의 데이터 시리즈를 표시할 수도 있습니다  .
그러나 이 접근 방식은 변화율이 유사한 데이터 계열에만 적용됩니다. Cole Nussbaumer Knaflic은  그녀의 기사 중 하나 에서 그 점을 아주 잘 설명합니다.: 데이터 계열 중 하나가 +10000% 변경되고 다른 하나가 +5%만 변경되면 후자의 라인은 거의 보이지 않게 됩니다.

 

 

솔루션 3: 우선 순위 지정 및 레이블 지정

이중 축을 방지하는 세 번째 아이디어는 한 줄만 표시하는 것입니다. 두 줄 중 더 중요한 데이터 계열입니다. 그런 다음 차트 주석을 사용하여 생략한 데이터(다른 데이터 시리즈)에 대한 정보를 추가할 수 있습니다. 이것은  Cole Nussbaumer Knaflic의 권장 사항 이기도 합니다 . 그녀는 그것을 "내가 상상했던 웅변적인 솔루션이 아니다"라고 말했습니다. 실제로, 이 솔루션은 대부분의 데이터(당사 데이터 포함)에 대해 잘 작동하지 않지만  동일한 측정값의 절대 및 상대 숫자를 표시하는 이중 축 차트에 대한 훌륭한 대안이 될 수 있습니다 . 예를 들어, 다음 차트는 미국의 실업률을 보여  주지만  절대 수치에 대한 정보는 주석 형식으로 제공합니다.

 

 

 

솔루션 4: 연결된 산점도

여기에서 멋집니다. 연결된 산점도는 y축에 하나의 변수를 유지하지만 시간 대신 x축에 두 번째 변수를 배치합니다. 갑자기, 시간은 왼쪽에서 오른쪽으로 이동하지 않고 공간을 통해 흔들립니다. 정말 직관적이지 않지만 [2]  재미도 있습니다. Stephanie Evergreen 은 그녀의 기사 중 하나에서 이 차트를 이중 축 차트의 대안으로 권장합니다 . 우리의 경우 연결된 산점도가 과도할 수 있습니다. 그러나 통찰력을 보여주는 데 가장 적합한 차트 유형인 경우를 보았습니다 .

 

여기에서 보여주는 네 가지 대안 중 처음 두 가지가 대부분의 경우에 유용할 것입니다.