데이터분석가와 관련해서 추천 도서를 찾던 도중 블로그 2곳에서 동시에 추천하는 책이라 도서관에서 빌려 읽어보았다.
이 책은 데이터분석가가 실제 현업에서 흔히 발생하는, 데이터를 오해하면서 일어나는 에피소드를 글로 담은 책이다. 만화로 되어 있기에 매우 쉽게 읽혀 2시간만에 빌리자마자 다 읽었다. 인과관계와 상관관계, A/B 테스트, 조건부 확률 등 빅데이터 시대에 데이터를 활용하는데 필요한 상식들이 재밌게 담겨있다.
데이터 분석가를 취업하는 사람에게도 실제 현업에서 어떤 에피소드로 데이터 분석가들이 다른 업무 사람들과 커뮤니케이션에 오해가 생기는지 알 수 있으며, 챕터마다 통계 용어에 대해 알아야 할 내용이 글로 담겨 있고 사전으로도 제공되어 가볍게 읽어보기 좋은 책이다.
가장 의미있던 챕터는 Ch1이었던 상관관계와 인과관계이다. 추천 도서를 찾던 중, 브런치라는 사이트에서 현업 데이터분석가의 회고록이 담겨있는 작가를 찾았는데 당시 상관관계와 인과관계에 대해 글을 재밌게 읽었다. 근데, 추천 도서를 고르고 첫 장부터 그 내용이 담겨있어 매우 놀랐다..ㅎ 실제 데이터분석가 질문에서 상관관계와 인과관계의 차이에 대해서 많이 물어보며, 통계의 제1원칙이라고도 할 만큼 중요한 내용에 대해서 쉽게 재밌고 확실하게 알려주었다. 개인적으로 종속변수에 영향을 미치는 변수들을 파악할 때, 상관분석을 많이하는데 그때마다 인과관계처럼 오해하진 않았는지 다시 한번 반성하였다.
<p24~25>
"현실의 많은 일은 여러 요인이 복잡하게 얽혀 발생한다. 간혹 '나비효과'라고 '나비 한 마리의 날갯짓이 지구 반대편에서 태풍을 일으킬 수 있다'라고 이야기하지만, 나비의 날갯지만으로 태풍이 일어날까? 그렇지 않다. (중략) 실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태처럼 원인과 결과가 명확한 것을 '인과관계'라고 한다. (중략) 상관관계는 얼마나 상호 의존적인지를 의미한다. 이를 파악하는 방법은 한 변수가 증가하면 다른 변수가 따라 증가하거나 감소하되 그 추이를 따르는 식이다. 이를 숫자로 표현하는 것이 상관계수다."
별개로, 도서관에서 데이터 분석이란 키워드로 도서를 훑어보던중 재밌어보이는 책도 하나 찾았는데 알고보니 위의 도서와 같은 저자였던 사실.. 그 책도 다음에 읽고 후기로 작성해볼 예정이다.