도서출판 황소걸음 > 아카데미 > R 데이터 시각화 쉽게 배우기 - ggplot2, lessR을 중심으로

R 데이터 시각화 쉽게 배우기 - ggplot2, lessR을 중심으로
R 데이터 시각화 쉽게 배우기 - ggplot2, lessR을 중심으로
글쓴이 : 황소걸음   날짜 : 23-03-29 14:13  
조회 : 502



제  목 : R 데이터 시각화 쉽게 배우기 - ggplot2, lessR을 중심으로
원  서 : R Visualizations : Derive Meaning from Data
지은이 : David W. Gerbing
옮긴이 : 오승교
쪽  수 : 304쪽
판  형 : 46배판 (188*257)
책  값 : 20,000원
펴낸날 : 2022년 12월 28일
펴낸곳 : 황소걸음 아카데미

ISBN  : 979-11-86821-80-0   93310


1. 책 소개

- 선도적인 시각화 체계, ggplot2의 철저한 적용 범위 제시
- ggplot2가 제공하는 것과 동일한 품질의 시각화를 구현하기 위해 기본 R 그래픽 사용
- 광범위한 데이터 시각화를 생성하는 방법: 범주형, 연속형, 시계열, 공간 데이터 분포에 대한 다양한 유형의 산점도, 시계열 그리고 지도 등
- 시스템이 아닌 주제별로 구성된 R 그래픽에 대한 다양한 접근 방식 포함 
- R을 이용한 대화형 시각화에 관한 최근 연구 제시

통계적으로 데이터를 분석할 뿐 아니라 데이터 시각화를 통해 데이터로부터 의미를 도출하는 R 프로그래밍 언어의 기능을 독자들에게 소개할 목적으로 이 책의 만들었다. 다른 그래픽 시스템, 예를 들어, 데이터 시각화용 패키지로서 지금까지 최고의 인기를 누리고 있는 ggplot2 패키지보다 훌륭한 능력을 발휘하는, 2022년 개발된 lessR 그래픽 시스템을 소개하고자 하였다. ggplot2 등과 같은 다른 그래픽 시스템보다 매우 적고 단순한 코딩으로, 보다 매력적인 데이터 시각화를 구현할 뿐 아니라, 동시에 데이터를 통계적으로 분석한다는 것이 lessR 그래픽 시스템의 장점이다. 이 책 전반에 걸쳐 ggplot2 그리고 lessR 패키지 모두에서 구현된 데이터 시각화 결과를 비교하면서, 데이터 시각화의 다양한 확장성을 보여줄 것이다.



2. 출판사 서평

최근, 유망 미래기술에 대한 대부분의 조사 결과를 바탕으로, 4차 산업혁명의 한 축을 이루는 데이터 과학 분야로 범위를 좁히면 데이터 분석, 시각화 및 모델링 등을 처리하는 R 프로그래밍이 두각을 보이고 있는 것을 알 수 있다.
정보 기술의 발전과 더불어 생활 방식의 변화로 분석이 필요한 데이터의 양이 급격하게 증가하고, 데이터 유형도 매우 다양해지면서 기존의 도구만으로 데이터 분석 및 데이터 시각화를 실현하는데 어려움이 있었으나, R과 같은 해석적 프로그램 언어가 적합한 해결책이 되어 다행스럽게 생각한다. 특히, 데이터 분석가와 생물정보학자에게 매력적인 인기를 얻고 있는 R은 오픈소스 컴퓨팅 패키지이기 때문에, 쉽게 구할 수 있으며 사용하기에 매우 경제적이라는 점을 주목할 만 하다. 게다가 사용자가 더욱 쉽게 직관적으로 R 프로그래밍 언어를 코딩할 수 있는 통합개발환경(Integrated Development Environment)을 제공하는 RStudio를 활용하면, 마크다운(Markdown), 샤이니(Shiny), 콰토(Quarto), 그리고 스위브(Sweave) 등의 프로젝트를 통해 다양한 확장 기능들을 구현할 수 있는 장점이 있다.
통계적으로 데이터를 분석할 뿐 아니라 데이터 시각화를 통해 데이터로부터 의미를 도출하는 R 프로그래밍 언어의 기능을 독자들에게 소개할 목적으로 이 책의 번역을 기획하게 되었다. 다른 그래픽 시스템, 예를 들어, 데이터 시각화용 패키지로서 지금까지 최고의 인기를 누리고 있는 ggplot2 패키지보다 훌륭한 능력을 발휘하는, 2022년 개발된 lessR 그래픽 시스템을 소개하고자 하였다. ggplot2 등과 같은 다른 그래픽 시스템보다 매우 적고 단순한 코딩으로, 보다 매력적인 데이터 시각화를 구현할 뿐 아니라, 동시에 데이터를 통계적으로 분석한다는 것이 lessR 그래픽 시스템의 장점이다. 이 책 전반에 걸쳐 ggplot2 그리고 lessR 패키지 모두에서 구현된 데이터 시각화 결과를 비교하면서, 데이터 시각화의 다양한 확장성을 보여줄 것이다.

이 책은 R 언어를 처음 접하는 초보자 또는 어떠한 프로그래밍 경험이나 데이터 분석 지식을 갖지 못한 독자를 대상으로 하며, 독자가 데이터 시각화 또는 데이터 분석을 추구하는 데이터 과학자가 되고자 할 때 훌륭한 안내서가 될 것이다. 1장과 2장에서는 데이터 시각화 시스템을 정의하고, 빠르게 시각화하는 방법을 터득할 것이다. 그리고 변수의 유형에 따라 범주형 변수의 시각화(3장), 연속형 변수의 시각화(4장), 두 연속형 변수 관계 시각화(5장), 다중 범주형 변수 시각화(6장), 시간 경과에 따른 시각화(7장), 그리고 지도 및 네트워크 시각화(8장)를 배우며, 9장에서 샤이니 앱을 통한 대화형 시각화를 구현하는 방법을 다루며, 10장에서 고급스러운 데이터 시각화를 실현하기 위하여 사용자 지정 데이터 시각화를 배우게 된다.

본 책이 데이터 분석 및 데이터 시각화를 배우려는 독자들에게 조금이라도 도움이 되었으면 한다. 


3. 지은이

David W. Gerbing 
David W. Gerbing은 1979년 미시건 주립대학에서 정량분석학 박사학위를 받았으며, 현재는 미국 포트랜드 주립 대학의 경영학부 정량분석학과 교수로 재직하고 있다. 정량적 방법에 중점을 둔 사회 과학 및 행동 과학 분야에서 광범위하게 도서들을 출간했다. 그의 연구 관심사에는 정량분석, 다변량 통계량, 그리고 행동 측정 및 평가 등이 있다. 현재 그의 주된 관심사는, 프로그래머가 아닌 사람들이 너무 비싼 학습 비용 없이 무료 오픈 소스 데이터 분석 시스템에 접근할 수 있도록, 데이터 과학을 위한 R 프로그래밍 언어의 접근성을 높이는 것이다. 그의 lessR 패키지는 2009년부터 개발 중이다.

4. 옮긴이
 
오승교
중앙대학교에서 공과대학 화학공학과전공 학사 학위를 취득하였고, 미국 사우스플로리다대학교에서 화학공학전공 공학석사와 공학박사 학위를 취득했다. 1993년부터 건양대학교 화학공학과 교수로 근무하였으며, 2012년부터 지금까지 제약생명공학과 교수로 근무하고 있다.
25년 이상 물리화학, 열역학, 플랜트디자인 등을 강의하면서 대부분의 공학전공 학생들이 수학 문제 해결 능력의 부족으로 강의에 대한 이해가 떨어지는 것에 안타까움을 느끼고 이에 도움이 되고자 공학용 전문 서적의 집필 및 번역 등 다양한 활동을 하고 있다.
《R과 함께 하는 수치해석》(한나래출판사, 2019)을 집필하였으며, 번역한 도서로는 《약학수학》(신일북스, 2014), 《화학수학》(사이플러스, 2016), 《약학열역학》(신일북스, 2017), 《R 통계 프로그래밍 교과서》(황소걸음, 2020), 《RStudio IDE 쉽게 배우기》(황소걸음, 2021)가 있다. 
공학과 수학은 별개가 아니라 함께 어울릴 때 참다운 진리를 파악할 수 있다는 신념을 가지고 있으며, 의료관련 공학 전공자를 대상으로 생물정보학 데이터 분석 및 개발을 위한 R 및 파이썬 프로그래밍 개발을 진행하고 있다.

5. 차례

자자 서문
역자 서문

1장  데이터 시각화 

1.1 소개
  1.1.1 데이터 시각화와 분석
  1.1.2 데이터 시각화용 오픈 소스 소프트웨어
1.2 데이터
  1.2.1 R 객체
  1.2.2 예제 데이터: Employee
  1.2.3 변수 유형
  1.2.4 데이터 읽어오기
  1.2.5 변수 레이블
  1.2.6 팩터 유형의 범주형 변수
  1.2.7 데이터 프레임 저장하기

2장  빠르게 데이터 시각화하기 

2.1 시각화 시스템
  2.1.1 ggplot2 및 lessR 패키지의 상대적 이점
  2.1.2 그레이스케일 시각화
2.2 범주형 변수 분포
  2.2.1 단일변수 막대 그래프
  2.2.2 다중변수 막대 그래프
2.3 연속형 변수 분포
  2.3.1 기본 히스토그램
  2.3.2 히스토그램 외 
2.4 두 변수 사이의 관계
  2.4.1 기본 산점도
  2.4.2 향상된 산점도
2.5 시간 경과에 따른 데이터 분포
  2.5.1 시계열
  2.5.2 다중 시계열

3장  범주형 변수 시각화 

3.1 막대 그래프, 점 도표, 버블 차트
  3.1.1 수평 막대 그래프
  3.1.2 Cleveland 점 도표
  3.1.3 버블 차트
  3.1.4 비율 표시
3.2 단일 패널에 다중 변수 시각화
3.3 수치 값 제공
  3.3.1 개별 데이터 값의 막대 그래프
  3.3.2 긴 이름의 수직 레이블
  3.3.3 개별 데이터 값의 클리블랜드 점 도표
  3.3.4 범주형 변수별 평균 시각화
3.4 막대 채우기 색을 활용한 정보 전달
  3.4.1 평균 편차 값에 따라 두 갈래로 나뉜 막대 채우기 색
  3.4.2 순서형 변수의 막대 그래프
  3.4.3 사용자 지정 막대 채우기 색
3.5 저장된 출력에서 보고서 작성
3.6 부분과 전체의 관계 시각화
  3.6.1 도넛 차트 및 파이 차트
  3.6.2 와플 차트
  3.6.3 트리맵

4장  연속형 변수 시각화

4.1 히스토그램
  4.1.1 인접 구간에 연속형 변수 배치
  4.1.2 다양한 형태의 히스토그램
  4.1.3 누적 히스토그램
  4.1.4 도수 다각형
4.2 밀도 플롯
  4.2.1 개선된 밀도 플롯
  4.2.2 중첩 밀도 곡선
  4.2.3 러그 플롯
  4.2.4 바이올린 플롯
4.3 박스 플롯
  4.3.1 표준 박스 플롯
  4.3.2 비대칭 박스 플롯
4.4 단일변수 산점도
4.5 통합 바이올린 플롯(V)/박스 플롯(B)/산점도(S)
  4.5.1 VBS 플롯
  4.5.2 리커트 데이터의 VBS 플롯
  4.5.3 트렐리스 플롯 또는 부분도(Facets)
4.6 파레토 차트

5장  두 연속형 변수 관계 시각화

5.1 개선된 산점도
  5.1.1 산점도에 타원 추가
  5.1.2 산점도에 최적선 추가
  5.1.3 주석
5.2 세 번째 변수 매핑
  5.2.1 군집변수 데이터를 미학으로 매핑
  5.2.2 트렐리스 산점도 (부분도)
  5.2.3 시각적 미학으로 3번째 연속형 변수 매핑
  5.2.4 동일 패널에 다중변수 시각화
5.3 변수 집합의 상호 관계
  5.3.1 산점도 행렬
  5.3.2 상관 행렬의 히트맵
5.4 대용량 데이터 세트에 대한 산점도
  5.4.1 평활 산점도
  5.4.2 등고선 산점도와 육각-빈 산점도

6장  다중 범주형 변수 시각화

6.1 두 범주형 변수
  6.1.1 누적 2-변수 막대 그래프
  6.1.2 분할 2-변수 막대 그래프
  6.1.3 트렐리스 플롯 또는 부분도
6.2 다른 유형의 2-변수 막대 그래프
  6.2.1 정렬된 2-변수 막대 그래프
  6.2.2 수평 막대 그래프
  6.2.3 상단에 범례가 있는 막대 그래프
  6.2.4 100% 누적 막대 그래프
  6.2.5 두 범주형 변수에 대한 평균의 막대 그래프
  6.2.6 2-변수 클리브랜드 점 도표
  6.2.7 대응표본 t -검정 시각화
6.3 모자이크 플롯 및 연관도
  6.3.1 모자이크 플롯
  6.3.2 독립성과 피어슨 잔차
  6.3.3 연관도

7장  시간 경과에 따른 데이터 시각화

7.1 런 차트와 관리도
  7.1.1 런 차트
  7.1.2 관리도
7.2 시계열
  7.2.1 채워진 영역 시계열
  7.2.2 누적 다중 시계열
  7.2.3 포맷된 다중 패널 시계열
  7.2.4 날짜 변수를 위한 데이터 준비
7.3 예측
  7.3.1 시계열 객체
  7.3.2 계절/추세/순환 패턴 분해
  7.3.3 예측 생성

8장  지도 및 네트워크 시각화

8.1 지도 시각화
  8.1.1 세계 지도
  8.1.2 래스터 이미지
  8.1.3 온라인 지오코드 데이터베이스
  8.1.4 도시가 표시된 국가 지도
  8.1.5 등치 지역도
8.2 네트워크 시각화
  8.2.1 네트워크 데이터
  8.2.2 시각화
  8.2.3 네트워크 분석

9장 대화형 시각화

9.1 샤이니를 이용한 대화형 시각화
  9.1.1 정적 시각화 대 대화형 시각화
  9.1.2 샤이니 개요
9.2 샤이니 앱 실행
  9.2.1 RStudio 내에서 샤이니
  9.2.2 샤이니 앱 웹에 출판

10장 사용자 지정 시각화

10.1 색상 참조
  10.1.1 색상 묘사
  10.1.2 매개변수: fill과 color
10.2 팔레트
  10.2.1 정성 팔레트
  10.2.2 순차 팔레트
  10.2.3 발산 팔레트
10.3 테마
  10.3.1 영구 테마
  10.3.2 현재 시각화에 적용된 테마
10.4 사용자 지정 개별 특성
  10.4.1 개별 특성 목록
  10.4.2 사용자 지정 단일 분석
  10.4.3 영구 테마 갱신 및 저장
  10.4.4 사용자 지정 여백응용