30.자본.경제.기업. (독서>책소개)/7.기업경영

데이터를 읽는 사람은 언제나 강하다 (2024)

동방박사님 2024. 11. 15. 06:26
728x90

책소개
“AI 시대를 살아가는 개인에게 데이터 해석 능력은 필수!”

***분석력이 좋아지고 사고가 깊어지는 데이터 사이언스 핵심 개념 지도
***노무라종합연구소 데이터 천재들의 영업 기밀
***AI가 밝히는 세상을 건너는 디지털 인류에게 필요한 새로운 교양

현대 생활에서 데이터가 차지하는 역할이 커지면서 데이터를 해석하고 활용하는 능력은 개인의 경쟁력이 되고 있다. 『데이터를 읽는 사람은 언제나 강하다』는 일본 최고 싱크탱크인 노무라종합연구소 데이터사이언스랩 연구원들이 인공지능(AI) 시대를 살아가는 개인에게 필요한 데이터 사이언스 핵심 개념을 세 페이지 분량의 간명한 설명과 직관적인 그래픽으로 풀어낸 책이다. “평균값과 중앙값은 무엇이 다를까?” “AI·머신러닝·딥러닝은 어떤 개념 관계일까?” “자연어 처리와 텍스트 마이닝은 어디에 활용할까?” 저자들은 이처럼 우리가 평소 자주 접하지만 어떻게 사용되는지 정확히 몰랐던 개념을 일목요연하게 펼쳐 보인다. 업무 역량을 키우고자 하는 기업 현장 실무자부터 이 분야를 처음 접하는 일반인까지 객관적이고 합리적인 사고를 원하는 모든 사람을 위한 데이터 사이언스 핵심 개념 지도가 될 것이다.

목차
한국어판 출간에 부쳐
시작하며

1장 일상생활 깊숙이 스며든 데이터 사이언스

데이터 사이언티스트란 | 첨단 정보기술 인재 | 디지털 마케팅 | 배송 경로 최적화 | 다이내믹 프라이싱 | AI 발주 시스템 | 스포츠 데이터 사이언스 | 피플 애널리틱스
Column ? 진화하는 데이터 활용

2장 자주 쓰이는 머신러닝 알고리즘과 통계 개념들

데이터 사이언스 핵심 개념 지도 | 모집단과 표본 | 평균값과 중앙값 | 분산 | 중심극한정리 | 신뢰구간 | 가설 검정 | 상관계수 | 베이즈 통계 | 몬티 홀 문제 | 인과 추론 | AI | 머신러닝 | 딥러닝 | 알고리즘 | 회귀분석 | 다중 공선성 | 회귀분석의 P값 | 로지스틱 회귀 | 결정 트리 | LightGBM | 클러스터링 | k-평균법 | 주성분 분석 | 베이즈 네트워크 | 시계열 분석 | 프로펫 | 자연어 처리 | GPT-3 | 과학습 | 교차 검증 | 자동 머신러닝 | 블랙박스 문제 | 로우코드, 노코드
Column ─ 넓어지는 업무 범위

3장 궁금한 그 현상을 어떻게 데이터로 바꿀 것인가

분석 모형 구축 | 수리 최적화 | 프로그래밍 | 클라우드 활용 | 구매 데이터 분석 | 인과관계 분석 | 텍스트 마이닝 | 의도 파악 | 이미지 인식 | 음성 인식
Column ─ 데이터 사이언티스트의 미래

4장 현실에서 당장 부딪힌 예상 밖 낯선 상황들

데이터 분석은 전처리가 8할 | 지난 2년 데이터로 향후 10년을 예측 | 머신러닝이라 간단히 처리할 수 있다? | 제한적인 분석 환경과의 싸움 | 경영자 기대는 정밀도 99% | 분석 자체가 목적이 된다 | 담당자 직감과 어긋난다고? | 비용 대비 효과가 떨어진다? | 본보기가 될 만한 선배가 없다? | 데이터 분석만 할 뿐이다?
Column ─ 수식의 아름다움

5장 어쩌다 보니 데이터 사이언티스트가 된 사람들

데이터 사이언티스트의 경력 이야기 | 짧은 이야기① 심리학에서 컨설팅으로 | 짧은 이야기② 원치 않던 부서 경험을 살려 | 짧은 이야기③ 수비와 공격의 텍스트 마이닝 | 짧은 이야기④ 모험적 성향이 천직으로 이어져 | 짧은 이야기⑤ 생체 반응 연구와 미래를 읽는 힘 | 짧은 이야기⑥ 취직 후 대학원에서 다시 공부 | 짧은 이야기⑦ 차고 넘치는 데이터를 활용해
Column ─ 의외로 많은 문과 출신

6장 데이터 해석 능력을 키우기 위해 갖추어야 할 자질들

현장 비즈니스를 이해하는 힘 | 전문적인 내용을 알기 쉽게 전달하는 힘 | 최적의 답을 구체적으로 제안하는 힘 | 불확실한 시대를 시뮬레이션하는 힘 | 데이터로 할 수 있는 일을 상상하는 힘 | 따두면 어디든 써먹을 수 있는 자격증
Column ─ AI 시대 새로운 직업을 찾아서

저자 소개 
저 : 노무라종합연구소 데이터사이언스랩 (野村總合硏究所デ-タサイエンスラボ) 
컨설팅 서비스와 정보기술 솔루션을 제공하는 노무라종합연구소에서 전사적으로 데이터 사이언스를 추진하기 위해 설립한 조직이다. 데이터 사이언스와 관련된 노하우의 집약 및 공유, 데이터 사이언티스트의 육성 및 지원, 기초 연구를 통한 수리 모델의 구축, 경제 · 산업 · 사회 · 생활 트렌드의 예측 등 노무라종합연구소에서 수행하는 데이터 사이언스 관련 최신 연구 성과를 적극적으로 대외에 발표하고 있다. 공식 유튜브 채...
펼쳐보기
역 : 전선영 관심작가 알림신청 작가 파일
한국외국어대학교 일본어과를 졸업하고 현재 출판 전문 번역가로 활동 중이다. 번역가로서 모국어가 서로 다른 저자와 독자 사이를 잇는 튼튼한 다리가 되는 것이 소박한 꿈이다. 옮긴 책으로 『10년 더 젊어지는 따뜻한 몸 만들기』, 『빨간색 하이힐을 신는 그 여자 VS 초록색 넥타이를 매는 그 남자』, 『장이 편해야 인생이 편하다』, 『우리 학교가 달라졌어요』,『카리스마 CEO의 함정』, 『일상생활 속에 숨어 있는 수...

책 속으로
스포츠 데이터 사이언스는 선수 개개인의 역량을 극대화할 뿐 아니라 코칭과 육성, 부상 방지와 치료 등에도 유용하다. 그 배경에는 수집할 수 있는 데이터의 종류와 양이 기하급수적으로 늘어나고 있다는 사실이 존재한다. 이를테면 야구에서 투수의 투구 관련 데이터를 보면 예전에는 구속과 구종, 스트라이크존 정도가 데이터로 축적되었다면 지금은 공의 회전수와 회전축, 변화량, 3D로 재현하는 투구 궤도 등에 관한 정보도 얻을 수 있다. 이러한 데이터 수집에는 군사 기술을 응용한 트래킹 시스템이 활용된다. 인간의 감각에 가까운 부분이 데이터로 축적되어 선수 개개인의 연습이나 지도에 사용되는 것이다. 최근에는 신체에 센서를 부착해 특정 부위의 운동 속도와 부하, 가동 영역 등에 관한 수치도 데이터로 수집된다.
--- pp.35-36

전체 국민의 소득이 늘어나고 있는지 논의할 때 자주 거론되는 개념이 소득의 평균값과 중앙값이다. 후생노동성의 국민생활기초조사에 따르면 최근 10년간 일본 가구당 평균 소득은 거의 변화가 없으며 제자리걸음을 계속하고 있다. 주요국과 비교해 일본의 가구당 평균 소득은 성장이 정체되어 큰 문제가 되고 있다. 이 데이터는 어디까지나 ‘평균값’의 추이를 살펴본 것이다. 소득 구간별 분포를 살펴보면 평균값은 약 552만 엔인 데 비해 중앙값은 437만 엔이다. 중앙값은 데이터를 크기순으로 나열할 때 중앙에 오는 값을 의미하는데, 소득의 경우 평균값과 큰 차이가 난다는 사실을 알 수 있다.
--- pp.49-50

AI(Artificial Intelligence, 인공지능) 개념이 가장 넓다고 할 수 있다. AI는 명확한 정의가 없지만 사전적으로 정의된 개념은 ‘인간이 가진 학습 능력, 추론 능력, 지각 능력 등을 컴퓨터 프로그램을 활용하여 인공적으로 실현한 지능’을 의미한다. 이러한 인공적인 지능은 대규모 데이터의 배경에 있는 규칙으로 만들어진다. 이 규칙을 기계(컴퓨터)를 이용하여 발견하는 방법이 머신러닝(machine learning, 기계학습)이다.
기계로 규칙을 발견할 때 규칙의 구조를 컴퓨터에 알려주어야 한다. 기계가 규칙의 구조를 검토할 때 뇌 신경 세포(뉴런)의 네트워크 구조를 바탕으로 하는 개념이 뉴럴 네트워크(neural network, 신경망)다. 뉴럴 네트워크 중에서도 구조를 다층화하여 더 정확한 규칙을 찾아내는 개념이 딥러닝(deep learning, 심층학습)이다. 컴퓨터 등 하드웨어 발달로 다층화가 가능해지면서 모형의 정밀도가 높아졌다.
--- pp.76-77

편의점 아이스크림 매출을 예측하는 다중 회귀 모형을 생각해 보자. 설명 변수로는 방문 고객 수, 기온, 강수량, 강수 시간, 가격, 할인율 등을 고려할 수 있다. 이 중 강수량과 강수 시간, 가격과 할인율은 서로 강한 상관관계가 존재할 가능성이 있다. 강수량이 많은 날은 강수 시간이 길 가능성이 크고, 가격이 높은 상품은 할인율이 낮을(고급품은 할인하지 않을) 확률이 높다. 이처럼 다중 회귀분석에서 설명 변수 중 상관계수가 높은 변수의 조합이 존재하는 경우를 다중 공선성(multicollinearity)이라 한다. 다중 회귀분석의 정밀도를 높이기 위해서는 변수 사이 상관관계를 고려해 시행착오를 거치면서 다중 회귀 모형에 채택할 설명 변수의 다중 공선성을 제거해야 한다.
--- p.92

자연어 처리는 일상적인 대화에서 주로 쓰는 ‘구어’나 신문 기사 등에서 주로 쓰는 ‘문어’ 같은 자연어를 대상으로 그 의미와 구조를 다양한 방법으로 해석하는 기법이다. 텍스트 마이닝(text mining)은 텍스트화된 데이터에서 유익한 정보를 추출하는 기법을 의미한다. 자연어 처리 기법의 하나로 문장을 형태소라는 단어 단위(명사나 동사 같은 품사나 접속사 등)로 분해하고 출현 빈도나 상관관계 등을 분석하여 유익한 정보를 추출한다. 예를 들어 콜센터에서 고객과 상담원이 주고받은 대화 기록이나 홈페이지의 고객 문의 사항은 당시 시장 상황이나 상품에 대한 고객의 생각을 보여준다. 그러한 정보를 통계적으로 분석하고 그래프나 차트로 작성하여 비즈니스 의사 결정에 활용할 수 있다.
--- pp.167-168

데이터 분석은 시행착오의 연속이다. 처음부터 깔끔하게 가설대로 결과가 나오기보다는 분석하고 수정하는 과정이 반복된다. 그러나 머신러닝이라는 말을 들었을 때 구체적인 이해가 없는 사람이라면 으레 기계가 자동으로 학습해 준다고 오해하기도 한다. 데이터 분석 결과는 손쉽게 나온다고 착각하고 분석 과정에서 시행착오를 겪을 시간을 충분히 확보하지 않을 때도 있다. 노무라종합연구소의 사내 설문 조사 결과를 보더라도 데이터 분석 프로젝트에 참여한 사람 중 70% 이상이 ‘모형에서 시행착오를 겪을 시간이 충분히 확보되어 있지 않다’라고 응답했다.
--- pp.189-190

“마케팅 리서치 회사에 취직했대.”
연구실 동기들이 모인 자리에서 한 선배의 진로가 화제가 되었다. 심리상담사나 연구자가 되는 사람이 대부분인 이 연구실에서는 매우 이례적인 일이었다. 처음에는 마케팅과 심리학이 어떻게 연관되는지 이해되지 않았지만 특정 상품이나 서비스의 잠재적 수요를 파악하기 위해 설문 조사를 설계하고 분석하는 것이 주된 업무라는 이야기를 듣고 고개가 끄덕여졌다.
“말하자면 소비자를 프로파일링하는 거로군요.”
히가시야마는 논문을 쓰기 위해 직접 설문 조사를 설계하고, 향후 추세를 예측하기 위해 회귀분석을 하며, 의사 결정 절차를 설명하기 위해 공분산 구조를 분석했다. 그러한 일은 그에게 일상이나 다름없었다. 히가시야마는 가슴이 두근거리기 시작했다.
--- pp.221-222

출판사 리뷰
데이터 사이언스는
AI 시대 새로운 교양이자 최강의 개인 경쟁력

현대 생활에서 데이터가 차지하는 역할이 점점 커지고 있다. AI 기술이 발달하면서 그 근간이 되는 데이터를 가공하고 분석하여 이면에 존재하는 의미를 해석하는 데이터 사이언스에 대한 관심도 급증했다. 자신이 일하고 공부하는 분야에 데이터 사이언스를 접목하고 활용하는 능력은 개인의 경쟁력이 되고 있다. 『데이터를 읽는 사람은 언제나 강하다』는 노무라종합연구소 데이터사이언스랩 연구원들이 AI 시대를 살아가는 개인에게 필요한 데이터 사이언스 핵심 개념을 엄선해 그래픽과 함께 간명한 언어로 풀어낸 책이다. 자주 쓰이는 머신러닝 알고리즘과 통계 개념부터 현실 세계의 문제를 데이터 사이언스의 프레임에 짜맞추어 넣는 법, 기업 현장에서 부딪히는 예상 밖의 낯선 상황에 대처하는 자세, 데이터 언어를 자신 있게 활용하기 위해 갖추어야 할 자질까지 75개의 키워드로 압축해 한 권에 정리했다.

취업이나 이직으로 데이터 사이언티스트가 되고 싶은 사람, 사내 인사이동이나 보직 변경으로 새롭게 데이터 사이언스 업무를 맡게 된 사람은 물론 객관적이고 합리적인 사고를 원하는 모든 사람에게 데이터 사이언스에 관한 체계적인 이해를 가져다주는 핵심 개념 지도가 될 것이다. ‘데이터 사이언스’라고 하면 생경하게 느껴질 수 있으나, 유튜브 추천 알고리즘부터 스포츠 선수 역량 분석, 최적의 택배 배송 경로를 찾는 문제까지 데이터 사이언스는 이미 우리 생활 속 깊숙이 자리하고 있다. 저자들은 점점 더 똑똑해지는 세상에서 모두가 데이터 사이언티스트가 될 필요는 없지만, 적어도 데이터를 해석하고 의사소통에 활용하는 능력은 갖출 필요가 있다고 강조한다. 데이터 사이언스가 무엇이고 일상에서 어떻게 활용되는지, 데이터 사이언티스트는 무슨 일을 하고 어떤 특성이 필요한지 현장에서 몸으로 체득한 노하우를 담아 일목요연하게 펼쳐 보인다.

평균값과 중앙값부터 자연어 처리까지
점점 더 똑똑해지는 세상을 이해하는 최소한의 데이터 사이언스 지식

저자들은 노무라종합연구소에서 전사적으로 데이터 사이언스를 추진하기 위해 설립한 조직인 데이터사이언스랩에 몸담고 있다. 공식 유튜브 채널에서 데이터 사이언스에 관한 다양한 정보를 제공해 온 저자들은 2021년 왜 지금 데이터 사이언티스트가 주목을 받고, 이 직업에 어떤 비전이 있는지 등을 소개한 가이드북을 출간했다. 그 후 그 책을 읽고 데이터 사이언티스트에 관심이 생겨 더 읽을 만한 책을 찾았지만 구체적인 분석 기법을 다룬 전문서밖에 없어 아쉬웠다는 의견을 접했다. 어떻게 하면 이들처럼 이 분야를 처음 접하는 일반인이나 현장 실무자가 데이터 사이언스를 체계적으로 배울 수 있도록 도울 수 있을까 고민한 결과물이 이 책 『데이터를 읽는 사람은 언제나 강하다』이다.

저자들은 문자보다 이미지로 전달되는 정보를 더 잘 이해하고 기억하는 시각적 학습자를 위해 데이터 사이언스를 활용하는 데 필요한 최소한의 지식을 직관적인 그래픽으로 압축하여 설명한다. 세 페이지 분량의 간명한 설명과 개념을 잡아주는 그래픽으로 우리는 AI · 머신러닝 · 딥러닝이 어떤 개념 관계이고 평균값과 중앙값은 무엇이 다른지, 회귀분석과 베이즈 네트워크는 어떤 차이가 있고 자연어 처리와 텍스트 마이닝은 어디에 활용하는지 등 평소에 자주 접하지만 어떻게 활용되는지 정확히 몰랐던 개념을 이해하는 짜릿함을 맛볼 수 있다.
이 책은 데이터 사이언스의 이론적인 근간이 되는 머신러닝 알고리즘과 통계 개념만을 다루지 않는다. 저자들은 이러한 개념을 바탕으로 실제로 데이터 사이언스를 활용하여 분석 모형을 구축하고 텍스트 마이닝을 수행하는 법, 역사가 짧은 직종인 이 분야에 첫발을 들여놓은 현장 실무자가 고민하는 문제에 대해서도 조언을 아끼지 않는다. 처음부터 적극적으로 데이터 사이언티스트를 꿈꾸기보다는 어쩌다 보니 데이터 사이언스 업무를 시작하게 된 선배들의 커리어 스토리는 데이터 사이언티스트가 되고 싶은 사람에게 값진 조언이 될 것이다.

데이터를 해석하고, 데이터에서 관계를 찾고,
데이터를 기반으로 사고하는 법

정보기술의 발달로 수집할 수 있는 데이터의 양과 종류가 크게 늘면서 데이터 사이언스를 활용하는 분야도 확대되고 있다. 저자들은 그 배경에 두 가지 요인이 존재한다고 진단한다. 하나는, 엑셀 등 스프레드시트 프로그램이나 클라우드 서비스를 이용하면 기본적인 데이터 분석 정도는 누구나 손쉽게 할 수 있는 여건이 조성되었다는 점이다. 다른 하나는, 데이터 사이언티스트를 직접 채용하거나 외부에 분석을 의뢰하여 경영상의 의사 결정에 데이터 사이언스를 활용하는 기업이 크게 늘었다는 점이다. 저자들은 이런 추세라면 조만간 부서 단위 보고에도 데이터 사이언스를 활용한 분석 자료를 사용하는 것이 당연시될지도 모른다고 내다본다. 일반적으로 비즈니스에서는 주어진 과제를 해결하기 위해 데이터의 활용 가능성을 검토한다.

저자들은 무엇을 위해 데이터를 사용할 것인지보다 데이터로 무엇을 할 수 있을지 상상하는 힘이 더 중요하다고 말한다. 데이터로 새로운 비즈니스를 상상하고 데이터 사이언스의 힘을 빌려 이를 구체화해야 한다는 것이다. 저자들은 향후에는 과제를 기점으로 데이터를 활용하는 능력보다 데이터를 기점으로 새로운 비즈니스를 창출하는 능력을 갖춘 인재의 수요가 더 높을 것으로 전망한다. 비즈니스 현장에서 데이터 사이언스는 아직 충분히 활용되지 못하고 있다고 덧붙인다. 노무라종합연구소 데이터사이언스랩 대표인 시오자키 준이치는 한국 독자에게 전하는 메시지에서 향후 데이터 사이언스가 전 세계 비즈니스의 변화를 주도하는 핵심이 될 것으로 내다본다.

“숫자(데이터)는 세계 공통의 언어입니다. 예를 들어 기업의 혁신을 추진하는 과정에서 최신 프레임워크로 구조화할 때보다 사실을 나타내는 한 가지 데이터를 제시할 때 문제를 더 쉽게 공유할 수 있습니다. 데이터가 지닌 신비한 힘은 직종 사이의 벽을 뛰어넘어 전 세계가 함께 의견을 주고받으며 같은 시선으로 문제를 해결하는 계기를 마련해 줍니다. 데이터 사이언스에는 그만한 힘이 있습니다.” --- 「한국어판 출간에 부쳐」 중에서

* 출처 : 예스24 <https://www.yes24.com/Product/Goods/138550170>