오늘의 생각 >
필자의 다른기사 보기 인쇄하기 메일로 보내기 글자 크게 글자 작게
[데이터 과학자의 사고법] 김용대
 
울산광역매일   기사입력  2021/03/24 [09:46]

https://book.naver.com/bookdb/book_detail.nhn?bid=18033390

 

빅데이터 시대에 데이터 과학자의 가치는 엄청납니다. 너도 나도 데이터 사이언티스트를 모시려고 안달이지만 제대로 된 데이터 과학자를 초빙하는 것은 쉽지 않습니다. 인공지능과 더불어 천정부지로 몸값이 뛴 사람들이 바로 데이터 사이언티스트들입니다. 우리는 한치 앞도 모르는 예측 불가능한 시대를 살고 있습니다. 그러나 그와 동시에 데이터는 엄청나게 쌓이고 있고 그 데이터 속에서 불확실성을 이해하고 대비하는 사고법을 익힐 수 있고 통계와 확률을 이해함으로써 미래를 대비할 수 있기 때문입니다. 저자는 서울대학교에서 통계학과 데이터 사이언스 대학원에서 데이터 사이언스를 가르치는 교수로 생존분석과 베이지안 방법론, 데이터 마이닝, 머신러닝, 딥러닝 등을 연구하고 있는 분입니다. 이 책을 통해 여러가지 어려운 용어로 설명하고 있는 데이터 사이언스를 그나마 쉽게 이해할 수 있는 계기가 되길 바랍니다. 

 

빅데이터가 각광받고 있는 이유는 우리가 불확실성을 완전히 없앨수는 없지만 불확실성을 어느 정도 대비할 수 있기 때문입니다. 이제 데이터없이 어떤 정책을 세우는 것은 허황된 것으로 보일 수 있습니다. 오로지 직관이나 감만으로 일을 처리한다면 매우 큰 낭패를 겪을 수 있습니다. 데이터 사이언스는 이미 과거부터 검증된 관찰에 의한 과학적인 접근법을 한차원 높인 좀더 합리적인 접근법이라는 생각이 듭니다. 상상하지 말고 관찰하라는 말처럼 통계와 확률로 구성된 데이터 과학이 어떻게 우리 사회와 삶의 문제를 해결할 수 있는지를 보여줍니다. 그렇다고 미래를 정확히 맞추는 것은 불가능합니다. 불확실성 자체를 받아들이고 대비하는 것이 데이터과학이라고 볼 수 있다고 합니다. 

 

이 책은 어림짐작과 실제 확률이 얼마나 다른지 보여주는 사례가 많이 등장합니다. 통계학은 이미 데이터과학으로 확장되어 21세기의 석유로 불리고 있습니다. 이 책을 읽으면서 '그럴 것이다'라고 한 것이 얼마나 큰 착각인지 알 수 있습니다. 현대를 살아가는 우리는 기본적으로 데이터과학자의 사고법을 배울 필요가 있습니다. 데이터과학은 책에서처럼 우리 주위에 공기처럼 존재하기 때문입니다. 데이터과학은 데이터를 기반으로 합리적 사고를 하는 방법에 대한 과학이라고 정의하고 있습니다. 

 

그러나 데이터 과학은 확률에만 의존하는 과학이 아닙니다. 우리나라에서 심장마비로 사망한 사람의 99%와 뇌종양 환자의 98%가 먹는 것이 밥이라고 해서 건강에 해로운 음식으로 밥을 지정하는 것은 심각한 오류라는 것입니다. 우리나라에서 밥은 거의 모든 사람이 먹는데 이점을 고려하지 않고 나쁜 음식이라고 규정하는 것은 엉터리 의사결정이라는 것이지요. 그런데 이런 실수를 전문가들도 많이 한다고 합니다. 그래서 데이터를 읽는 능력을 데이터 리터러시라고 부릅니다. 이 책에서는 데이터과학에서 인공지능에 이르기까지 전문가가 아닌 사람도 이해할 수 있도록 그 개념을 쉽게 설명하고 있습니다. 

 

전염병의 원인을 밝히는 과정은 현재 코로나 19로 인해서 많은 사람들이 경험한 역학조사를 의미합니다. 그리고 이 역학조사는 과거 1854년 소호지역에서 일어날 콜레라의 원인을 밝혀낸 존 스노 박사에 의해서 시작되었다고 합니다. 그는 당시 유력한 원인으로 지목된 공기감염이 아닌 오염된 템즈강이 원인이라고 생각했습니다. 그 이유로 매구 제조 시설에서 일하는 사람들은 단 한명도 콜레라에 걸리지 않았기 때문에 그는 물이 전염의 원인이라고 생각했던 것입니다 그래서 물펌프를 중지시키자 수많은 사람의 생명을 구할 수 있었다는 것입니다. 이것이 역학조사의 시초가 되었다고 합니다. 

 

서브프라임 모기지론 같은 대형 금융사고도 잘못된 데이터 분석에 있다고 합니다. 분명히 데이터는 위험함을 경고하고 있었는데 탐욕에 눈먼 사람들이 이를 무시하고 계속한 댓가는 엄청났습니다. 저자는 데이터는 결국 모든 것을 알고 있다고 말합니다. 어떤 이유든 데이터를 무시하고 합리적인 의사결정을 하지 못할 경우에는 사고가 날 수 있습니다. 그리고 데이터 과학은 과거에는 신의 영역이라고 생각했던 날씨 예측, 주가 경제 예측 등 미래에 대한 예측을 이제 데이터와 확률로 이용해서 불확실한 사건을 이해한 인류의 업적을 신을 거역한 사건이라고 부르는 것도 일리가 있습니다. 이제 사물인터넷과 인공지능이 급속도로 발달한다면 과거에는 어떻게 될 줄 모르는 일들이 거의 틀리지 않는 예측된 사실로 남게 될 것이고 그렇다면 우리의 일상은 너무나 많이 달라질 것입니다. 

 

그러나 여전히 우리가 실제로 실험을 많이 해볼 수 없는 확률도 많이 있습니다. 우리나라가 북한을 상대로 전쟁해서 승리할 확률은 이것을 알기 위해 전쟁을 해볼 수는 없기 때문입니다. 대통령 탄핵 시 집권당이 총선에 승리할 확률도 알기가 어렵습니다. 이런 케이스 자체가 없었고 반복해 볼 수도 없기 때문입니다. 따라서 이 경우에는 주관적 확률을 사용한다고 합니다. 결과적으로 우리가 어떤 논리를 주장할 때 확률이라고 말하는 부분은 사실 검증이 많이 필요하다고 볼 수 있습니다. 

 

가끔 신문지상에서 거짓말 탐지기를 이야기할 때, 누가 봐도 유력한 범인이 거짓말탐지기에서도 거짓말을 한 것이 드러난 경우를 보곤 합니다. 거짓말 탐지기가 틀릴 경우는 거의 없다고 합니다. 다시 말해 거의 정확하다는 것입니다. 그 확률이 무려 97%입니다. 그러나 이상하게 거짓말 탐지기 결과는 법원에서 증거로 채택되지 않습니다. 3%의 확률을 무시해도 될 정도의 확률이라고 생각할지도 모르지만 이를 우리나라 인구 5천만명에게 대비해서 적용해보면 무려 무려 24.3%로 거짓말 탐지가가 지목한 거짓말쟁이 중 4분의 3이 진실을 말한 사람이라는 뜻입니다. 따라서 우리가 97%라는 높은 확률에 주목할때 현실은 전혀 다른 결과를 나타낼 때가 많다는 사실을 기억해야 합니다. 

 

이 책에서는 세계적인 통계학자 네이트 실버의 신호와 소음에 대해서 네이트 실버가 데이터 자체는 정보가 아니며 데이터에서 잡음을 제거해야 정보가 나온다고 말한 것에 대해 잡음은 의미가 없을수도 있지만 잡음을 과학적을 이해해야 할 때도 있다고 말합니다. 아무 의미 없는 데이터가 반복된다는 것에서 의미가 있는 것을 놓치기도 하기 때문입니다. 이 책의 말미에는 인공지능에 대한 내용이 실려 있습니다. 인공지능 역시 데이터를 기반으로 만들어집니다. 그리고 데이터를 학습하면서 인간의 지능을 뛰어넘는 혁명같은 일들이 벌어지고 있습니다. 데이터가 만능인것 같지만 중국처럼 인권을 무시하고 무조건 데이터를 수집하는 일은 지양되어야 합니다. 그런 시도가 빠른 발전을 이룰수는 있어도 결국 데이터과학이 지향하는 바는 인간을 이롭게 하는 것에 있기 때문입니다. 

 

아무리 데이터과학이 발전해도 불확실성을 완전히 없앨수는 없습니다. 인간은 미래에도 더 발전한 사회에서 여전히 존재하는 불확실성때문에 실패할수도 있고 뜻밖의 횡재를 할 수도 있습니다. 데이터과학을 잘 발전시켜야 하겠지만 궁극적으로 인간의 생사화복은 하나님께 있습니다. 데이터에 대해 좀 더 정교한 예측이 가능하다해도 여전히 시간은 하나님의 것입니다. 이 사실을 깨닫고 모든 것을 데이터가 예측할 것이라는 확신이 아닌 정확한 관찰을 통해 현장을 살리는 복음 데이터사이언티스트가 생겨나길 기도합니다. 

 

[출처] 2021년 3월 24일 오늘의 책 : [데이터 과학자의 사고법] 김용대 (문헌정보팀 WE) | 작성자 문헌지기

트위터 트위터 페이스북 페이스북 카카오톡 카카오톡
기사입력: 2021/03/24 [09:46]   ⓒ 울산광역매일
 
롯데백화점 울산점 https://www.lotteshopping.com/store/main?cstrCd=0015
울산공항 https://www.airport.co.kr/ulsan/
울산광역시 교육청 www.use.go.kr/
울산광역시 남구청 www.ulsannamgu.go.kr/
울산광역시 동구청 www.donggu.ulsan.kr/
울산광역시 북구청 www.bukgu.ulsan.kr/
울산광역시청 www.ulsan.go.kr
울산지방 경찰청 http://www.uspolice.go.kr/
울산해양경찰서 https://www.kcg.go.kr/ulsancgs/main.do
울주군청 www.ulju.ulsan.kr/
현대백화점 울산점 https://www.ehyundai.com/newPortal/DP/DP000000_V.do?branchCd=B00129000
  • 도배방지 이미지

광고
광고
성안동, 산수유 나무심기 행사 개최 / 정호식 기자
22대 국회를 바라보며 / 박서운 울산과학대 명예교수
가시 / 정성수 시인
덕양산업, 재난취약가구 소화기 지원 / 원주희 기자
'강원전 2골 1도움' 울산 주민규, K리그1 7라운드 MVP / 울산광역매일
가을 연가 / 박여범 시인 시산맥 회원
대둔산과 완산 칠봉 꽃동산 / 하 송 시인
금감원, 어느 금융회사에 검사 정보 흘렸나 / 울산광역매일
울주군, 인공지능 안부콜 서비스 시범운영 / 허종학 기자
황선우·김우민·우상혁·임시현·안세영…金 노리는 스타들 / 울산광역매일