상세 컨텐츠

본문 제목

인공지능은 어떻게 데이터를 활용하며 발전할까? : 인공지능과 빅데이터

본문

인공지능을 가진다는 것은 아주 단순하게 말하면, ‘데이터를 잘 해석하여 거기서 어떤 룰과 패턴을 발견해내는 것’이라고 정의할 수도 있겠네요. 마치학창시절에 기출문제를 많이 모아두면 시험에서 비슷한 문제를 쉽게 풀 수 있는 식으로, 기계가 학습하는 것이라고 생각해도 되겠군요.

원리 이해 없이도 답을 찾는다

그렇지요. 과거에 비슷한 패턴의 문제가 있었네? 그때 답이 뭐였지?’라는 식으로 접근하는 것입니다. 다만 인공지능은 기출문제를 암기하는 능력이 인간과 비교할 수 없을 만큼 뛰어나기 때문에, 원리 이해 능력이 형편없는데도 불구하고 인간처럼 시험을 봐서 답을 맞출 수 있는 것이지요. 인공지능은 암기한 패턴과 비슷한 문제가 나오면 인간보다 더 잘 풀지만, 패턴과 잘 안 맞는 문제가 나오면 버벅거릴 수밖에 없습니다.
따라서 인공지능이 기출문제에 해당하는 데이터를 많이 모으면 모을수록 학습을 통해 계속 더 강해진다는 말은 반은 맞지만, 반은 틀린 말입니다. 유형이 너무나 다양해서 기출문제를 아무리 많이 암기해도 다 대응할 수 없는 종류의 시험 문제들도 있거든요. 예를 들면 논술시험처럼 말이지요.

인스타그램에는 매일 9,500만 장의 사진이 올라오고, 그 이상의 사진들이 페이스북에도 올라올 것입니다. 그밖에도 매일 생성되는 디지털 데이터의 양은 어마어마하게 많을 텐데요. 데이터들이 아무리 많아도 이를 활용하는 것은 또 다른 문제라는 말인가요?

특정한 형태로 정돈된 데이터가 필요하다

그렇지요. 그냥 데이터가 있다는 것만으로는 학습 데이터로 쓸 수 없으며, 특정한 형태로 정돈되어야 합니다. 정돈의 과정에는 사람의 손이 반드시 들어가야 하는 경우가 많습니다.
예를 들어 페이스북의 이미지 인식 기능은 유명한 인공지능 기능 중 하나인데요. 실제로 페이스북에 사진을 올리면 이미지 인식 기능으로 내 친구 중에서 얼굴이 비슷한 친구를 자동으로 추천해주고는 태그tag하겠습니까?”라고 물어봅니다. 그런데 그것이 어떻게 가능할까요?

사진 출처 : research.fb.com

인공지능을 통한 이미지 인식에서 기본적인 예로 드는 것이 고양이와 개의 사진을 보여주고 구분할 수 있느냐는 것입니다. 인공지능이 이 문제를 풀 수 있도록 학습시키려면 그냥 고양이와 개의 사진이 잔뜩 있다고 되는 것이 아닙니다. 사람이 수작업으로 이것은 고양이 사진, 이것은 개 사진, 이렇게 분류해주어야 합니다. 인공지능은 사람이 분류해놓은 사진 수천만 장을 보고, 어떤 사진은 개로 분류되고, 어떤 사진은 고양이로 분류되는지 패턴을 찾아내는 학습을 하게 됩니다. 이것을 지도 학습Supervised Learning이라고 합니다.
물론 인간의 가이드를 거치지 않는 비지도 학습Unsupervised Learning도 있지만, 지도 학습에 비해서 훨씬 제한적으로만 가능합니다. 예를 들어 데이터가 마구 섞여 있으면 그 속에서 구획을 긋는 클러스터링작업이 가능합니다.
한마디로 데이터는 많으면 많을수록 좋지만, 많기만 해서는 쓸모가 없습니다. “구슬이 서 말이라도 꿰어야 보배다라는 말은 인공지능학습 데이터에도 적용되는 말입니다.

인공지능을 말하면서 데이터의 중요성을 계속 강조했는데, 결국 빅데이터에서도 역시 강조하는 부분이기도 합니다. 그럼 빅데이터 분석과 인공지능은 어떤 관계인가요?

빅데이터 분석과 인공지능, 공통점과 차이점

빅데이터 분석과 인공지능은 서로 매우 관련이 깊습니다. 둘 다 대량의 데이터를 인풋Input으로 활용한다는 점, 기계가 이해할 수 있는 형태로 가공해주어야 한다는 점은 같습니다.
그런데 아웃풋Output의 형태에서는 서로 다릅니다. 빅데이터의 경우 아웃풋은 인간 전문가가 데이터를 통계적으로 분석해서 내놓은 인사이트입니다. 주로 보고서나 리포트 형태로 나옵니다. 텍스트뿐 아니라 차트나 복잡한 시각화 이미지를 넣기도 합니다.
그러나 인공지능은 주로 자동화된 액션이 그 결과물입니다. 데이터를 바탕으로 패턴을 찾아낸 다음에 실제로 문제해결에 적용해서 액션을 취하는 것이지요. 예를 들어 번역을 하거나 대화를 하거나 자동차를 운전하는 식으로 말이지요

개념적으로는 구별되는 것 같지만, 실제 영역에서는 교집합으로 겹치는 부분이 많을 것 같은데요? 일단 빅데이터가 말 그대로 큰(방대한) 데이터라는 것은 분명한 것 같습니다. 그러나 데이터가 크다고 모두 빅데이터가 되는 것은 아닐 텐데요. 빅데이터라고 말할 수 있는 특징은 무엇인가요?

의도되지 않은 데이터의 활용

옛날에도 요즘 빅데이터라고 불리는 데이터들보다 더 방대한 기록들이 없었던 것이 아닙니다. 예를 들어 토지대장이나 주민등록 같은 정부의 행정기록이나 은행의 거래장부 등은 컴퓨터가 나오기 전에도 이미 굉장히 방대한 규모였습니다. 이것들은 기록을 남기기 위한 목적으로 의식적으로 만들어낸 기록들입니다. 미리 정해진 형식에 맞추어 생성된 기록이고요.
그런데 요즘 빅데이터라고 불리는 것들은 어떤 것이죠? 예를 들어 아마존에서 관심 있는 물건을 검색하면, 아마존은 고객들이 물건을 검색한 기록을 전부 모아 커다란 데이터셋을 만듭니다. 그리고 그것을 자체적으로 분석해서 패턴을 찾고 소비자들에게 이런 상품이 인기가 있더라라는 정보를 만들어냅니다.
이때 소비자가 기록을 남길 목적으로 아마존에서 검색한 것은 절대 아니죠? 빅데이터 분석은 의도적인 기록이 아니라, 이처럼 사용자들의 행동을 통해서 자동적으로 생성된 데이터들이 쌓이고 그것을 분석해서 의미를 찾아내는 것입니다. 이것이 기존의 기록 분석방식과 차별되는 점이죠. 그래서 빅데이터 분석에서 중요한 것은 의도하지 않게 생성된 데이터를 의도한 목적에 부합하게 가공하는 과정입니다.

빅데이터의 핵심이 ‘의도되지 않은 데이터의 활용’이라면, 데이터 수집과정보다는 오히려 ‘데이터를 활용 가능한 형태로 정리정돈’하는 것이 핵심인 것 같습니다. 실제로 그런가요?

형식 정돈 및 표준화가 가장 중요

데이터 형식은 아주 약간만 달라져도 호환성이 깨져버립니다. 빅데이터든 인공지능이든 데이터 형식을 정돈하고 표준화하는 것이 가장 중요한 첫걸음입니다. 어느 것이 더 어려운지는 경우에 따라 다르지만, 많은 경우에 데이터 확보 그 자체보다도 그 데이터를 가공하고 기계가 학습할 수 있는, 기계 판독이 가능한Machine Readable 형식으로 가공하는 과정이 더욱 어렵지요. 이 과정에서 수많은 수작업이 따르는 경우가 많아서 문제인데, 기술이 발달해서 상당히 자동화할 수 있게 되었습니다. 그러나 아직 완전히 자동화할 수는 없고, 아마 앞으로도 그런 작업을 완전하게 자동화할 수 있을지는 의문입니다.
이렇게 데이터를 정리하는 사람이 해당 분야에 대한 이해도가 높은 경우에 데이터 처리의 효율이 더 높아집니다. 인공지능과 빅데이터 분석 역시 근간은 사람에 달린 것입니다.

이 포스트는 4차 산업혁명, 당신이 놓치는 12가지 질문(남충현, 하승주)를 바탕으로 발췌, 재정리한 것입니다.

 

관련글 더보기