2021-03-03
Digital Transformation
인공지능 신뢰성 검증솔루션기업 ‘씽크포비엘’ 빅데이터 ≠ 인공지능 성능, 답은 ‘데이터 밸런스’에 있다
한국산업지능화협회
 

Company_㈜씽크포비엘

인공지능 신뢰성 검증솔루션기업 ‘씽크포비엘’
빅데이터 ≠ 인공지능 성능, 답은 ‘데이터 밸런스’에 있다

공인된 기준 없이 ‘단순한 축적’에만 매달렸다가는 제대로 된 데이터 밸런스를 확보하지 못하며, 신뢰성 높은 인공지능 학습도 불가능하다. 인공지능의 신뢰성을 객관적으로 검증하는 컨설팅 전문기업 ㈜씽크포비엘 박지환 대표는 “편향된 데이터는 ‘빅데이터’가 아니라 ‘거대한 쓰레기’에 불과하다”며, 인공지능의 신뢰성을 높이기 위해서는 ‘데이터 밸런스’라는 공학적이고 기술적인 접근이 필요하다고 강조했다. 그렇다면 데이터 밸런스가 무엇이며, 어떻게 하면 다양성과 밸런스를 확보한 데이터를 검증해 인공지능 편향성 문제를 해결할 수 있을까? 그 답은 씽크포비엘 박지환 대표에게서 찾을 수 있었다.

데이터의 정확성·다양성 문제들은 왜 발생하는 것일까?

새해벽두, 가장 큰 논란이 된 디지털 이슈는 ‘이루다’라는 인공지능(AI) 챗봇(채팅로봇)이었다. ‘20살 가상 여대생 이루다’는 소수자 혐오 발언 등으로 도마 위에 오르며 ‘AI 윤리’의 필요성을 세상에 알렸다. 그렇다면 이러한 문제들은 왜 발생하는 것일까? 가장 큰 이유는 ‘데이터의 편향성’에 있다. AI 자체로는 공정성, 중립성을 담보하기가 쉽지 않기 때문에 다양한 환경과 조건, 사회상황 등의 다양성을 고려해 데이터를 확보해야 하지만 그동안의 인공지능 분석 데이터셋(Data set)은 ‘단순한 수집과 축적’에만 집중돼 있었다.

“많은 사람들이 인공지능은 데이터의 양이 많으면 성공할 것이라고 생각하는데, 인공지능의 신뢰성과 활용성을 높이기 위해서는 데이터의 양보다 ‘밸런스’가 중요하다. 특히 다양한 유형의 밸런스 데이터를 확보해야 한다”고 말하는 씽크포비엘 박지환 대표는 “인공지능을 활용한 데이터 분석에 있어서의 ‘데이터품질인증’ 허점은 데이터가 무결한가(입력오류)를 평가하지만 데이터의 정확성과 다양성을 볼 수 없다는 것”이라고 말한다. 

그렇다면 데이터의 다양성은 왜 중요할까? 박 대표는 ‘수학훈련’을 예로 든다. 수학훈련을 위해 ‘더하기’ 문답만 100만개를 낸 데이터가 있고 곱하기와 나누기, 더하기와 빼기, 미분·적분, 확률까지를 내는 문답이 1만개가 있다면, 어떤 데이터가 인공지능의 다양성과 신뢰성을 높일 수 있는 데이터일까? 100만 개의 데이터는 ‘빅데이터’라고 표현할 수 있지만 ‘덧셈’밖에 못 푸는 편향적인 데이터가 될 수 있고, 비록 1만 개뿐인 데이터지만 모든 유형의 수학을 풀 수 있는 ‘똑똑한 데이터’가 될 수 있다는 것이다. 이것이 바로 데이터 밸런스라고 박 대표는 이해하기 쉽게 설명한다. 

씽크포비엘은 어떻게 AI 신뢰성 검증 분야에서 독보적인 기업이 되었을까?

인공지능을 발전시키는 것은 ‘데이터’이고, 데이터는 인공지능의 성능을 결정짓는다. 앞서 설명한 바와 같이 무작정 많은 양의 데이터를 인공지능에게 투입한다고 인공지능의 성능이나 신뢰성이 보장되지는 않는다. “4차산업혁명의 가속화로 데이터 모으지 않는 기업들은 도태되는 분위기”라고 말하는 박지환 대표는 “그러나 설계되지 않는 데이터는 아무런 가치가 없으며, 오히려 기업에 큰 손실을 안겨줄 뿐만 아니라 데이터를 기반으로 디지털 전환을 준비하는 산업계에도 걸림돌이 된다”고 우려했다. 아직까지 ‘공인된 데이터 신뢰성 검증 기준이 없다’는 점도 ‘데이터의 양’으로 승부하려는 기업들을 계속해서 만들어 내고 있다고 박 대표는 꼬집었다. 

이러한 문제를 해결하기 위해 나선 기업이 바로 ‘㈜씽크포비엘’이다. 휴대폰 소프트웨어 결함을 자동으로 검증하는 기술을 개발, 2008년 스핀아웃(분사) 방식으로 창업한 회사다. “당사는 2008년 창업 이래 13년 동안 300여 개 넘는 기관·기업을 대상으로 공학 컨설팅을 진행해왔다”고 소개하는 박 대표는 “현재는 ‘데이터 밸런스’ 기반 AI 신뢰성 검증 분야에서 독보적인 기술력을 갖추고 있다”고 덧붙였다. 인공지능 기반의 탐지, 분석, 추론·예측에는 사진, 음성, 동영상(이미지), 텍스트, 시계열, 링크(SNS) 등의 상황탐지 데이터들과 인공지능 검증 솔루션을 위한 ‘도구’가 필요하다. 이중 씽크포비엘은 ‘이미지’ 기반의 AI 신뢰성 검증 기술력을 확보하고 있다.

박 대표는 “주차장이라는 만들어진 환경에 들어오는 차량의 번호판은 인식률이 높다”며 “정해진 각도, 정해진 조명, 정해진 위치에 천천히 진입하는 차량에 인식하던 인공지능 시스템을 일반도로에 적용하면 인식률은 현저하게 떨어질 수밖에 없다”고 설명한다. 이미지를 훈련시킬 때는 4가지 특성에 따라 다양한 환경에서 진행해야 한다. 첫 번째는 ‘이미지의 품질’, 다시 말해 ‘명함, 밝기, 색조’ 등에 따라 다양하게 훈련해야 한다는 것이다. 두 번째는 촬영상태로, ‘각도, 거리, 회전, 화각, 해상도’ 등의 조건을 달리해서 훈련해야 한다. 세 번째로 ‘노이즈’의 상태에 따른 훈련과, 네 번째 ‘클래스’에 따라서도 데이터의 정확성과 다양성은 달라진다. 특히 사람을 탐지할 경우 백인, 흑인, 노인, 어린아이, 웃는 얼굴, 우는 얼굴, 장애자 등의 다양한 클래스에 맞춰 훈련해야 데이터의 편향성을 없애고 다양성을 확보할 있다는 것이다.

씽크포비엘은 이미지 기반 비정형 데이터의 밸런스 수준을 측정 및 평가하는 기술을 제시했고, 데이터 밸런스를 위한 안전성·신뢰성 검증도구인 CETA(Cause and Effect Test Analyzer, 이하 세타)를 개발했다. 이 회사는 데이터 밸런스 기술을 기반으로 한 ‘씽크팜(Think Farm)’ 서비스로 축산 농가의 생산성 향상과 복지 증대에 기여했으며, 관련된 논문이 ‘IEEE 액세스(Access)’ 저널에 게재되면서 국제적인 관심을 모으기도 했다. 특히 지난해 12월 10일에는 인공지능 신뢰성 평가를 위한 ‘데이터밸런스 구축 체계’가 한국정보통신기술협회(TTA)의 단체표준으로 제정되면서, 선도적인 기술력을 갖춘 기업으로 평가받게 되었다. 

지식기반 객관적·과학적·기술적 테스트 설계 도구 ‘CETA’ 

씽크포비엘은 인간의 주관적인 경험에 의존하지 않고, 예외 상황을 포함해 발생 가능한 모든 경우의 수를 자동으로 검증하는 지식기반 객관적·과학적·기술적 신뢰성 검증 도구인 ‘세타’를 세계 최초로 개발했다. “4차산업혁명의 가속화로 교통, 보안, 의료, 건설, 항공 등 거의 전 분야에 ‘기능안정성 소프트웨어’가 적용되고 있다”는 박지환 대표는 “원자력이나 항공기 등에 채용되는 안전소프트웨어는 민감한 작업을 처리하게 되며 사소한 오류가 큰 재앙이나 인명피해를 발생시키기 때문에 소프트웨어 설계 시에는 제품의 기능뿐만 아니라 예측 가능한 모든 극한의 시나리오까지 감안해서 추출하고 대비해야 한다”고 말하며 “세타는 모든 경우의 예외상황을 도출하는 설계 도구”라고 덧붙였다.

씽크포비엘의 ‘세타’는 신뢰성 평가 항목 도출 및 전략적 검증 영역 제안 등 대다수 단계가 자동화되어 있기 때문에, 정확도를 높이고 설계 작업의 속도도 빨리 할 수 있다. 무엇보다 데이터를 집계해 수준을 예측할 수 있는 ‘정형 데이터’와 달리, 내용 유형에 따라 ‘샘플링 편향’ 현상 등이 발생할 수 있어 예측이 어려운 ‘비정형 데이터’의 밸런스도 확보할 수 있다. 

올해 씽크포비엘의 목표는 인공지능 신뢰성 검증 솔루션을 완성시키는 것이다. 이를 통해 우리나라가 디지털 전환의 시대에서 ‘인공지능 혁명’ 대응력을 높이고, 글로벌 인증모델 확보를 통해 수출 경쟁력을 높이는 환경을 조성하는 것이 씽크포비엘의 궁극적인 목표이다.

인공지능 신뢰성 검증 솔루션의 완성도를 높여라

디지털 전환에 대응하기 위해 많은 기업들이 ‘인공지능 혁명’에 투자하고 있다. 그러나 앞서 설명한 바와 같이 데이터의 밸런스를 고려하지 않고 단순히 다량의 데이터를 ‘축적’하는 것에만 집중한다면, 자칫 큰돈을 들여 ‘큰 쓰레기를 모으는’ 결과를 초래할 수 있다. 박지환 대표는 “산업 현장에서 활용할 수 있는 레퍼런스들이 더 많이 발굴되고, 신뢰성 인증·검증 평가에 공신력을 갖추기 위해서는 공인된 기관에서 ‘데이터 밸런스의 필요성’을 지속적으로 알려야 한다”고 강조한다. 정부나 공공기관이 기업에게 필요한 모든 데이터를 제공하는 것은 현실적으로 어렵지만, 데이터의 밸런스 수준을 객관적으로 평가할 수 있는 기술과 적용 기준은 확립할 수 있기 때문이다.

“미래는 인공지능 신뢰성의 검증이 ‘경쟁력’이 된다”고 말하는 박지환 대표는 “아직까지 세계적으로도 인공지능 신뢰성 검증 솔루션 개발이 시작된 곳이 없다”며 “현재 유럽 내 국가들은 상호간에 전략적 제휴를 맺고 인증을 만들고 있으며, 이러한 인증장벽으로 우리 기업들의 해외 수출은 더욱 어려워지고 있다”고 말한다. 이러한 문제를 해소하고 글로벌 변화에 선제적으로 대응하기 위해서 ‘우리가 먼저 인증모델을 만들어야 한다’고 강조하는 박 대표는 “한·중·일을 포함해 아시안 국가들과 협력해 인증모델을 만들고, 인프라를 구축하면 유럽 등과 대등한 경쟁력을 확보할 수 있을 것”이라고 덧붙였다. 이러한 이유에서 박지환 대표는 한국산업지능화협회에 디지털혁신기술위원회를 제안했으며, 현재 위원장으로 활동하고 있다.

“제조의 지능화는 이미 시작된 지 오래지만 산업지능화협회 회원사들은 아직까지 ‘제조’적 관점에서만 미래변화에 대응하고 있다”고 말하는 박지환 대표는 “제조의 미래경쟁력 확보를 위해 IoT(사물인터넷), Cloud(클라우드 컴퓨팅), Big Data(빅데이터), Mobile(모바일), AI(인공지능) 등 ICBMA 기반의 새로운 활동들이 중요하게 부각되고 있는 상황에서, IT 인프라 기반의 소프트웨어 환경 변화를 적시적으로 대응할 수 있는 추진체가 필요하다는 판단에서 디지털혁신기술위원회를 제안하게 되었다”고 한다. 박 대표는 앞으로 산학연관의 목소리를 잘 반영해서 인공지능 신뢰성 검증의 필요성을 단계적으로 확대하고, 관련 근거 마련과 정책반영이 조속하게 이뤄질 수 있도록 활동방향을 수립할 계획이라며 “특히 중소·중견 회원사와 협업해 데이터 밸런스 기반의 인공지능 신뢰성 검증 솔루션을 발전시키고 싶다”고 덧붙였다.

 --------------------
[출처]
-내용 및 사진 : 한국산업지능화협회 _ Digital Transformation​ Vol.22


MAGAZINE LIST
 
2021-03-03
Digital Transformation
인공지능 신뢰성 검증솔루션기업 ‘씽크포비엘’ 빅데이터 ≠ 인공지능 성능, 답은 ‘데이터 밸런스’에 있다
한국산업지능화협회
 
We think for a better life.