2022-12-07
THINKFORBL 사보 기술 파트 16호
‘데이터 밸런스(Data Balance)’ 기술을 이해하셨다면, 여러분은 리인(Re:In)을 사랑하게 될 것입니다
Thinkforbl
 
KNOWLEDGE

‘데이터 밸런스(Data Balance)’ 기술을 이해하셨다면,
여러분은 리인(Re:In)을 사랑하게 될 것입니다

최근 인공지능(AI)의 중요성과 활용성이 사회와 산업계 곳곳에서 관심을 끌고 있다. 실제 우리 주위 여러 영역에서 적용 사례도 늘고 있다. 단순히 개인의 취향을 분석해 주는 것부터, 주식 동향과 개인 신용도 평가, 음성인식 검색 또는 언어 번역 등이 AI 기술을 통해 이뤄지고 있다. 일상의 영역뿐만 아니라 이제는 발전이나 화학 등 산업계에서 AI 적용이 활발히 이뤄지고 있다. 산업재해를 낮추고 생산성을 높이는 등의 개선에 AI 기술을 활용하기 시작한 것이다. 그렇다면 우리는 AI가 현장에 투입돼 정확하게 동작한다는 것을 어떻게 확인하고 보증할 수 있을까?

1
씽크포비엘은 기술적 테스트에 기반해 자체 연구 개발한 세타(CETA) 방법론을 적용함으로써 AI 현장 적용 전 얼마나 신뢰할 수 있을 만큼 동작할 것인지를 검증하는 체계를 마련했다. AI를 학습‧시험‧검증하려면 반드시 데이터를 살펴야 한다. AI를 만들 수 있는 처음과 끝이기 때문이다. 아직 AI 학습을 위한 데이터는 단순히 수집하는 단계 수준에 머물러 있다. 좀 더 신경을 써 수집하는 데이터만 겨우 조건을 다양화한 수집이 이뤄진다. 이렇게 수집한 데이터는 그 수가 아무리 많아도 AI 학습에 충분히 활용할 수 없다.
데이터 안에는 AI를 학습시키는 많은 의미를 담고 있다. 그리고 그 의미가 다양할수록, AI는 더욱 똑똑해진다. 단순 개체 수량만으로는 데이터가 충분한지를 설명할 수는 없다. 그 데이터에 담겨 있는 의미가 얼마나 충족됐는지에 따라 편향 여부가 결정된다. 이를 데이터 편향이라고 한다. 이러면 AI 학습 시 주어진 문제를 편향적으로 보는 문제를 일으킬 수 있다. 백인이 체온계를 들고 있을 때는 체온계로 인식하지만, 흑인이 체온계를 들고 있을 때는 총으로 인식하는 확률이 높은 이유가 이러한 데이터 편향 때문이다.
문제 유형 부족도 꼽을 수 있다. 실생활에서 수집하는 데이터에는 AI가 풀고 탐지하려는 데이터 유형이 극히 적을 수 있다. 예를 들어 학습용 데이터의 문제 유형이 확률적으로 ‘가우시안’ 분포를 따를 경우, AI가 실제로 풀어야 할 중요한 문제는 ‘가우시안’ 확률 분포 양 끝에 해당하는 문제일 가능성이 크다. 즉, 데이터를 수집하지 못할 가능성이 크다는 의미다. 그렇다면 우리는 기존 AI 학습용 데이터가 지닌 이러한 어려움을 해결하기 위해 어떻게 접근해야 할까?

2
AI가 현장에서 의도한 대로 동작할 것이라고 신뢰하기 위해서는 학습 또는 시험하는 데이터도 현장 상황이 반영된 데이터여야 한다. 하지만, 단순히 현장에서 수집한 데이터는 문제 유형 및 답안 수량에서 큰 편차가 있다. 데이터 편차로 인한 학습 또는 시험의 어려움을 해결하기 위해서는 AI가 학습해야 할 데이터의 자체적 특징, 데이터를 수집하는 환경적 특징 등을 반영해 AI에 영향을 끼치는 요인 식별은 물론 각 요인의 논리적 조합을 통해 발생 가능한 사례를 도출하고 이에 적합한 데이터를 계획적으로 수집하는 것이 중요하다.
예를 들어, 이미지 데이터 내에서 고양이를 탐지하는 AI의 신뢰성을 검증한다고 가정해 보자. 우리는 입력되는 이미지 크기를 비롯해 컬러‧흑백 이미지, 이미지 선명도, 명암비, 색조에 대한 요인 등을 고려할 수 있다. 또한 고양이를 멀리서 또는 가까이서 촬영했는지, 카메라를 회전시켜 촬영했는지, 위 또는 아래에서 촬영했는지를 고려할 수도 있다. 이에 더해 고양이와 유사하게 생긴 표범, 호랑이, 사자 등을 구별해 내는 것에 대해서도 검토가 필요하다.
이러한 밸런스를 확보한 데이터는 다양한 관점에서 요인을 논리적으로 조합‧분석함으로써 발생 가능한 사례를 도출하고, 이에 해당하는 데이터를 준비할 수 있다. 이것이 ‘데이터 밸런스’ 기술 핵심이다. 우리는 이미지 데이터에서 위의 요인을 측광학(Photometry)이나 기하학(Geometry)에 따른 특징, 노이즈 밸런스 특징, 클래스 밸런스 특징으로 각각 구분해 논리적 조합 및 데이터 밸런스를 분석하고 있다. 이와 유사하게 다른 데이터 타입인 시계열, 동영상, 텍스트, 음성, 링크 등도 마찬가지로 각 특징과 관점에 따라 요인을 구분할 수 있다.

3
데이터 밸런스는 AI 학습을 위한 데이터 세트가 얼마나 ‘시나리오’에 기반해 준비된 것인지를 검증하는 기술이다. SW공학 영역 중 명세기반 블랙박스 테스트 방법 가운데 하나인 원인과 결과 도식화(Cause and Effect Graphing) 테스트 방법을 토대로 설계됐다. AI의 동작 시나리오별로 데이터가 얼마나 존재하는지, 밸런스 관점에서 데이터 다양성을 검증한다. 다시 말해 데이터가 얼마나 많고 적은지와 같이 탐지 대상 객체의 수치적 불균형 관점보다는, AI가 정확하게 동작해야 할 시나리오(시험) 문제를 정의하고 그에 해당하는 데이터가 얼마나 고르게 분포돼 있는지를 분석한다는 것이다. 데이터 밸런스는 초기에 AI에 기대하는 동작에 관한 분석으로부터 시작하기 때문에, AI 모델을 개발하는 측면에서는 데이터 밸런스를 분석하고, 데이터 불리기와 데이터 제외하기 등의 작업을 통해 좀 더 고른 데이터 밸런스를 확보함으로써 AI 모델의 정확성을 촉진할 수 있다는 장점도 갖고 있다. 아울러 불균형 데이터 또는 이미지 특성이 있는 데이터 세트에 대한 ‘수정’을 통해 프레임화돼 예측 모델의 정확성을 촉진하는 것도 가능하다.
예를 들어, 가정집에 침입하는 도둑을 탐지한다고 가정하자. 침입자는 낮에 올 수도 있고, 밤에 올 수도 있다. 심지어 어떤 색깔 옷을 입었는지도 판단해야 한다. 인간은 이걸 한 번에 인지할 수 있다. 그런데 AI는 이런 능력이 없다. 침입자가 낮에 오는지 밤에 오는지, 혹은 낮과 밤에 따라서 눈에 띄는 옷을 입었는지 띄지 않는 옷을 입었는지에 따라 차이가 난다. 심지어 해가 뜨고 지는 사례까지 고려한다면 오류가 나타나는 건 당연하다. 따라서 이러한 사례에 대한 시나리오를 준비하고(CETA 기술을 통해), 그중 만족하는 데이터 세트가 얼마나 있는지를 검증하게 된다.
여기서 데이터 밸런스 기술의 특징이 나타난다. 모든 시나리오는 데이터 세트를 0개(없음)에서 많으면 몇십만 건의 데이터가 해당할 수도 있다. 만약 1개의 시나리오에 너무 많은 데이터가 해당한다면, 이건 불균형한 것이라 볼 수 있다. AI는 밤에 오는 침입자 특성만 배웠는데, 낮에 침입자가 화려한 옷을 입고 침입한다고 생각해보자. 아마 AI는 침입자라고 탐지하지 않을 가능성이 크다. 그래서 한 개의 시나리오 데이터만 많다는 것은 학습용 데이터로 학습할 수 있는 사례가 한 가지밖에 없다는 의미와 ‘유사’하다.

4
‘리인(Re:In)’은 씽크포비엘이 자체 개발한 데이터 밸런스 기술 기반 AI 신뢰성 검증 제품(설계 도구)이다. 앞서 개발된 소프트웨어(SW) 세이프티(safety) 검증 제품 ‘세타(CETA)’에 AI 신뢰성 검증에 필요한 데이터 세트의 다양성 측정 기술이 추가된 특화 제품이다. ‘신뢰할 수 있는(Reliable)’과 ‘지능(Intelligence)’을 뜻하는 영어 단어를 조합해 명칭이 만들어졌다. AI 검증용 데이터를 양과 무결성(오타)이 아닌 다양성 관점에서 평가하는 ‘데이터 밸런스’ 기술이 적용됐는데, 데이터 다양성 검사 기법을 비롯해 새롭게 관리시스템이 추가돼 있다. 특히 리인에는 ‘데이터 불리기’ 기능이 더해졌다. AI 신뢰성을 검사할 때 모수가 되는 다양한 상황의 시나리오에 대한 데이터가 많이 있어야 하는데, 데이터 불리기 기능은 기존에 가진 원천데이터를 이용해 자동으로 데이터가 부족한 시나리오의 검증용 데이터 세트를 생성할 수 있다.
리인을 활용해서 검증할 수 있는 데이터에는 이미지와 비디오 데이터 세트가 대표적이다. 기술이 고도화되면 사실상 이 세상 거의 모든 데이터를 대상으로 가능하다. 여기에는 두 가지 데이터 검증 방법이 있다. 첫 번째는 AI 학습용 데이터를 ‘동작 시나리오에 기반한 데이터 밸런스’ 검증 방법이다. 두 번째는 동작 시나리오에 기반해 학습 완료된 AI를 현장 적용하기에 앞서 ‘신뢰성’을 검증하는 것이다.
기존에 AI를 학습시키는 데이터에 대한 분석은 통계에 머무르는 경우가 많았다. 학습용 데이터 세트 수량은 적게는 몇백만 건이고 많게는 페타바이트(PB)급으로 많다. 이 데이터 세트는 단순히 각 객체 클래스가 얼마나 되는지보다, 얼마나 많은 시나리오를 해결할 수 있을지를 검증해야 한다. 동작 시나리오에 기반한 데이터 밸런스의 경우 기존과 다른 접근 방법을 활용한다. 이전 모델이었던 세타(CETA)의 테스트 방법인 ‘Cause and Effect Graphing’에 기반해 데이터 밸런스를 분석하게 된다. 동작 시나리오에 기반한 학습이 완료된 AI의 현장 적용 ‘신뢰성’ 확보의 경우 현재 전 세계적인 논의가 이뤄지고 있다. ‘Trustworthy’라는 단어로 표현돼 신뢰성이라는 용어로 번역할 수 있지만, 윤리적 편향이 제거된 의미를 상당 부분 내포하고 있다. 리인은 윤리적인 부분의 요구까지도 시나리오에 반영해 신뢰성을 검증할 수 있는 기반을 제공한다. 따라서, 전세계에서 논의되고 있는 신뢰성의 범주를 따라 검증할 수 있는 한 가지 방안을 제공한다고 볼 수 있다.

5
리인은 상용화를 눈앞에 둔 기술 고도화 단계에 있다. 현재 AI 신뢰성 분야는 공감대만 어느 정도 형성돼 있을 뿐 현장 적용이 이뤄지지는 않고 있다. 단지 다양한 방법의 AI의 정확도 측면에서만 측정이 이뤄질 뿐이다. AI의 정확도는 주어진 데이터 세트를 학습용과 검증용으로 나눈다. 그런 후에 학습용을 이용해 학습한 AI가 학습하지 않은 검증용 데이터 대비 얼마나 높은 적중률을 보이는지 분석한다. 씽크포비엘 기술은 이보다 좀 더 진화한 것이다. 주어진 문제인 학습용 데이터 세트만 잘 푸는 것은 당연히 잘 할 수 있다. 학습지에서 풀었던 문제가 똑같이 나오면 당연히 전부 만점을 받을 수 있을 것이다. 반면 씽크포비엘이 기술적으로 원하는 건 AI가 현장에 적용될 때 의도한 대로 동작하는 데 있다. 즉, 학교에서 배운 걸 갖고 실제 세상에서 풀기를 기대하는 문제를 잘 해결하기를 원한다는 것이다.
리인은 기존의 정확도 측정 방법이나 데이터의 수량‧용량‧클래스별 객체 수에 대한 분석 방법을 배척하지 않는다. 오히려 그런 분석 방법이 없다면 리인이 달성하려는 검증은 완성될 수 없다. ‘데이터 밸런스’와 ‘신뢰성’이 기존의 방법을 어떻게 활용하고 발전시켰는지를 보면 이해가 쉽다. ‘데이터 밸런스’는 이미 CETA를 이용한 설계에 클래스별 객체 수 관점을 반영하도록 유도하고 있고, 최종 설계된 검증 시나리오와 항목에 해당 원천데이터 수량을 카운트하고 있다. 아직 연구 중이지만, 불리기를 할 때 얼마의 수량과 용량이어야 할지도 고려하고 있다. ‘신뢰성’의 경우 특히 기존 정확도 측정 방법이 없다면 신뢰성 자체를 정량화해 표현할 수 없다. 씽크포비엘의 신뢰성은 기존의 정확도 측정 개념을 ‘수집한 원천데이터’에서 ‘AI의 기대 동작 시나리오’ 범위로 확장한 것이다. 다시 강조하면 기존에는 주어진 문제를 잘 푸는지에 관한 검증 방법이라면, 씽크포비엘이 이야기하는 신뢰성은 검증해야 할 전체 범위 중에 정말 잘한다고 ‘확인’된 부분이 얼만큼이라는 의미를 포함한다.

6
리인은 기술적 공신력을 상당 부분 확보한 상태다. 데이터 밸런스 기술에 관한 연구가 해외 SCI(E)급 논문에 게재됐고, 현재는 국제학술지 ‘네이처(Nature)誌’ 게재를 준비하고 있다. 논문이 받아들여진다면 거의 세계 최고 기술력을 인정받게 된다. 아울러 국내 ICT 관련 표준을 채택하는 기관인 정보통신기술협회(TTA)가 데이터 밸런스 관련 기술 방법 세 건을 국내 단체표준으로 채택했다. 올해는 두 건을 추가하도록 준비 중이다.
개발 또한 현재 이미지 데이터와 시계열 데이터를 사용하는 AI에 대해 어느 정도 검증할 수 있는 A~Z까지 정도를 확보했다. 어떻게든 수작업으로 써 볼 수는 있는 상태라는 의미다. 앞으로는 사용자가 더 편하게 사용할 수 있도록 개선하고, 각각 항목이 어떤 의미를 갖고 위치하는지를 더 의미 있게 확인할 수 있도록 친절한 설명을 덧붙여야 한다. 각 시스템이 유기적으로 잘 연계해 돌아갈 수 있도록 개발도 이뤄지고 있다. 특히, AI는 다양한 데이터를 이용해 학습할 수 있는데, 아직은 이미지와 시계열 형식 데이터에 머물러 있어 다른 데이터 타입(동영상, 텍스트, 웨이브 등)을 사용하는 AI 검증도 지원할 수 있도록 준비 중이다. 결함이나 데이터 편향성을 확인할 수 있는 리포팅 기능은 조만간 완료해서 사업에 활용할 예정이다. 검증용 데이터를 증식하는 기술은 내년 초를 목표로 개발하고 있다. 이외에 다른 데이터 타입을 지원하는 부분은 올해 연구개발을 거쳐 내년에 본격적인 시스템 반영이 이뤄질 것이라 예상된다.

If you understand ‘Data Balance’ technology,
You will love ‘Re:In’

By applying its own research and development ‘CETA’ methodology based on technical testing, THINKforBL has established a system to verify how reliable it will be before applying AI to the field. In order to learn, test, and validate AI, we must look at the data, because it is the beginning and end of creating. The data for AI learning is still at the level of the collection stage, and no matter how many of it is collected, it still cannot be fully utilized for AI learning.
Data has many implications for learning AI, and it makes AI smarter when it has many implications. How much meaning is contained in the data determines whether it is biased or not. This is called data bias. This can lead to the problem of biased views of a given situation in AI learning, which is why lighter skin individuals can be perceived/classified by the AI as holding a thermometer when holding actually holding one, however darker skin individuals are more likely to be perceived/classified as they are holding a gun when holding the thermometer.
Lack of problem types can also be cited. Data collected in real life may contain extremely few types of data that AI is trying to solve and detect. For example, if the problem type of the training data follows a stochastic ‘Gaussian’ distribution, it is likely that the important problem that AI actually solves is the problem at both ends of the ‘Gaussian’ probability distribution. In other words, there is a high probability that data will not be collected.

In order to trust that AI will behave as intended in the field, the data to be learned or tested must also reflect the situation in the field. However, the data collected in the field simply vary greatly in the type of problem and the number of answers. In order to solve the difficulty of learning or testing due to data deviation, AI must reflect the self-characteristics of the data to be learned and the environmental characteristics of collecting the data. In this way, it is important to identify factors that affect AI, as well as to derive cases that can occur through logical combinations of each factor, and to collect appropriate data in a planned manner.
Balanced data can logically combine and analyze factors from various perspectives to derive possible cases and prepare corresponding data. Data Balance is a technology that verifies how much datasets for AI learning are prepared based on scenarios. It is designed based on the Cause and Effect Graphing test method in the SW engineering area. It verifies how much data exists for each scenario of AI’s operation and data diversity from a balance perspective.

‘Re:In’ is an AI reliability verification product(design tool) based on THINKforBL’s own Data Balance technology. The dataset diversity measurement technology required for AI reliability verification has been added to the previously developed software(SW) safety verification product ‘CETA’. The name was created by combining the English words ‘Reliable’ and ‘Intelligence’. The ‘Data Balance’ technology, which evaluates data for AI verification from the perspective of diversity rather than quantity and flawlessness(misprint), has been applied, and a new management system has been added, including data diversity inspection techniques. Image and video data sets are typical of data that can be verified using Re:In, and as technology advances, it is possible to target virtually all data in the world.

Re:In is in the stage of upgrading its technology just before commercialization stage. Re:In has secured a lot of technological credibility. Research on Data Balance technology has been published in international SCI(E) papers, and is currently preparing to publish in the international journal Nature. If the paper is accepted, it will be recognized as one of the world’s leading technologies. In addition, the Telecommunications Technology Association(TTA), an organization that adopts domestic ICT-related standards, has adopted three Data Balance-related technical methods as domestic group standards. And this year, two more are being prepared to be adopted as a group standard.

기술 분야 설명 / 천선일
정리 / 이승한

 


MAGAZINE LIST
 
2022-12-07
THINKFORBL 사보 기술 파트 16호
‘데이터 밸런스(Data Balance)’ 기술을 이해하셨다면, 여러분은 리인(Re:In)을 사랑하게 될 것입니다
Thinkforbl
 
We think for a better life.