2024-06-24
THINKFORBL COLUMN SERIES
데이터 센터 붐, 중요한 건 거기에 무엇을 채우냐다
정보통신신문
 

인공지능(AI)의 사회적 악영향을 강하게 규제하는 AI 법이 EU에서 통과된 이후, 국내에서도 새삼 'AI 윤리성'에 대해 관심이 높다. 그런데 AI 윤리성은 본질적으로 윤리·도덕의 문제가 아닌 오작동의 문제이다. 누군가 개인이 반사회적인 행동을 했다면, 그것은 아마도 그 사람의 이기적 욕구나 집단이기심, 혹은 단순한 게으름 때문이었을 것이다. 반면에 AI에는 욕구도, 소속집단도, 게으름도 없다. 챗GPT가 반사회적 발언을 하거나 보안 인식 AI가 특정인을 부당하게 대우했다면, 그것은 대부분 AI가 '(특정 사회의)상식에 맞지 않는 언행'을 '상식에 맞는 언행'으로 오인식하여 작동한 경우이다. 축구중계 AI가 심판의 대머리를 축구공으로 오인해 카메라 포커스를 맞춘 것과 본질상 동일한 오작동에 속한다.

AI가 축구공 대신 심판의 머리에 집중한 것은 해당 AI 학습 과정에서, 공과 인간의 머리를 매 순간 구분할 수준의 데이터가 주어지지 않았기 때문이다. AI가 인종과 성별을 차별하고 무고한 시민을 범죄자 취급했던 일들 역시 마찬가지일 가능성이 크다. EU의 AI 법 역시 AI과 AI 개발자들한테 올해부터 갑자기 더 도덕적으로 되라고 강요하는 게 아니라, 이러한 오작동의 위험도가 높은 AI 제품들이 무분별하게 시장에 나오는 것을 금지하는 것이다. 그렇다면 관건은 결국 학습 데이터의 수급과 관리이다.

그렇기에 많은 국가가 양질의 데이터 확보와 관리를 위해 대규모의 투자를 진행하고 있다. 우리나라의 데이터 센터 설립 사업 또한 대표적인 예로, 이미 약 14조 원의 민간 자금이 투자되고 있다. 그런데 필자는 실제 현장에서, 이런 노력의 상당 부분이 굉장히 공회전되고 있다고 생각한다. 데이터 센터 설립을 통한 다량의 데이터 확보는 당연히 중요하다. 그런데 그렇게 수집되는 데이터 대부분이, AI의 신뢰성 확보에 사실상 무의미하다면? 세계적으로 수집된 데이터의 평균 65%는 중복 데이터이다. 필자가 지난 2년간 공공기관 대상으로 중복성을 진단한 결과, 대부분 92~98%가 의미적으로 중복이라는 충격적인 결과가 나오기도 했다.

AI가 '윤리적이지 못한' 오작동을 했을 때 실제 학습 데이터의 양이 부족했던 경우는 거의 없었다. 물의를 일으켰던 구글, 아마존, 미 정부 기관이 자금이나 저장 공간이 부족해서 충분한 데이터를 확보 못 했을 리가 없다. 데이터의 양을 무작정 늘리는 일만으로는, 거기 포함된 엄청난 양의 성차별, 인종차별적 편향된 데이터로 인해, 오히려 AI의 오작동 가능성을 높일 따름이다. 다시 말해 데이터 편향성을 방지하는 기술적 조정과 검토가 이루어지지 않으면 빅데이터 수집은 중복되거나 불필요하고, 또는 오히려 방해되는 데이터 쓰레기 산을 만들 뿐이다. 이러한 '데이터 밸런스' 기술의 중요성에 대해 여러 해 전부터 강조해 왔고, 편향된 데이터로 인한 AI 오작동의 위험이 이제 EU의 규제안으로 눈앞에 현실화했건만, 우리 산업은 여전히 데이터의 균형보다는 양적 확보를 통해 대처하려 하고 있다.

'망건 쓰고 세수한다'라는 속담이 있다. 요즘 말로는 '마스크 쓰고 세수한다.' 정도일 것이다. 얼굴에 뭘 씌운 채 세수를 하니 열심히 물은 뿌리는 데 힘만 들고 깨끗해지지도 않는 상황이다. 데이터 센터는 AI를 위한 거대한 창고이다. AI 산업이 대세이다 보니 심지어 새로운 부동산 투자처로도 각광을 받고 있지만, 정작 그 창고에는 천문학적인 양의 중복 데이터들이 무의미하게 공간을 차지하고 있다. 일반건축물보다 40~100배의 에너지를 소비하는 비싸고 반-환경적인 구조물에서 말이다. 같은 색의 필기구로 꽉 찬 필통을 보는 기분인데, 다양한 색을 표현할 수 없다고 하니, 또 똑같은 색의 연필을 열심히 깎고 있다. 훌륭한 열정이지만, 지금은 물을 더 뿌리고 비누질을 꼼꼼히 하는 것보다, 먼저 업계의 '망건'을 벗어야 한다. 즉, 무조건 더 많은 창고를 더 많은 데이터로 채우는 열정 이전에, 기왕 건립하는 소중한 창고에 더 값진 내용물이 효율적으로 채워질 수 있게끔 하는 기술적 노력이 바로 지금, 병행되어야 한다. 이에 대한 구체적 방법에 대해서는 다음 칼럼에서 나름의 생각을 이야기해보겠다. 

다시금 강조하지만, AI 윤리성, 신뢰성은 기능의 문제이다. 윤리 교육과 인류의 정신적 각성을 통해서, 혹은 방향 모를 노력과 열정으로 해결되는 문제가 아니다. 엔비디아가 주식시장에서 압도적인 주인공이 된 시점에서, 이미 AI 산업은 더는 '미래산업'이 아니다. 고고한 담론과 무의미한 노력으로 낭비할 시간이, 적어도 산업 현장에는 없다.




[출처]​
- 관련 기사 :
https://www.koit.co.kr/news/articleView.html?idxno=123341
- 사진 :
조세일보


MAGAZINE LIST
 
2024-06-24
THINKFORBL COLUMN SERIES
데이터 센터 붐, 중요한 건 거기에 무엇을 채우냐다
정보통신신문
 
We think for a better life.