매일경제 컬럼입니다.
https://www.mk.co.kr/news/business/view/2021/05/434441
인간과의 대화를 통해 진화하도록 설계된 마이크로소프트의 AI 챗봇 테이는 페미니즘은 암과 같고 홀로코스트는 조작되었으며 히틀러가 조지 부시 대통령보다 낫다는 발언을 하여 2016년 출시 16시간만에 중단되었다. 흥미로운 점은 마이크로소프트가 2014년 중국에서 출시한 동일한 AI에서는 이런 문제가 나타나지 않았는데, 이는 중국의 검열시스템에 따라 인종차별, 폭력 등에 대한 내용이 학습데이터에서 배제되었기 때문이다.
이렇게 데이터에 내재된 편견을 반영하는 AI의 특성은 MIT 연구진이 개발한 노만이라는 이미지캡션 AI에서 생생하게 드러난다. 연구진은 동일한 알고리즘을 사용하여 해변, 꽃 등 유쾌함을 자아내는 이미지로 ‘정상적’ 노만을 학습시켰고, 죽음, 폭력 등 섬뜩한 이미지를 통해(윤리문제를 고려하여 실제로는 이러한 이미지에 대한 묘사를 사용) ‘끔찍한’ 노만을 훈련시켰다. 이 두 AI에게 인간의 잠재의식을 테스트하기 위해 사용하는 추상적 잉크반점 이미지를 보여 주었는데, 똑같은 이미지에서 정상적 노먼은 웨딩케익, 새 등을 연상했으나, 끔찍한 노만은 총이나 질주하는 자동차에 의해 사람이 살해되는 장면을 기술했다.
흔히 윤리적 차원에서 논의되는 AI의 편향성은 많은 경우 학습데이터에 영향을 받는 AI의 일반적인 특성에서 비롯된다. 표준화된 데이터로 학습한 AI는 데이터에 존재하지 않거나 드물게 나타나는 환경에 직면하면 성능이 현저하게 저하된다. 예를 들어, 정상적인 형태의 모토스쿠터를 정확하게 인식하는 AI도 전복되어 있는 스쿠터를 봅슬레이, 낙하산 등 엉뚱한 물체로 분류한다. 테슬라가 자동주행모드에서 종종 치명적인 사고를 일으키는 것도 이런 이유이다. 데이터의 지역적 편중문제도 해결해야 할 과제인데, 현존하는 AI 시스템은 네팔, 소말리아 등 저소득 국가에서 유래한 이미지를 제대로 인식하지 못한다. 이는 AI 학습데이터가 대부분 소득이 높은 서구국가에서 유래했기 때문이다.
이러한 문제에 대한 해결책으로 주목을 받는 것이 생성적 대립신경망이나 오토인코더 등의 데이터 생성모델이다. 2018년 오바마 대통령의 얼굴에 가짜음성을 합성한 딥페이크 영상으로 주목을 받은 생성모델은 예를 들어, 주어진 풍경사진을 고흐나 세잔의 화풍으로 그려내기도 하고, 고 김광석씨의 생전에 존재하지 않았던 노래를 김광석씨의 음성으로 재생해 내기도 한다.
생성모델은 나아가 흔하지 않은 사물의 형태나 장면을 합성하여 학습데이터에 추가함으로써 자율주행차의 사고를 줄일 수 있다. 의료분야에서도 생성모델을 이용한 연구가 한창이다. 방사선으로 인한 부작용을 줄이기 위해 방사선 양을 줄인 저선량 CT 영상은 노이즈가 증가하는 단점이 있는데, 생성모델을 사용하여 저선량 CT에서 노이즈를 제거, 일반 CT수준으로 품질을 향상시켜 진단의 정확도를 높일 수 있다.
생성모델은 인종차별, 성차별, 개인정보보호 등 AI의 윤리문제에도 기여할 수 있다. 구글 AI가 흑인여성을 고릴라고 인식했던 사례에서 볼 수 있듯이 현존 안면인식 AI 는 피부색이 어두운 사람을 상대적으로 잘 인식하지 못하는데, 생성모델로 부족한 데이터를 보완해 주면 AI의 인종차별 논란도 줄일 수 있다. 데이터보호법은 정보보호를 위해 개인식별정보를 익명화할 것을 명시하고 있으나 익명화된 데이터의 재식별 가능성은 여전히 문제로 남아 있다. 2019년의 한 연구는 익명화된 데이터에서 15 가지 인구통계적 특성을 이용하여99.9%의 사람들을 재식별해 낼 수 있다는 사실을 보여 주었다. 생성모델은 단순히 데이터를 익명화하는 것을 넘어 기존데이터와 유사한 데이터를 생성하여 재식별 문제를 해결할 수 있다. 이처럼 생성모델은 AI의 편향성, 정보보호, 데이터의 품질 등 다양한 영역에서 실무자들과 연구자들이 직면하는 문제에 대한 해결책을 제시할 수 있을 것으로 보인다.
|