http://www.aitimes.com/news/articleView.html?idxno=146968
이 글은 GDSC EWHA 팀블로그에서 아티클 게시글 예시 포스트입니다. 아티클이라 하면 최신 IT 동향을 다루고 있는 주제 무관 기사를 의미하며, 아티클 게시글은 흥미로운 이야기가 있다면 나누자는 취지의 글이 되기를 기대합니다. 뿐만 아니라 자유 형식이기 때문에 이 글은 참고만 해주셨으면 좋겠습니다. 다만 기사와 함께 간단한 요약글도 작성해 주시면 감사하겠습니다 : )
GAN만으로도 놀라웠었는데..
우연히 유튜브 채널 중 <노마드 코더>에 DALL-E2가 캡션, 즉 자연어로 이루어진 설명을 입력으로 받아서 설명과 동일한 이미지를 생성해 내는데 성공 했다는 소식과 함께 DALL-E의 원리에 대해 설명하는 영상이 올라온 것을 보게 되었습니다.
제가 알고 있었던 생성 모델은 사실 GAN에 멈춰있었기 때문에 흥미가 생겨 동작 원리에 대해 찾아본 내용을 공유하고자 합니다.
DALL-E는 open AI가 공개한 인공지능 모델로, text-to-image 분야에서 제일 고도화된 기술력을 자랑한다고 할 수 있습니다.
위의 사례 demo에서 확인하실 수 있듯이 캡션의 설명과 완벽하게 일치하는 그림을 생성해 냅니다. 뿐만 아니라 이미지를 입력으로 받고 설명과 일치하게 사실적으로 수정 및 변형이 가능하다고 합니다.
이 인공지능 모델은 "diffusion"이라는 과정을 통해서 image와 이를 설명하는 텍스트 사이의 관계를 학습합니다. diffusion이 "흐림"이라는 의미를 갖고 있어서 좀 혼란스러울수는 있으나 이는 DALL-2가 이미지를 못알아보는 이미지로 바꾼뒤에 초기의 고화질의 이미지로 바꾸는 과정을 알아서 학습하기 때문에 붙은 이름입니다. 처음에는 랜덤한 "점"에서 시작해서 점진적으로 랜덤한 패턴을 이미지와 유사해지도록 변화합니다.
각설하고, 사실 아래 링크를 확인해 주시면 더 자세한 원리를 이해하기가 쉬울것 같아요. 실제로 제가 DALL-E2관련 영어 자료들의 늪에서 허우적거리다가 최초로 발견한 한글 설명이기도 해서 참고 해 주세요!
https://byline.network/2022/06/27-200/
물론 이러한 DALL-E2도 한계가 분명히 있습니다. 학습데이터에 포함되지 않은 내용은 올바른 결과를 도출하지 못한다는 거죠. 특히 폭력적, 혐오, 선정적인 과 같은 단어는 학습을 아얘 시키지 않았으며, 인터넷에서 구할 수 있는 이미지로만 학습을 시킨 것이기 때문에 고정관념도 어쩔수 없이 갖고 있다고 합니다.
윤리적인 문제들
그치만 역시나 인공지능 기술의 발전과 함께 윤리적인 문제가 빠질 수 없을 것이라 생각합니다.
http://www.aitimes.com/news/articleView.html?idxno=145944
http://www.aitimes.com/news/articleView.html?idxno=145517
상업적인 저작권 관련해서 예술 작품을 모방한다거나 상표권을 뺏어갈 수 있는 문제를 다룬 첫번째 기사와 범죄로 악용이 될 수 있는 DALL-E의 놀랍지만 무서운 기술력을 다룬 두번째 기사 또한 읽어보시면 좋을 것 같아요. : )
'자유 공간' 카테고리의 다른 글
GDSC 팀블로그 가이드라인 [소모임편] (0) | 2022.09.28 |
---|---|
[개발 팁] OSS Licenses Gradle Plugin 사용하기 (0) | 2022.09.28 |
댓글