텍스트로부터 이미지를 생성하는 오픈소스 Disco/Stable-Diffusion 을 실행해봅니다.
<그림> disco diffusion - sample images |
1. 초거대 AI 를 이용한 이미지 생성기
text-to-image
또는 이미지 생성기 중에서 AI 아트
라는 장르를 생성하고 있다. 초기 이미지 생성 모델에 속하는데, diffusion 이란 이름으로 몇몇 알고리즘들이 오픈소스로 풀려서 상업적으로 이용이 가능하다. 최근에는 깃허브 - stable diffusion 도 나왔다.
입력 문장을 이용해 다음 문장을 생성하는 NLP 기술과 원리가 흡사하다.
1) 깃허브 - disco diffusion 란?
장면을 설명하는 프롬프트를 사용하여 텍스트를 이미지로 변환하는 데 사용할 수 있는 AI 모델링 기술중의 하나이고, Dall-E 가 나오면서 조명되기 시작했다. 이를 활용한 여러 이미지 생성 알고리즘 중에서 disco diffusion 은 비교적 초기에 오픈소스로 풀려서 널리 알려져 있다.
참고: DALL·E 2
DALL·E 2 is a new AI system that can create realistic images and art from a description in natural language.
참고: 루트코스키 화풍
폴란드 출신 디지털 아티스트 그렉 루트코스키(Greg Rutkowski)
루트코스키 특유의 화풍은 이제 지난달 말 오픈소스로 출시된 AI 이미지 생성 프로그램인 스테이블 디퓨젼(Stable Diffusion) 이용자들이 가장 많이 입력하는 프롬프트(명령어) 중 하나가 됐다.
2) 참고문서
- creator nightcafe studio
- 다른 사람들이 생성해 놓은 이미지들을 감상해볼 수 있다. (좋아요 평가)
- 직접 문구를 작성해 나만의 이미지를 생성할 수도 있고
- 유투브 - Animations in Disco Diffusion V4.1 & V5.2. A quick tutorial & a few tips.
- 생성한 이미지로 생성된 애니메이션
2. Disco Diffusion 실행해보기
참고문서
- 유투브 - Get Started with Disco Diffusion in Google Colab to Create “AI” Generated Art (First Run)
- 유투브 - Quick Start on using AI to render images using Disco Diffusion
1) Colab 소스 열고 사본으로 저장
- 불필요한 부분들을 모두 날리자.
- 숫자로 단계가 표시된 부분만 있으면 된다.
- Colab 실행 환경에 GPU 설정을 확인
2) Setting 수정
3. Settings
Basic Settings:
- batch_name 입력 : ‘tutorial’
- 이미지 생성 중 출력물이 저장되는 폴더 이름
- width_height_for_512x512_models :
[500, 300]
- 생성할 이미지 사이즈 (작을수록 빨라진다)
Init Image Settings:
- init_image : None
- 이미지 생성을 위한 초기 이미지 (없어도 된다)
- 있으면, 초기 이미지로부터 조금씩 변형을 시작하여 이미지 생성
- 튜토리얼에서는 스타워즈 도킹 베이를 사용했다.
- skip_steps: 25
- 건너뛰기
Extra Settings:
- intermediate_saves : 10
- 스텝별로 저장할 중간 이미지 개수
Prompts: (핵심 입력사항!!)
- text_prompts
- 이미지를 설명하는 텍스트
1
2
3
text_prompts = {
0: ["5 uniformed men working with 8 robots in the middle of a huge docking bay of a spaceship, ridley scott, cinematic lighting, octane, depth of field"],
}
3) Colab 실행
- 순서적으로 실행
- Set Up
- Diffusion and CLIP model settings
- Custom model settings : 필요없음 (건너뛰자)
- Diffusion and CLIP model settings
- Settings
- Diffuse!
- 이미지가 생성되는 과정을 볼 수 있다. (재밋다)
- Diffuse!
- 선택사항
- Create the video
3. 생성된 이미지
1) 초기 이미지
원본 이미지 : starwars docking bay
<그림> disco diffusion - 초기 이미지 |
2) 스텝별 생성된 이미지
<그림> disco diffusion - step #00 |
<그림> disco diffusion - step #05 |
<그림> disco diffusion - step #11 |
<그림> disco diffusion - step #17 |
<그림> disco diffusion - step #29 |
<그림> disco diffusion - step #36 |
<그림> disco diffusion - step #49 |
4. 추가 : Stable Diffusion 이미지 생성
- 어지간히 유명한 상징물 아니면 구체적으로 설정하지 못하는군요
- 제주 사진들을 추가해서 재학습 과정이 필요한듯
1) “제주 판포리 항구에서 스노쿨링 즐기기”
<그림> stable diffusion - 제주 판포리 스노쿨링 |
2) “제주도 감귤밭에서 사진 찍기”
<그림> stable diffusion - 제주도 감귤밭 사진 찍기 |
9. Review
- 파라미터를 조정해도 최소 30~40분 걸린다.
- 원하는 이미지를 생성하기 위한 제어가 쉽지 않다.
- 다른 이들은 그럼에도 곧잘 만들어내고 있다.
- 데코라던지 흥미거리로 그림을 사용할 수준은 된다.
- 이정도 발전 속도라면 웹소설이 웹툰으로 바뀌는 시대도 멀지 않을듯
끝! 읽어주셔서 감사합니다.