Disco Diffusion 실행해보기 (Stable 추가)

텍스트로부터 이미지를 생성하는 오픈소스 Disco/Stable-Diffusion 을 실행해봅니다.


<그림> disco diffusion - sample images

1. 초거대 AI 를 이용한 이미지 생성기

text-to-image 또는 이미지 생성기 중에서 AI 아트 라는 장르를 생성하고 있다. 초기 이미지 생성 모델에 속하는데, diffusion 이란 이름으로 몇몇 알고리즘들이 오픈소스로 풀려서 상업적으로 이용이 가능하다. 최근에는 깃허브 - stable diffusion 도 나왔다.

입력 문장을 이용해 다음 문장을 생성하는 NLP 기술과 원리가 흡사하다.

1) 깃허브 - disco diffusion 란?

장면을 설명하는 프롬프트를 사용하여 텍스트를 이미지로 변환하는 데 사용할 수 있는 AI 모델링 기술중의 하나이고, Dall-E 가 나오면서 조명되기 시작했다. 이를 활용한 여러 이미지 생성 알고리즘 중에서 disco diffusion 은 비교적 초기에 오픈소스로 풀려서 널리 알려져 있다.

참고: DALL·E 2

DALL·E 2 is a new AI system that can create realistic images and art from a description in natural language.

https://openai.com/dall-e-2/

참고: 루트코스키 화풍

폴란드 출신 디지털 아티스트 그렉 루트코스키(Greg Rutkowski)

루트코스키 특유의 화풍은 이제 지난달 말 오픈소스로 출시된 AI 이미지 생성 프로그램인 스테이블 디퓨젼(Stable Diffusion) 이용자들이 가장 많이 입력하는 프롬프트(명령어) 중 하나가 됐다.

2) 참고문서

creator nightcafe studio
- 다른 사람들이 생성해 놓은 이미지들을 감상해볼 수 있다. (좋아요 평가)
- 직접 문구를 작성해 나만의 이미지를 생성할 수도 있고
유투브 - Animations in Disco Diffusion V4.1 & V5.2. A quick tutorial & a few tips.
- 생성한 이미지로 생성된 애니메이션

2. Disco Diffusion 실행해보기

참고문서

1) Colab 소스 열고 사본으로 저장

불필요한 부분들을 모두 날리자.
- 숫자로 단계가 표시된 부분만 있으면 된다.
Colab 실행 환경에 GPU 설정을 확인

2) Setting 수정

3. Settings

Basic Settings:

batch_name 입력 : ‘tutorial’
- 이미지 생성 중 출력물이 저장되는 폴더 이름
width_height_for_512x512_models : [500, 300]
- 생성할 이미지 사이즈 (작을수록 빨라진다)

Init Image Settings:

init_image : None
- 이미지 생성을 위한 초기 이미지 (없어도 된다)
- 있으면, 초기 이미지로부터 조금씩 변형을 시작하여 이미지 생성
  - 튜토리얼에서는 스타워즈 도킹 베이를 사용했다.
skip_steps: 25
- 건너뛰기

Extra Settings:

intermediate_saves : 10
- 스텝별로 저장할 중간 이미지 개수

Prompts: (핵심 입력사항!!)

text_prompts
- 이미지를 설명하는 텍스트

  
text_prompts = {
    0: ["5 uniformed men working with 8 robots in the middle of a huge docking bay of a spaceship, ridley scott, cinematic lighting, octane, depth of field"],
}

3) Colab 실행

순서적으로 실행
- 1. Set Up
- 1. Diffusion and CLIP model settings
    - Custom model settings : 필요없음 (건너뛰자)
- 1. Settings
- 1. Diffuse!
    - 이미지가 생성되는 과정을 볼 수 있다. (재밋다)
선택사항
- 1. Create the video