DALL·E 3 시스템 카드 - 오픈AI에서 발표한 논문 요약본

XRD Lab.
2023-10-10 02:27
OpenAI, DALL·E 3 System Card, 2023.10.3
source: https://cdn.openai.com/papers/DALL_E_3_System_Card.pdf

(ChatGPT를 이용한 요약정리입니다. Hallucination Effect를 피하기 위해 원문 확인 필수.)
* DALL-E 3는 텍스트 프롬프트를 받아 이미지를 출력으로 생성하는 AI 시스템입니다.
* 캡션 충실도와 이미지 품질을 개선하여 DALL-E 2를 기반으로 합니다.
* 이 모델은 공개 및 라이선스 데이터베이스에서 가져온 이미지와 해당 캡션에 대한 학습을 거쳤습니다.
* DALL-E 3는 GPT-4를 기반으로 구축된 OpenAI의 공개용 어시스턴트인 ChatGPT에 통합되었습니다.
* 사용자가 모호한 이미지 요청을 GPT-4에 제공하면 DALL-E 3가 보다 설득력 있는 이미지를 생성할 수 있도록 자세한 프롬프트를 생성합니다.

완화 스택:
* 노골적인 성적, 폭력적 콘텐츠와 혐오 상징을 포함한 노골적인 콘텐츠를 훈련 데이터에서 필터링하기 위해 노력했습니다.
* DALL-E 3의 데이터 필터링은 DALL-E 2에 사용된 알고리즘을 확장했습니다.
* 이 모델에는 ChatGPT 거부, 프롬프트 입력 분류기, 차단 목록, 프롬프트 변환, 이미지 출력 분류기와 같은 추가 완화 기능이 있습니다.

배포 준비:
* ChatGPT의 소수의 알파 사용자 그룹과 Discord의 신뢰할 수 있는 사용자를 대상으로 DALL-E 3의 초기 프로토타입을 출시했습니다.
* 알파 테스트 데이터를 분석하여 유명인 세대, 인구통계학적 편향성, 선정적인 콘텐츠 등의 영역에서 DALL-E 3의 동작을 개선하는 데 도움이 되었습니다.

* 주요 위험 영역에 대한 내부 평가가 개발되었습니다.
* 인구통계학적 편견, 선정적인 이미지, 의도하지 않은 선정적인 이미지, 유명인 세대에 초점을 맞춘 평가가 이루어졌습니다.

외부 레드팀:
* OpenAI는 DALL-E 3를 개발하는 동안 내부 및 외부 레드 팀링을 모두 수행했습니다.
* 레드팀은 생물학적, 화학적, 무기 관련 위험, 잘못된 정보 위험, 선정적인 이미지, 편견과 관련된 사회적 위험 등 위험 환경을 변화시킬 수 있는 기능을 탐색했습니다.

위험 영역 및 완화 조치:
* 선정적인 콘텐츠: DALL-E 3의 초기 버전은 선정적인 콘텐츠를 생성할 수 있습니다. 완화 조치에는 입력 및 출력 필터, 차단 목록, ChatGPT 거부, 모델 수준 개입이 포함되었습니다.
* 선정적인 콘텐츠에 대한 출력 분류기: 출력 이미지에서 선정적인 콘텐츠를 감지하고 방지하기 위해 맞춤형 분류기가 구축되었습니다. 분류기 아키텍처는 CLIP 이미지 인코더와 안전 점수 예측을 위한 소규모 보조 모델을 결합했습니다.
* 원치 않는 선정성 및 경계선 선정성 콘텐츠: 일부 양성 프롬프트는 DALL-E 3에서 선정적이거나 경계선에 있는 선정적인 콘텐츠, 특히 여성 이미지를 생성하도록 유도했습니다. 이 동작을 해결하기 위해 완화 기능이 개발되었습니다.

DALL-E 3 시스템 카드 논문에 대한 요약정리었습니다. 더 자세히 살펴보고 싶은 특정 섹션이나 주제가 있으면 알려주세요!


* DALL·E 3 is an AI system that takes a text prompt and generates an image as output.
* It builds upon DALL·E 2 by enhancing caption fidelity and image quality.
* The model was trained on images and their corresponding captions sourced from public and licensed databases.
* DALL·E 3 is integrated into ChatGPT, OpenAI's public-facing assistant built on GPT-4.
* When a user provides a vague image request to GPT-4, it will generate a detailed prompt for DALL·E 3 to produce a more compelling image.

Mitigation Stack:
* Efforts were made to filter explicit content from the training data, including graphic sexual and violent content and hate symbols.
* The data filtering for DALL·E 3 extended the algorithms used for DALL·E 2.
* The model has additional mitigations such as ChatGPT refusals, prompt input classifiers, blocklists, prompt transformations, and image output classifiers.

Deployment Preparation:
* An early prototype of DALL·E 3 was launched with a small group of alpha users on ChatGPT and trusted users on Discord.
* Analysis of the alpha trial data helped improve DALL·E 3's behavior in areas like public figure generations, demographic biases, and racy content.

* Internal evaluations were developed for key risk areas.
* Evaluations focused on demographic biases, racy imagery, unintended racy imagery, and public figure generations.

External Red Teaming:
* OpenAI conducted both internal and external red teaming of DALL·E 3 during its development.
* Red teaming explored capabilities that could alter the risk landscape, including biological, chemical, weapon-related risks, misinformation risks, racy imagery, and societal risks related to bias.

Risk Areas and Mitigations:
* Racy Content: Early versions of DALL·E 3 could generate racy content. Mitigations included input and output filters, blocklists, ChatGPT refusals, and model-level interventions.
* Output Classifier For Racy Content: A bespoke classifier was built to detect and prevent racy content in output images. The classifier architecture combined a CLIP image encoder with a small auxiliary model for safety score prediction.
* Unsolicited Racy and Borderline Racy Content: Some benign prompts led DALL·E 3 to generate suggestive or borderline racy content, especially images of women. Mitigations were developed to address this behavior.

This is a more detailed summary of the DALL·E 3 System Card. If you have any specific sections or topics you'd like to delve deeper into, please let me know!
Total 0