Apa itu DALL·E 2?

DALL·E 2 adalah program kecerdasan buatan yang membuat gambar dari deskripsi tekstual, diungkapkan pada hari Kamis oleh OpenAI, sebuah perusahaan riset.

Ini menggunakan versi pelatihan parameter 12 miliar dari model transformator GPT-3 untuk menginterpretasikan input bahasa alami dan menghasilkan gambar yang sesuai. Misalnya, ketika diberi kalimat 'foto hitam putih seekor anjing kecil', kalimat itu menghasilkan gambar Chihuahua hitam-putih yang dirender dengan benar.

Sistemnya tidak sempurna — terkadang menghasilkan gambar yang sulit ditafsirkan, atau benar-benar melenceng. Misalnya, ketika diminta untuk membuat gambar 'seseorang mengendarai sepeda roda satu di atas tali di atas gunung berapi', itu menghasilkan gambar matahari terbenam di atas air (indah, menurut saya) tetapi sama sekali tidak berhubungan dengan sosok kecil di latar depan. .

Tetap saja, hasilnya mengesankan, dan OpenAI mengatakan bahwa DALL·E 2 'adalah model AI pertama yang menghasilkan gambar dari deskripsi tekstual yang dapat menandingi kualitas seniman manusia profesional.'

Sistem ini dilatih pada kumpulan data pasangan teks-gambar, yang terdiri dari sekitar 1,3 juta gambar dan keterangan dari Internet yang diambil dan dikuratori oleh OpenAI. Data pelatihan kemudian digunakan untuk menyempurnakan model GPT-3 sehingga dapat menghasilkan gambar dari deskripsi tekstual.

OpenAI mengatakan bahwa sistem dapat menghasilkan gambar 'berkualitas tinggi' dari berbagai deskripsi tekstual, termasuk yang abstrak, konkret, atau bahkan puitis.

Selain contoh Chihuahua, contoh gambar lain yang dihasilkan oleh DALL·E 2 mencakup potret Adolf Hitler yang dirender dengan benar, gambar naga yang terbuat dari sayuran, dan gambar Mona Lisa yang terbuat dari roti panggang.

Sistem ini juga mampu menghasilkan gambar dari hal-hal yang tidak ada, seperti 'floof' (binatang buatan) atau 'tulpa' (bentuk pemikiran).

Secara keseluruhan, hasilnya mengesankan, dan OpenAI mengatakan bahwa sistem 'membuka kemungkinan baru untuk menghasilkan gambar dari deskripsi tekstual.'

DARI E2 Ini Sistem CLIP mengubah informasi teks menjadi informasi visual. Ini adalah paradigma encoder-decoder, yang berarti bahwa ketika input teks disediakan, pertama-tama diubah menjadi input mesin, kemudian diproses oleh sistem, dan akhirnya diteruskan ke decoder, yang mengubah data yang disandikan menjadi gambar.

Apa itu DALL E 2

Apa itu DALL·E 2?

Ini adalah generasi terbaru DALL·E, model bahasa generatif yang menggunakan frasa untuk membuat efek visual yang benar-benar baru. DALL E 2 adalah model 3.5V yang sangat besar, meski tidak sebesar GPT-3. Menariknya, ini juga lebih ringan dari pendahulunya (12B). Dalam hal penyelarasan deskripsi dan fotorealisme, DALL·E 2 70% lebih baik daripada DALL·E 2 meskipun ukurannya lebih besar.

DALL.E 2- penjelasan untuk pemula dengan contoh

Secara khusus, DALL·E 2 adalah model sintesis gambar teks bersyarat hirarkis yang menggabungkan pembelajaran mendalam untuk pemrosesan bahasa alami dengan visi komputer untuk pembuatan gambar. Tujuannya adalah untuk melatih dua model, dan set pelatihan terdiri dari gambar dan deskripsi berpasangan. Yang pertama adalah apriori yang, diberi judul tertulis, dapat dilatih untuk menghasilkan penyematan gambar CLIP. Kami kemudian memiliki dekoder yang, saat menyematkan gambar CLIP (dan keterangan, jika ada), dapat menghasilkan gambar terlatih.

DALLE 2 dilatih menggunakan ratusan juta foto dengan keterangan dari internet, dan beberapa dari gambar tersebut dihapus dan diacak ulang untuk mengubah apa yang dipelajari model. Ini mengambil beberapa opsi gambar lampiran KLIP dan kemudian menggunakannya decoder melewatinya masing-masing. Itu kemudian membuat campuran yang menarik dari semua informasi yang diberikan input pengguna.

Contoh DALL IS 2

Ayo mainkan permainan kecil untuk memahami DALL·E. Mari kita pecahkan menjadi tiga langkah berikutnya.

Bayangkan pelangi, awan, dan unicorn terbang di langit biru. Bayangkan seperti apa gambar itu dalam imajinasi Anda. Orang adalah hal terdekat yang kita miliki dengan analog sempurna dari penyematan gambar, dan gambar yang baru saja muncul di kepala Anda adalah contoh sempurna untuk itu. Anda hanya dapat menebak tentang produk akhir, tetapi Anda memiliki ide bagus tentang apa yang harus disertakan. Model apriori membawa pembaca dari kata-kata dalam frase ke adegan dalam imajinasinya.
Sekarang Anda dapat mulai menggambar. Apa yang dilakukan unCLIP adalah mengubah gambaran mental Anda menjadi sketsa nyata. Sekarang Anda dapat secara akurat membuat ulang karakter lain dari deskripsi yang sama, dengan statistik dasar yang sama, tetapi dengan gaya visual yang benar-benar baru. DALL·E 2 juga dapat menghasilkan gambar unik dari gambar yang sudah ada yang disematkan dengan cara ini.
Perhatikan sketsa yang Anda buat. Inilah yang terjadi ketika Anda membuat sketsa deskripsi 'unicorn di tengah awan, dan pelangi muncul di langit.' Sekarang periksa gambar dan teks untuk menentukan apa yang paling menggambarkan yang lain (matahari, rumah, pohon, dll.) Dan apa yang paling baik menggambarkan materi pelajaran, gaya, warna, dll. Yang dilakukan CLIP adalah menyandikan karakteristik. teks dan gambar.

Sekarang setelah kita mengetahui apa itu DALL-E, mari beralih ke bagian selanjutnya dan memahami fitur-fiturnya.

Tip: Cara membuat gambar realistis dengan layanan DALL-E-2 AI

Menampilkan DALL E 2

Di bawah ini adalah spesifikasi DALL·E 2.

Variasi
Warna
Perbedaan Teks

Mari kita bicarakan secara detail.

cara membuat kartu nama di word 2010

1] Variasi

DALL·E 2 lebih dari sekadar menerjemahkan kalimat menjadi gambar. OpenAI dapat bereksperimen dengan proses generatif, menghasilkan hasil yang berbeda untuk tanda tangan yang diberikan berkat penyematan CLIP yang kuat. Apa yang CLIP 'lihat' dalam 'pikirannya' adalah apa yang dianggap penting dari input (tetap sama untuk semua gambar) dan apa yang dapat diganti (yang berubah untuk gambar yang berbeda). Kapan pun memungkinkan, DALL·E 2 akan menyimpan 'informasi yang bermakna... dan aspek estetika'.

2] Mewarnai

DALL·E 2 dapat memodifikasi foto yang ada dengan pengisian otomatis. Pada contoh berikut, gambar kiri adalah gambar asli, dan foto tengah dan kanan memiliki elemen yang digambar di tempat yang berbeda. DALL·E 2 cocok dengan elemen tambahan pada Picture Style. Itu juga memperbarui tekstur dan refleksi untuk mencerminkan elemen baru.

Membaca : Apa yang dapat Anda lakukan dengan ChatGPT

3] Perbedaan teks

DALL·E 2 mengonversi gambar menggunakan perbedaan teks. DALL·E 2 juga memiliki kemampuan interpolasi lanjutan yang memungkinkan Anda memodifikasi objek. Seorang pengguna Twitter dapat 'membongkar' iPhone-nya. twitter.com untuk memeriksanya.

Jika Anda menyukai fitur-fitur ini, yang harus Anda lakukan adalah pergi ke openai.com dan kemudian mendaftar. Anda dapat membuat akun baru atau menggunakan akun Microsoft atau Google yang sudah ada untuk mendaftar. Setelah Anda melakukannya, Anda akan mendapatkan beberapa kredit gratis, jika Anda menginginkan lebih, Anda harus membayarnya.

Ini adalah beberapa fitur DALL·E 2, ini memiliki banyak kasus penggunaan yang bagus, namun selalu disarankan untuk tidak terlalu bergantung pada alat AI. Bagaimanapun, mereka hanyalah alat yang digunakan untuk menyelesaikan pekerjaan, mereka tidak akan pernah bisa menggantikan kecerdasan emosional seseorang.

Baca juga: Aplikasi, Perangkat Lunak, dan Situs Web Deepfake Terbaik.