Pembangkit tenaga AI OpenAI baru-baru ini menyelesaikan edisi kedua OpenAI DevDay, konferensi pengembang perusahaan. Meskipun OpenAI DevDay 2023 memamerkan beberapa penawaran seperti GPT-4 Turbo, Assistants API, dan GPT khusus, konferensi tahun ini merupakan acara yang tenang tanpa peluncuran produk besar. Namun, acara tersebut memamerkan beberapa peningkatan bertahap dan bagaimana perusahaan bertujuan menentukan arahnya di masa depan.

OpenAI memamerkan empat inovasi di acara tersebut: penyempurnaan visi, API real-time, penangkapan cepat, dan penyulingan model. Alat-alat ini membantu pengembang membangun aplikasi menarik agar tetap bertahan di ekosistem pengembang. Dengan OpenAI DevDay 2024, perusahaan yang dipimpin Sam Altman bertujuan untuk memberdayakan pengembang. Ini adalah perubahan penting dalam strategi perusahaan pada saat perusahaan teknologi besar bersaing dengan penawaran AI mereka.

Lihatlah lebih dekat alat inovatif dari OpenAI di sini.

API waktu nyata

OpenAI telah memperkenalkan API real-time dalam versi beta publik. Alat ini memungkinkan semua pengembang pembayaran menciptakan latensi rendah dan pengalaman multimoda di aplikasi mereka. Seperti mode suara lanjutan ChatGPT, API real-time menawarkan percakapan ucapan-ke-ucapan alami dengan enam preset termasuk Alloy, Echo, Fable, Onyx, Nova, dan Shimmer. OpenAI mengatakan akan memperkenalkan input dan output audio di API Penyelesaian Obrolan untuk kasus penggunaan back-end yang tidak memerlukan latensi rendah dari API waktu nyata. Menurut perusahaan, pengembang dapat mengirimkan input teks atau audio apa pun ke GPT-4o dan model dapat merespons menggunakan teks, audio, atau keduanya berdasarkan pilihan mereka.

Pada dasarnya, ini berarti pengembang kini dapat menambahkan kontrol suara ChatGPT ke aplikasi. Dengan API waktu nyata, pengguna kini dapat melakukan percakapan intuitif dengan aplikasi. Meskipun pengembang menggunakan pengalaman suara untuk terhubung dengan pengguna, mereka perlu bekerja dengan beberapa model agar dapat berfungsi. API Penyelesaian Obrolan bersama dengan API Real-Time memudahkan pengembang untuk memberikan pengalaman suara. OpenAI mengatakan dapat menciptakan pengalaman percakapan yang intuitif dengan satu panggilan API.

Realtime API saat ini tersedia dalam versi beta publik untuk semua pengembang berbayar. Kemampuan audio pada alat ini disediakan oleh model GPT-4o baru, gpt-4o-realtime-preview. Perusahaan mengatakan akan merilis fitur audio dalam beberapa minggu mendatang sebagai model baru yang disebut gpt-4o-audio-preview, yang memungkinkan pengembang memasukkan teks atau audio ke GPT-4o dan menerima respons dalam audio, teks, atau keduanya. . API Realtime menggunakan token teks dan token audio. Biaya token input teks adalah $5 untuk 1 juta dan $20 untuk token keluaran 1 juta, input audio adalah $100 untuk 1 juta token dan output adalah $200 untuk 1 juta token.

Penglihatan berubah dengan baik

Penawaran meriah

Penyempurnaan visi adalah salah satu pembaruan terpenting dalam acara tersebut. OpenAI mengumumkan penyempurnaan Vision untuk GPT-4o, model bahasa besar yang paling mumpuni. Dengan fitur ini pengembang dapat menyesuaikan kemampuan model AI dalam memahami gambar dan teks. Inovasi ini dapat bermanfaat bagi bidang kendaraan otonom, pencarian visual, pencitraan medis, dan lain-lain dalam jangka panjang.

Menurut OpenAI, penyesuaian visi mengikuti proses yang sama seperti penyesuaian teks, artinya pengembang kini dapat menyiapkan kumpulan data gambar untuk mengikuti format yang benar dan kemudian mengunggahnya ke platform OpenAI. Perusahaan mengatakan fitur ini meningkatkan kinerja GPT-4o untuk tugas penglihatan hanya dengan 100 gambar. Ini juga dapat mendorong kinerja tinggi dengan data teks dan gambar dalam jumlah besar.

OpenAI mengutip Grab, perusahaan pengiriman makanan dan rideshare di Asia Tenggara yang telah menggunakan teknologi ini untuk meningkatkan layanan pemetaannya. Hanya dengan 100 unit, perusahaan mencapai peningkatan akurasi penghitungan jalur sebesar 20 persen dan peningkatan lokalisasi rambu batas kecepatan sebesar 13 persen. Dengan demikian, potensi penyesuaian visi menjadi sangat besar dan akan berdampak besar pada layanan berbasis AI.

Penyimpanan cepat

Caching Cepat akan menjadi sorotan utama di OpenAI DevDay 2024. Fitur baru ini dimaksudkan untuk mengurangi biaya dan latensi guna mendukung pengembang. Banyak pengembang mengandalkan konteks yang sama berulang kali dalam banyak panggilan API saat membuat aplikasi AI. “Hari ini, kami memperkenalkan cache cepat, yang memungkinkan pengembang mengurangi biaya dan latensi. Dengan menggunakan kembali token input yang baru-baru ini terlihat, pengembang bisa mendapatkan pengurangan hingga 50 persen dan waktu pemrosesan yang lebih cepat,” kata OpenAI dalam postingan resminya.

Caching cepat diterapkan pada versi terbaru GPT-4o, GPT-4o mini, o1-preview, dan o1-mini serta versi yang disempurnakan dari model-model ini. OpenAI mengatakan perintah yang di-cache disajikan dengan harga lebih murah dibandingkan dengan perintah yang tidak di-cache. OpenAI telah membagikan detail harga untuk fitur tersebut di situs resminya.

Seperti semua layanan API, Prompt Caching mematuhi komitmen privasi perusahaannya, kata perusahaan itu. Menurut OpenAI, prompt caching adalah alat yang memungkinkan pengembang untuk menskalakan aplikasi mereka dalam produksi sambil menyeimbangkan kinerja, biaya, dan latensi.

Distilasi Model

Menurut OpenAI, Model Distillation menyediakan alur kerja terintegrasi bagi pengembang untuk mengelola seluruh jalur distilasi dari platform OpenAI. Fitur ini memungkinkan pengembang dengan mudah menggunakan keluaran model terdepan seperti o1-Preview dan GPT-4o untuk menyempurnakan dan meningkatkan efisiensi model hemat biaya seperti GPT-4o Mini. Hal ini menguntungkan organisasi kecil untuk memanfaatkan hasil AI dari model canggih tanpa biaya komputasi.

Hingga saat ini, distilasi model merupakan proses multi-langkah dan rawan kesalahan yang mengharuskan pengembang melakukan beberapa operasi secara manual di beberapa alat yang tidak terhubung. Karena sifatnya yang berulang, pengembang perlu menjalankan setiap langkah berulang kali, sehingga membuat tugasnya menjadi lebih rumit dan melelahkan. Distilasi model baru menyederhanakan proses penyempurnaan model yang lebih kecil dan lebih murah menggunakan keluaran dari model yang lebih besar seperti pratinjau GPT-4o dan o1. Fitur baru ini memungkinkan pengembang membuat kumpulan data berkualitas tinggi dengan bantuan contoh dunia nyata, sehingga memungkinkan konversi model besar menjadi versi yang lebih kecil. Distilasi Model tersedia untuk semua pengembang.

Pengumuman pada hari pengembangan OpenAI terbaru menandai perubahan strategis yang signifikan dengan menawarkan lebih banyak fitur yang ditujukan untuk ekosistem pengembang. Dengan pengumuman terbaru, OpenAI tampaknya fokus untuk membuat produknya hemat biaya, mendukung ekosistem pengembang, dan fokus pada efisiensi model. Dengan pembaruan ini, pembangkit tenaga AI bertujuan untuk mengurangi intensitas sumber daya dan dampak lingkungan.



Source link