API suara real-time OpenAI, yang diumumkan seminggu yang lalu, tampaknya sedang menggemparkan dunia. Pengembang menindak X, membagikan kreasi mereka menggunakan API suara waktu nyata.
Penawaran baru dari pembangkit tenaga AI yang dipimpin oleh Sam Altman memungkinkan aplikasi melakukan percakapan yang alami dan real-time dengan penggunanya. Sejak pengumuman tersebut, setiap hari membawa peluang baru. Menonton demo ini membuat asisten AI atau chatbot populer lainnya terlihat tidak berguna.
Berikut adalah beberapa contoh liar yang dibagikan oleh pengembang di X.
Percakapan dengan Picasso
Kasus penggunaan luar biasa ini menyediakan aplikasi melukis yang dikontrol suara. Menurut biografi X-nya, Jordan Singer, pendiri Mainframe, sebuah perusahaan komputasi generatif, membagikan kreasi barunya dengan API suara real-time OpenAI di X. Singer menyebutnya TeleDra, sebuah aplikasi menggambar eksperimental yang menggabungkan suara real-time. dan pola gambar. Ini mengeksplorasi antarmuka inovatif dengan menggunakan model kompatibilitas laten terbaru yang memungkinkan pengguna membuat karya seni melalui perintah suara. Singer memamerkan UI unik yang meniru panggilan telepon, mendorong batas-batas teknologi interaktif.
🎨 Teknologi baru memerlukan antarmuka baru
Berikut ini aplikasi menggambar yang berbeda, dengan model kesesuaian laten real-time: pic.twitter.com/XwNKzt2vF0
— Penyanyi Jordan (@jsngr) 3 Desember 2023
Pembaca Pikiran PDF
Pengguna X lainnya, Markus Scheiser, yang mengaku sebagai penggemar teknologi, membuat obrolan suara untuk dokumen. Disebut Obrolan Suara PDF, alat ini dibuat menggunakan OpenAI Realtime API, Llama Index, dan Next.js. Aplikasi ini memungkinkan pengguna untuk mengobrol dengan dokumen mereka sendiri. Demo yang dibagikan oleh Schiesser menunjukkan fitur tersebut menggunakan dokumen melalui standar surat fisik, menyoroti bagaimana pengguna dapat berinteraksi dengan konten menggunakan suara secara real time.
Ingin ngobrol melalui dokumen Anda sendiri menggunakan yang baru @OpenAI API waktu nyata?
Anda sekarang dapat melakukannya menggunakan PDF Obrolan Suara yang dibuat menggunakan @llama_index Dan @Berikutnya.
Video di bawah ini menunjukkan contoh penggunaan dokumen tentang standar pengiriman fisik.
— Markus Schiesser (@MarkusSchiesser) 4 Oktober 2024
Asisten untuk wawancara tiruan
Ken Ejima, mantan kepala Quora Jepang, berbagi tentang pewawancara AI yang melakukan wawancara tiruan, yang pada dasarnya menanyai orang-orang di resume mereka. Aplikasi wawancara tiruan baru memungkinkan pengguna melatih keterampilan wawancara dengan mengunggah CV atau resume mereka untuk pertanyaan yang didukung AI. Saat ini mendukung aplikasi Stanford MBA dan memungkinkan satu uji coba gratis setiap 24 jam. Itu dibangun dengan Remix, Render, Quadrant dan Cloudflare R2.
🚀 Baru Saja Diluncurkan! 🚀
Latih keterampilan wawancara Anda menggunakan aplikasi wawancara tiruan 2 menit kami @OpenAIAPI real-time baru dari
🎤 Unggah CV Anda dan biarkan pewawancara AI bertanya tentang pengalaman Anda.
Cobalah secara gratis! pic.twitter.com/5fcPG5UfhJ
— Ken Ejima (@ken) 11 Oktober 2024
Browser yang dikontrol suara
Insinyur perangkat lunak Sawyer membagikan browser yang dikontrol suara di Hood X. Dengan browser ini, mereka cukup membuka apa yang mereka cari dan mengucapkannya dengan lantang. Browser ini dibuat menggunakan API real-time OpenAI dan memungkinkan pengguna menavigasi Internet melalui perintah suara. Sistem menerapkan format DOM adaptif untuk pemahaman halaman yang andal, menghindari kerumitan HTML mentah. Browser saat ini sedang dalam pengembangan dan menurut Hood, browser tersebut bertujuan untuk menyediakan interaksi web berbasis suara yang lancar.
OpenEye Realtime API sakit! Saya menghubungkannya untuk mengontrol browser saya sehingga saya dapat menjelajahi web dengan suara saya 🤯 pic.twitter.com/sCsNOz1OXr
— Sawyer Hood (@sawyerhood) 4 Oktober 2024
Asisten bisnis Anda
Wily Douhard, seorang pengembang, telah membuat asisten suara yang dapat melacak harga beberapa saham menggunakan suara Anda. Dowhard menciptakan sesuatu yang disebut Chainlit Realtime yang mendukung WebSockets untuk interaksi audio real-time dengan mengintegrasikan API suara real-time OpenAI. Aplikasi ini menunjukkan bagaimana pengembang dapat membuat asisten responsif yang menyiarkan perintah dan respons audio dengan lancar.
🎙️Chainlit Waktu Nyata telah tiba! 🎙️
ChainLit menghadirkan dukungan WebSocket kelas satu untuk interaksi audio real-time dalam aplikasi.
Kami telah menambahkan dukungan @OpenAI API real-time untuk membuka UX baru bagi pengembang yang membangun asisten yang cerdas dan responsif. pic.twitter.com/RxEUtqOGyI
— Willy Douhard (@willy_douhard) 4 Oktober 2024
Teman anime real-time Anda
Bryan Pratte, pendiri Hallway.AI, menunjukkan bagaimana API realtime OpenAI yang dikombinasikan dengan ExpressionEngine dapat menghidupkan karakter anime. Berdasarkan demo, integrasi ini tampaknya memungkinkan interaksi suara real-time dengan karakter animasi. Ini menawarkan pengalaman mendalam seperti yang terlihat pada demo di bawah.
OpenAI Realtime API + ExpressionEngine membuka dunia baru. Ngobrol dengan @join_hallway Karakter keren! pic.twitter.com/oYckyuEilu
– Brian Pratte (@btp4z7) 1 Oktober 2024
Pada tanggal 1 Oktober, OpenAI memperkenalkan API realtime yang memungkinkan pengembang membangun aplikasi dengan interaksi langsung. API ini mendukung kemampuan bicara-ke-teks, teks-ke-ucapan, dan percakapan waktu nyata, sehingga memungkinkan terciptanya asisten dinamis dan pengalaman suara. API real-time memungkinkan aplikasi yang sangat responsif, karena audio dan teks dikirimkan bolak-balik.
Menurut OpenAI, API ini dirancang untuk kasus penggunaan seperti asisten virtual, alat kolaborasi langsung, dan aplikasi pendidikan interaktif. Realtime API menggunakan model bahasa OpenAI yang canggih untuk menghadirkan percakapan real-time yang lancar sehingga meningkatkan keterlibatan dan interaksi pengguna di berbagai kasus penggunaan.