API suara real-time OpenAI, yang diumumkan seminggu yang lalu, tampaknya sedang menggemparkan dunia. Pengembang menindak X, membagikan kreasi mereka menggunakan API suara waktu nyata.

Penawaran baru dari pembangkit tenaga AI yang dipimpin oleh Sam Altman memungkinkan aplikasi melakukan percakapan yang alami dan real-time dengan penggunanya. Sejak pengumuman tersebut, setiap hari membawa peluang baru. Menonton demo ini membuat asisten AI atau chatbot populer lainnya terlihat tidak berguna.

Berikut adalah beberapa contoh liar yang dibagikan oleh pengembang di X.

Percakapan dengan Picasso

Kasus penggunaan luar biasa ini menyediakan aplikasi melukis yang dikontrol suara. Menurut biografi X-nya, Jordan Singer, pendiri Mainframe, sebuah perusahaan komputasi generatif, membagikan kreasi barunya dengan API suara real-time OpenAI di X. Singer menyebutnya TeleDra, sebuah aplikasi menggambar eksperimental yang menggabungkan suara real-time. dan pola gambar. Ini mengeksplorasi antarmuka inovatif dengan menggunakan model kompatibilitas laten terbaru yang memungkinkan pengguna membuat karya seni melalui perintah suara. Singer memamerkan UI unik yang meniru panggilan telepon, mendorong batas-batas teknologi interaktif.

Pembaca Pikiran PDF

Pengguna X lainnya, Markus Scheiser, yang mengaku sebagai penggemar teknologi, membuat obrolan suara untuk dokumen. Disebut Obrolan Suara PDF, alat ini dibuat menggunakan OpenAI Realtime API, Llama Index, dan Next.js. Aplikasi ini memungkinkan pengguna untuk mengobrol dengan dokumen mereka sendiri. Demo yang dibagikan oleh Schiesser menunjukkan fitur tersebut menggunakan dokumen melalui standar surat fisik, menyoroti bagaimana pengguna dapat berinteraksi dengan konten menggunakan suara secara real time.

Asisten untuk wawancara tiruan

Ken Ejima, mantan kepala Quora Jepang, berbagi tentang pewawancara AI yang melakukan wawancara tiruan, yang pada dasarnya menanyai orang-orang di resume mereka. Aplikasi wawancara tiruan baru memungkinkan pengguna melatih keterampilan wawancara dengan mengunggah CV atau resume mereka untuk pertanyaan yang didukung AI. Saat ini mendukung aplikasi Stanford MBA dan memungkinkan satu uji coba gratis setiap 24 jam. Itu dibangun dengan Remix, Render, Quadrant dan Cloudflare R2.

Browser yang dikontrol suara

Insinyur perangkat lunak Sawyer membagikan browser yang dikontrol suara di Hood X. Dengan browser ini, mereka cukup membuka apa yang mereka cari dan mengucapkannya dengan lantang. Browser ini dibuat menggunakan API real-time OpenAI dan memungkinkan pengguna menavigasi Internet melalui perintah suara. Sistem menerapkan format DOM adaptif untuk pemahaman halaman yang andal, menghindari kerumitan HTML mentah. Browser saat ini sedang dalam pengembangan dan menurut Hood, browser tersebut bertujuan untuk menyediakan interaksi web berbasis suara yang lancar.

Asisten bisnis Anda

Wily Douhard, seorang pengembang, telah membuat asisten suara yang dapat melacak harga beberapa saham menggunakan suara Anda. Dowhard menciptakan sesuatu yang disebut Chainlit Realtime yang mendukung WebSockets untuk interaksi audio real-time dengan mengintegrasikan API suara real-time OpenAI. Aplikasi ini menunjukkan bagaimana pengembang dapat membuat asisten responsif yang menyiarkan perintah dan respons audio dengan lancar.

Teman anime real-time Anda

Bryan Pratte, pendiri Hallway.AI, menunjukkan bagaimana API realtime OpenAI yang dikombinasikan dengan ExpressionEngine dapat menghidupkan karakter anime. Berdasarkan demo, integrasi ini tampaknya memungkinkan interaksi suara real-time dengan karakter animasi. Ini menawarkan pengalaman mendalam seperti yang terlihat pada demo di bawah.

Pada tanggal 1 Oktober, OpenAI memperkenalkan API realtime yang memungkinkan pengembang membangun aplikasi dengan interaksi langsung. API ini mendukung kemampuan bicara-ke-teks, teks-ke-ucapan, dan percakapan waktu nyata, sehingga memungkinkan terciptanya asisten dinamis dan pengalaman suara. API real-time memungkinkan aplikasi yang sangat responsif, karena audio dan teks dikirimkan bolak-balik.

Menurut OpenAI, API ini dirancang untuk kasus penggunaan seperti asisten virtual, alat kolaborasi langsung, dan aplikasi pendidikan interaktif. Realtime API menggunakan model bahasa OpenAI yang canggih untuk menghadirkan percakapan real-time yang lancar sehingga meningkatkan keterlibatan dan interaksi pengguna di berbagai kasus penggunaan.



Source link