Google Bawa Gemini Omni Flash, Penyuntingan Video Kini Bisa Lewat Percakapan

Add on Google

Google menempatkan Gemini Omni langsung ke arah yang lebih praktis: penyuntingan video kini bisa dilakukan lewat percakapan alami dengan AI. Pendekatan ini membuat proses kreatif bergeser dari pengaturan timeline yang rumit menjadi instruksi bahasa sehari-hari yang lebih sederhana.

Langkah tersebut bukan sekadar penambahan fitur baru, melainkan bagian dari dorongan Google untuk membangun sistem AI generatif yang mampu memahami banyak jenis media sekaligus. Dari awal, Gemini Omni memang dirancang agar bisa menerima teks, gambar, audio, dan video sebagai masukan, lalu mengolahnya menjadi konten baru tanpa kehilangan konteks dari sumber asal.

Penyuntingan video tidak lagi bergantung pada cara lama

Fitur conversational editing menjadi sorotan utama karena memungkinkan pengguna mengubah video hanya dengan berbicara pada AI. Pengguna cukup memberi arahan secara natural untuk mengubah bagian tertentu dari video tanpa harus memakai alur penyuntingan tradisional.

Dengan model seperti ini, fokus kerja bergeser dari pengoperasian perangkat lunak ke komunikasi langsung dengan sistem AI. Bagi Google, cara ini membuka jalan bagi proses produksi yang lebih ringkas dan lebih mudah diikuti oleh pengguna yang ingin bekerja cepat.

Gemini Omni Flash jadi versi awal yang dipakai Google

Untuk tahap pertama, Google memperkenalkan Gemini Omni Flash sebagai pintu masuk. Versi ini dirancang untuk menghasilkan video dan audio secara simultan dengan pendekatan yang lebih cepat dan responsif.

Google DeepMind menyebut Gemini Omni Flash saat ini mampu menghasilkan video hingga sekitar 10 detik. Perusahaan juga menyampaikan bahwa durasi itu akan terus ditingkatkan dalam pengembangan berikutnya.

Batas awal tersebut menunjukkan bahwa Google sedang membangun fondasi sistem terlebih dahulu. Setelah itu, cakupan dan durasi hasil generatifnya akan diperluas secara bertahap.

Bukan sekadar text-to-video

Gemini Omni tidak diposisikan sebagai alat pembuat video berbasis teks semata. Google menegaskan bahwa kemampuan penalaran Gemini membuat model ini lebih peka terhadap konteks visual, suara, dan hubungan antarobjek yang lebih kompleks.

Perbedaan itu juga terlihat jika dibandingkan dengan Veo. Veo lebih berfokus pada teks ke video, sedangkan Gemini Omni diarahkan untuk bekerja dengan kombinasi input yang lebih fleksibel dari berbagai media.

Artinya, pengguna bisa memulai dari foto, cuplikan video, atau rekaman audio. Sistem kemudian mengolah bahan tersebut menjadi konten baru yang tetap selaras dengan konteks awal.

Masuk ke ekosistem Google yang lebih luas

Google menempatkan Gemini Omni sebagai bagian dari visi besar AI generatif yang menyatu lintas media. Ke depan, model ini direncanakan mendukung generasi gambar dan audio secara langsung dalam satu sistem terpadu.

Integrasi Gemini Omni juga sudah disiapkan untuk sejumlah layanan Google. Daftarnya mencakup aplikasi Gemini, platform kreatif Google Flow, dan YouTube Shorts.

Kehadiran di layanan-layanan itu ditujukan agar proses membuat konten terasa lebih mulus di dalam ekosistem Google. Dengan begitu, AI tidak berhenti sebagai fitur tambahan, tetapi ikut masuk ke alur kerja harian para pembuat konten.

Setiap video AI akan diberi tanda khusus

Google juga memastikan seluruh konten video hasil AI dari Gemini Omni akan diberi watermark SynthID. Tanda ini dipakai untuk membantu identifikasi konten sintetis dan memperkuat transparansi dalam penggunaan AI generatif.

Langkah tersebut menjadi penting di tengah meningkatnya penggunaan media sintetis. Watermark membantu membedakan video hasil AI dari video yang dibuat secara konvensional.

Peluncuran Gemini Omni sekaligus menegaskan arah Google ke era Agentic Gemini. Pada fase ini, AI tidak hanya menjawab pertanyaan, tetapi juga dirancang untuk membuat, mengedit, dan menyelesaikan pekerjaan kreatif dengan lebih mandiri.

Source: www.medcom.id