Gemini 3.5 Flash Justru Paling Mahal, Namun Tertinggal di Uji Coding Android

Add on Google

Gemini 3.5 Flash mencatat hasil yang mengejutkan di Android Bench. Model terbaru Google itu bukan hanya gagal menembus lima besar, tetapi juga menjadi yang paling mahal di daftar pengujian coding Android tersebut.

Data benchmark memperlihatkan performa Gemini 3.5 Flash masih tertinggal dari sejumlah rival dan bahkan dari model Google yang lebih lama. Dalam pengujian itu, OpenAI GPT 5.5 berada di posisi pertama dengan skor 74, sementara GPT 5.4 dan Gemini 3.1 Pro Preview sama-sama meraih 72,4.

Di belakang dua model tersebut, Claude Opus terbaru juga masih berada di atas Gemini 3.5 Flash. Model ini akhirnya finis di posisi keenam dengan skor 63,7, terpaut cukup jauh dari kelompok teratas.

Biaya justru membengkak

Yang membuat hasil ini makin menonjol adalah efisiensinya yang buruk. Berdasarkan data benchmark Google, Gemini 3.5 Flash rata-rata memakai 355,9 total token per run.

Penggunaan token itu mendorong biaya rata-rata menjadi $147.1 per run. Angka tersebut menempatkan Gemini 3.5 Flash sebagai model termahal di seluruh peringkat, meski hasilnya masih kalah dari beberapa pesaing utama.

Situasi ini memunculkan pertanyaan baru bagi pengembang yang menimbang rasio harga dan hasil. Model yang dibanderol lebih tinggi biasanya diharapkan memberi lompatan kemampuan, tetapi hasil Android Bench menunjukkan hal sebaliknya untuk skenario pengembangan Android.

Citra Flash yang tidak sepenuhnya terbukti

Google sebelumnya memperkenalkan Gemini 3.5 Flash di Google I/O 2026 dan menyebutnya sebagai model Flash paling bertenaga yang pernah dibuat. Perusahaan juga mengatakan model ini punya kemampuan coding yang lebih kuat serta dukungan lebih baik untuk AI agent dan alur kerja kompleks.

Dalam paparan yang sama, Google menyebut Gemini 3.5 Flash mengungguli Gemini 3.1 Pro pada sejumlah benchmark internal. Perusahaan juga mengklaim output model tersebut bisa hingga empat kali lebih cepat dibanding model frontier pesaing.

Namun hasil di Android Bench memberi gambaran berbeda. Setidaknya untuk tugas pengembangan Android yang diuji pada leaderboard itu, Gemini 3.5 Flash belum menunjukkan keunggulan yang sejalan dengan posisi premium dan biaya penggunaannya.

Model lama justru lebih masuk akal

Perbandingan paling mencolok datang dari Gemini 3.1 Pro Preview. Model lama Google itu tidak hanya meraih skor lebih tinggi, tetapi juga disebut 9to5Google membutuhkan biaya sekitar sepertiga dari Gemini 3.5 Flash.

Bagi pengembang, kombinasi itu membuat model lama tampak lebih menarik untuk pekerjaan Android. Hasil ini juga memperkuat kesan bahwa pembaruan generasi tidak otomatis berarti peningkatan pada semua kasus penggunaan.

Dominasi GPT 5.5 di puncak daftar menambah tekanan kompetitif bagi Google. Kehadiran GPT 5.4 dan Claude Opus di atas Gemini 3.5 Flash menunjukkan bahwa pasar model coding makin padat.

Untuk ekosistem Android, temuan ini bisa memengaruhi pilihan alat kerja harian. Jika sebuah model menawarkan biaya lebih tinggi tetapi hasil benchmark lebih rendah, adopsinya berpotensi melambat sampai ada peningkatan yang jelas.

Pada saat yang sama, hasil ini tidak serta-merta berarti Gemini 3.5 Flash lemah di semua bidang. Data yang tersedia hanya menunjukkan bahwa performanya pada tugas pengembangan Android di leaderboard tersebut belum sekuat ekspektasi.

Masih terbuka kemungkinan Google meningkatkan model ini lewat pembaruan berikutnya. Sorotan kini juga mengarah pada Gemini 3.5 Pro, yang diharapkan bisa lebih sesuai dengan janji performa Google.