DSpark DeepSeek, Cara Baru Mempercepat AI Tanpa Chip Flagship

Add on Google

DeepSeek mengklaim DSpark bisa mempercepat inferensi AI secara signifikan, dengan peningkatan kapasitas layanan hingga sekitar 85 persen. Klaim itu langsung menarik perhatian karena terjadi tanpa bergantung pada chip paling canggih yang selama ini dianggap menjadi kunci utama performa model besar.

Bagi industri AI, terutama di China, langkah seperti ini punya bobot besar. Akses terhadap chip AI kelas atas dari Nvidia masih dibatasi sanksi Amerika Serikat, sementara kebutuhan komputasi untuk layanan AI terus membesar.

Fokus utama DSpark ada pada efisiensi, bukan kecerdasan model

DeepSeek menjelaskan bahwa DSpark adalah framework speculative decoding untuk keluarga model V4. Tujuannya bukan membuat model menjadi lebih pintar, melainkan membuat penyajian respons jauh lebih efisien dan cepat.

Perusahaan itu menegaskan bahwa percepatan ini menyasar waktu respons atau inferensi AI, yaitu waktu yang dibutuhkan model untuk menjawab permintaan pengguna. Dengan kata lain, DSpark bekerja di sisi penyajian output, bukan pada kemampuan dasar model.

Cara kerjanya mengandalkan model ringan dan verifikasi batch

Dalam proses biasa, model bahasa menghasilkan teks satu token demi satu token. Cara ini cenderung lambat saat jawaban yang diminta panjang, karena setiap token membutuhkan komputasi baru.

DSpark memakai speculative decoding untuk memotong hambatan tersebut. Model draft yang lebih ringan lebih dulu mengusulkan respons, lalu model utama memeriksa hasilnya dalam batch alih-alih membangunnya dari awal.

Jika usulan model kecil cocok, sistem bisa melompat lebih jauh dalam proses generasi. Jika meleset, alurnya kembali ke jalur normal, tetapi DeepSeek menyebut sebagian besar token relatif mudah diprediksi.

Perusahaan itu juga mengatakan seluruh proses tetap berjalan di GPU tanpa memindahkan beban ke CPU. Langkah ini penting karena perpindahan pekerjaan ke CPU kerap menambah latensi dan menurunkan efisiensi.

Selain itu, DSpark menggunakan metode semi-autoregressive generation. Sistem dapat menghasilkan potongan kecil token sekaligus, sehingga keluaran bisa muncul lebih cepat dibanding pendekatan satu token per langkah.

Kapasitas bisa naik tanpa ekspansi besar-besaran

DeepSeek memberi ilustrasi sederhana untuk menggambarkan dampaknya. Jika satu GPU sebelumnya hanya sanggup menangani 100 permintaan pengguna, kapasitas itu disebut dapat meningkat menjadi sekitar 185 permintaan dengan DSpark.

Klaim tersebut relevan karena biaya komputasi menjadi salah satu beban terbesar di industri AI. Pusat data memerlukan ribuan GPU kelas atas untuk menjalankan model dalam skala besar, sementara permintaan layanan terus bertambah.

Di saat yang sama, ongkos penggunaan token juga makin disorot banyak perusahaan. DeepSeek menyinggung kondisi ketika perusahaan seperti Uber dan Walmart membatasi penggunaan token AI oleh karyawan karena biaya yang terus naik.

Terbuka untuk model lain dan diuji lintas ekosistem

Riset DSpark telah dibuka ke publik melalui GitHub dan HuggingFace. DeepSeek menyebut proyek itu dikembangkan bersama Peking University, yang menunjukkan pendekatan ini memang disiapkan untuk diuji lebih luas.

Perusahaan juga mengatakan DSpark sudah diuji pada beberapa model open-source lain. Dua yang disebut adalah Gemma dari Google DeepMind dan Qwen dari Alibaba, sehingga potensinya tidak berhenti pada ekosistem DeepSeek saja.

Langkah ini memperluas daya tarik teknologinya. Jika peningkatan serupa bisa dicapai pada model berbeda, DSpark berpeluang menjadi pendekatan efisiensi yang lebih umum di industri.

Persaingan kecepatan inferensi makin ketat

DeepSeek bukan satu-satunya pihak yang mengejar output lebih cepat. Awal bulan ini, tim AI Xiaomi mengatakan model MiMo-V2.5-Pro-UltraSpeed mencapai kecepatan output lebih dari 1.000 token per detik dan disebut termasuk yang tercepat di industri.

Persaingan itu menegaskan bahwa kecepatan inferensi kini sama pentingnya dengan kemampuan model. Dalam praktik bisnis, model yang lebih cepat dan lebih hemat sering kali sama bernilainya dengan model yang lebih kuat, terutama ketika biaya komputasi terus meningkat.

Pada April tahun ini, DeepSeek lebih dulu merilis V4 Preview sebagai opsi hemat biaya untuk menangani input dengan konteks 1 juta. Saat itu, V4-Pro diposisikan untuk performa lebih tinggi, sementara V4-Flash ditujukan sebagai pilihan yang lebih cepat dan lebih murah.

Kemunculan DSpark sejalan dengan arah tersebut karena tetap menyeimbangkan performa, kecepatan, dan biaya. Di tengah persaingan model AI yang semakin mahal, efisiensi kini menjadi keunggulan yang tidak bisa diabaikan.