Blackwell Menurunkan Biaya Token AI, Pusat Data Bergeser Menjadi Pabrik Efisiensi

Author: Redaksi Android62

Biaya per token kini menjadi ukuran yang semakin menentukan dalam persaingan AI generatif. Ukuran ini dinilai lebih dekat dengan kebutuhan bisnis karena langsung menunjukkan seberapa murah sebuah sistem menghasilkan keluaran yang dipakai pengguna.

Perubahan cara pandang ini membuat pusat data tidak lagi cukup dipuji karena memiliki GPU mahal atau daya hitung besar. Yang lebih dicermati sekarang adalah apakah infrastruktur tersebut mampu bekerja efisien, stabil, dan menghasilkan token dalam skala besar dengan biaya serendah mungkin.

Ukuran yang lebih dekat dengan kebutuhan bisnis

Biaya per token mencerminkan efisiensi total sistem AI, bukan hanya kekuatan satu komponen perangkat keras. Metrik ini menggabungkan perangkat keras, perangkat lunak, jaringan, dan tingkat pemanfaatan sistem ke dalam satu ukuran yang langsung terkait dengan output layanan AI.

Bagi pelaku bisnis, pendekatan ini lebih mudah dipahami dibanding sekadar melihat spesifikasi komputasi. Saat perusahaan menjalankan model generative AI, pertanyaan utamanya bukan hanya seberapa kuat GPU yang dipakai, tetapi berapa biaya yang dibutuhkan untuk menghasilkan token dalam jumlah besar.

Pabrik token AI mulai jadi kerangka baru

NVIDIA menggambarkan pusat data sebagai “pabrik token AI” untuk menekankan perubahan fokus tersebut. Dalam kerangka ini, nilai sebuah infrastruktur tidak lagi diukur semata dari performa komputasi, melainkan dari kemampuannya menekan biaya produksi token tanpa menurunkan kualitas layanan.

Ukuran keberhasilan pun bergeser. Jika sebelumnya perhatian banyak tertuju pada FLOPS per dolar, kini yang dikejar adalah berapa banyak token yang bisa dihasilkan dengan biaya serendah mungkin.

Jarak efisiensi Hopper dan Blackwell

NVIDIA membandingkan GPU generasi Hopper dan Blackwell untuk menunjukkan seberapa besar lompatan efisiensi yang terjadi. Hopper disebut mampu menghasilkan sekitar 90 token per detik per GPU dengan biaya sekitar USD4,20 per juta token.

Blackwell tampil jauh lebih efisien dengan sekitar 6.000 token per detik per GPU dan biaya hanya USD0,12 per juta token. Walau harga sewa GPU Blackwell lebih tinggi, output yang jauh lebih besar membuat biaya operasional turun hingga 35 kali lipat.

Optimisasi perangkat lunak ikut menekan biaya

Penurunan biaya token tidak hanya bergantung pada perangkat keras baru. NVIDIA juga menyoroti sejumlah teknik optimisasi yang membantu proses generasi token menjadi lebih hemat.

Teknik yang disebut mencakup presisi FP4, speculative decoding, multi-token prediction, dan offloading KV-cache. Kombinasi pendekatan itu membuat output bisa naik tanpa mendorong biaya naik secara sebanding.

Dampak ke penyedia layanan dan model bisnis AI

Sejumlah cloud partner seperti CoreWeave, Nebius, Nscale, dan Together AI disebut mulai mengadopsi Blackwell. Langkah ini diarahkan untuk menghadirkan layanan AI dengan biaya token serendah mungkin.

Bagi bisnis AI, penurunan biaya per token membuka ruang yang lebih sehat bagi margin. Perusahaan dapat memperluas layanan, menjaga harga tetap kompetitif, dan menilai total cost of ownership atau TCO dengan cara yang lebih relevan.

Pergeseran ini menunjukkan bahwa kompetisi AI bergerak dari sekadar berburu GPU mahal menuju upaya membangun mesin efisiensi. Dalam situasi seperti itu, biaya per token menjadi acuan yang semakin penting untuk menilai seberapa baik infrastruktur AI mengubah daya komputasi menjadi layanan yang bernilai bagi pengguna dan bisnis.

Source: www.medcom.id
Berita Terbaru