Xiaomi kini membangun rangkaian AI yang jauh lebih serius daripada sekadar fitur tambahan di ponsel. Dalam waktu sekitar satu setengah tahun, perusahaan ini meluncurkan model bahasa besar, model audio, model visi, hingga agen otonom yang bisa menjalankan tugas langsung di perangkat.
Langkah itu menunjukkan perubahan arah yang besar. Xiaomi tidak hanya menyiapkan AI untuk konsumen, tetapi juga merangkum seluruh lapisan teknologinya, dari model open-source untuk pengembang sampai fitur di HyperOS, rumah pintar, dan kendaraan listriknya.
Mesin penalaran yang dibuat untuk bersaing
Perjalanan itu dimulai pada April 2025 lewat MiMo-7B, model yang sejak awal diarahkan untuk penalaran dan coding. Dengan 7 miliar parameter, Xiaomi mengklaim model ini mampu tampil jauh di atas kelasnya pada sejumlah tolok ukur matematika.
Pada MATH-500, versi reinforcement learning dilaporkan meraih 95,8 persen. Xiaomi juga menyebut performanya melampaui OpenAI o1-mini serta Alibaba Qwen-32B-Preview dalam kompetisi AIME 2024 dan 2025.
MiMo-7B dilatih dengan 200 miliar token penalaran yang dikurasi khusus. Total proses latihannya mencapai 25 triliun token dalam tiga fase sebelum dirilis dengan lisensi MIT di Hugging Face.
Tim di balik model ini dipimpin Luo Fuli, yang datang ke Xiaomi dari DeepSeek. Rekrutmen itu menegaskan bahwa Xiaomi membangun AI sebagai proyek strategis, bukan pelengkap produk.
Naik kelas ke model raksasa dan agen
Setelah MiMo-7B, Xiaomi melangkah ke MiMo-V2-Flash pada Desember 2025. Model ini memiliki 309 miliar parameter, tetapi hanya sekitar 15 miliar parameter aktif setiap kali dipakai berkat desain Mixture-of-Experts.
Xiaomi menonjolkan dua hal sekaligus, yaitu performa dan kecepatan. Perusahaan menyebut model ini masuk dua besar model open-source pada benchmark penalaran, menyamai GPT-5 dan Claude 4.5 Sonnet di SWE-Bench Verified, serta mampu menghasilkan 150 token per detik.
Biaya inferensinya juga ditekan sangat rendah. Xiaomi mengklaim ongkosnya hanya 2,5 persen dari harga Claude, dengan tarif API $0.1 per juta token input dan akses gratis dalam periode peluncuran terbatas.
MiMo-V2-Flash juga memakai teknik Multi-Token Prediction atau MTP. Pendekatan ini memungkinkan model menghasilkan dan memverifikasi beberapa token sekaligus agar lebih efisien.
Ambisi Xiaomi berlanjut pada Maret 2026 lewat MiMo-V2-Pro. Model ini memiliki lebih dari 1 triliun parameter total, 42 miliar parameter aktif per pass, dan jendela konteks 1 juta token.
Xiaomi menyebut MiMo-V2-Pro dirancang khusus untuk tugas agentic, yakni pekerjaan kompleks bertahap yang membutuhkan perencanaan dan eksekusi tanpa arahan manusia terus-menerus. Sebelum diumumkan resmi, model ini sempat muncul anonim di OpenRouter dengan nama Hunter Alpha.
Model itu kemudian naik cepat ke puncak leaderboard dan memproses lebih dari 1,5 triliun token sebelum akhirnya diakui sebagai milik Xiaomi. Bersamaan dengan itu, perusahaan juga merilis MiMo-V2-Omni dan MiMo-V2-TTS untuk memperluas kemampuan ke teks, gambar, audio, video, dan suara sintetis.
Pada akhir April 2026, Xiaomi menyatukan kemampuan seri V2 ke dalam MiMo-V2.5 dan MiMo-V2.5-Pro. Varian Pro membawa 1,02 triliun parameter dan menangani teks, gambar, audio, serta video dalam satu arsitektur.
Untuk pekerjaan kompleks, MiMo-V2.5-Pro berjalan di kisaran 60 hingga 80 token per detik. Sementara MiMo-V2.5 yang lebih ringan ditujukan untuk penggunaan harian dengan kecepatan 100 hingga 150 token per detik.
Menurut Artificial Analysis, MiMo-V2.5-Pro sempat menjadi model open-source nomor satu dunia untuk kemampuan agentic saat diluncurkan. Xiaomi juga menghapus biaya tambahan untuk konteks penuh 1 juta token dan mereset kredit pengguna agar lebih ramah bagi pengembang.
Awal Juni 2026, Xiaomi memperkenalkan MiMo Code. Agen coding berbasis terminal ini dibangun di atas MiMo-V2.5 dan dibekali sistem memori persisten agar keputusan tetap terlacak dalam proyek jangka panjang.
Audio, visi, dan rumah pintar ikut masuk
Di sisi audio, Xiaomi merilis MiDashengLM-7B pada Agustus 2025. Model ini dilatih dengan dataset 38.662 jam dan memakai pendekatan general audio caption sehingga tidak hanya memahami kata, tetapi juga musik, suara lingkungan, emosi pembicara, dan konteks akustik.
MiDashengLM-7B dibangun di atas Qwen2.5-Omni-7B dari Alibaba. Model ini sudah ditanamkan ke kendaraan listrik dan perangkat rumah pintar Xiaomi, lalu dirilis di bawah lisensi Apache 2.0 untuk penggunaan komersial.
Xiaomi juga menerbitkan MiMo-Audio, lalu mengintegrasikan encoder audionya ke MiMo-V2.5 untuk mendukung pengalaman omnimodal. Di sisi visual, Xiaomi menghadirkan MiMo-VL dan varian rumah MiMo-VL-Miloco-7B.
Model Miloco dirancang untuk memahami lingkungan rumah, termasuk mengenali gestur seperti jempol, tanda OK, peace sign, dan telapak tangan terbuka. Model ini juga dapat mengidentifikasi aktivitas rumah tangga seperti menonton TV, berolahraga, atau membaca.
Xiaomi menyusunnya dengan kombinasi supervised fine-tuning dan reinforcement learning agar tetap relevan untuk skenario rumah tanpa kehilangan kemampuan umum. Pada saat yang sama, perusahaan memperluas sisi suara sintetis lewat MiMo-V2.5-TTS dan sistem ASR untuk membangun produk suara end-to-end.
Pada Mei 2026, Xiaomi AI Lab melalui tim next-gen Kaldi merilis OmniVoice sebagai open-source. Model text-to-speech zero-shot voice cloning ini mendukung 646 bahasa, termasuk banyak bahasa dengan data pelatihan minim.
OmniVoice dapat menyalin suara hanya dari beberapa detik audio referensi, lalu menghasilkan ucapan alami lintas bahasa sambil mempertahankan karakter suara asli. Secara teknis, model ini memakai arsitektur single-transformer dan memetakan teks langsung ke token akustik.
Xiaomi menyebut pendekatan itu memungkinkan pelatihan 100.000 jam data audio dalam satu hari dan inferensi hingga 40 kali kecepatan real-time menggunakan PyTorch.
Dari ponsel ke ekosistem penuh
Di sisi pengguna umum, Xiaomi mengandalkan Xiao AI dan HyperAI. Xiao AI yang sudah lama hadir di ponsel, speaker pintar, dan wearable kini ditingkatkan lewat HyperOS 2 menjadi Super Xiao AI.
Pembaruan itu membawa memori konteks yang lebih baik, kontrol perangkat rumah pintar yang lebih cerdas, serta kemampuan membuat gambar dari teks. HyperAI yang diperkenalkan secara global di MWC 2025 juga mulai hadir di Xiaomi 15 series.
Paket fitur itu mencakup terjemahan real-time, bantuan menulis, pengenalan suara cerdas yang mampu merangkum rekaman, serta penyuntingan foto AI. Untuk perangkat global, Google Gemini dipakai sebagai backend.
Langkah paling agresif ada pada miclaw, agen AI otonom berbasis MiMo yang diumumkan pada Maret 2026 dan masih dalam closed beta. Agen ini tidak berhenti pada jawaban teks, tetapi bisa membuka aplikasi, menavigasi antarmuka, mengisi formulir, dan berinteraksi dengan alat sistem.
Xiaomi menyebut mekanismenya sebagai inference-execution loop, yaitu AI merencanakan tindakan, mengeksekusi, memeriksa hasil, lalu melanjutkan hingga tugas selesai. Miclaw juga memiliki memori kontekstual yang memadatkan interaksi lama sambil menjaga tujuan awal tetap utuh.
Agen ini dapat terhubung ke ekosistem rumah pintar dan mobil Xiaomi, serta versi beta saat ini mendukung Xiaomi 17 series. Untuk privasi, Xiaomi menyatakan interaksi pengguna tidak dipakai untuk melatih model AI.
Data pribadi diproses secara real-time untuk menjalankan perintah, sementara informasi sensitif ditangani secara lokal melalui pendekatan yang disebut edge-cloud privacy computing. Lei Jun pada Maret 2026 juga menyampaikan bahwa Xiaomi akan menginvestasikan setidaknya $8.7 miliar ke AI dalam tiga tahun.
Dengan belanja R&D tahunan yang diproyeksikan mencapai sekitar 40 miliar yuan pada 2026, Xiaomi menargetkan grand convergence yang menyatukan chip, sistem operasi, dan model AI miliknya dalam satu perangkat. Dampak awal strategi itu mulai terlihat ketika model-model Xiaomi disebut menangkap sekitar 21 persen traffic di OpenRouter pada awal April 2026.
