Alibaba telah meluncurkan model kecerdasan buatan terbaru mereka, Qwen 2.5-Max, yang diklaim melampaui kemampuan model terkemuka seperti DeepSeek-V3, GPT-4o dari OpenAI, dan Llama-3.1-405B dari Meta.
Peningkatan Kinerja
Dalam berbagai pengujian benchmark, Qwen 2.5-Max menunjukkan performa unggul:
Also Read
- Arena-Hard: Mencapai skor 89,4, melampaui DeepSeek-V3 yang memperoleh 85,5.
- LiveBench: Mendapatkan skor 62,2, dibandingkan dengan 60,5 yang diraih oleh DeepSeek-V3.
- LiveCodeBench: Mencatat skor 38,7, sedikit lebih tinggi dari DeepSeek-V3 yang memiliki skor 37,6.
- GPQA-Diamond: Meraih skor 60,1, mengungguli DeepSeek-V3 dengan skor 59,1.
Hasil ini menunjukkan bahwa Qwen 2.5-Max memiliki keunggulan dalam berbagai tugas, termasuk pemahaman bahasa, pemrograman, dan pengetahuan umum.
Arsitektur dan Teknologi
Qwen 2.5-Max dibangun dengan menggunakan arsitektur “mixture of experts”, mirip dengan pendekatan yang digunakan oleh DeepSeek. Pendekatan ini memungkinkan model untuk mengalokasikan sumber daya komputasi secara efisien, meningkatkan kinerja tanpa memerlukan peningkatan signifikan dalam daya komputasi.
Dampak di Pasar
Peluncuran Qwen 2.5-Max oleh Alibaba menandai langkah signifikan dalam persaingan di bidang kecerdasan buatan, terutama dalam menanggapi kemajuan yang dibuat oleh perusahaan seperti DeepSeek. Dengan klaim kinerja yang superior, Alibaba berupaya memperkuat posisinya dalam industri AI global.