Fransız yapay zeka şirketi Mistral, konuşma verilerini anlayabilen ve sesli komutlarla işlem yapabilen ilk açık kaynaklı ses modeli *Voxtral*’i tanıttı. Hem bulut hem de uç cihazlarda çalışabilecek şekilde geliştirilen Voxtral, şirketin üretim ortamlarına uygun ilk ses tabanlı yapay zeka çözümü olma özelliğini taşıyor.
İki farklı versiyonla sunulan modelden 24 milyar parametreli *Voxtral Small*, yüksek doğruluk ve semantik analiz sunarken; daha küçük sistemler için geliştirilen 3 milyar parametreli *Voxtral Mini*, maliyet ve kaynak açısından avantaj sağlıyor. Her iki model de İngilizce, Fransızca, Almanca, İtalyanca, İspanyolca, Portekizce, Hollandaca ve Hintçe dahil olmak üzere çok dilli destek sunuyor.
Voxtral sadece ses transkripsiyonu yapmıyor; aynı zamanda özet çıkarma, sesli soru-cevap ve fonksiyon çağırma gibi gelişmiş görevleri de yerine getiriyor. Kullanıcılar sesli komutlarla API tetikleyebiliyor ve sesli girdiye dayalı iş akışları başlatabiliyor.
Mistral, bu modelleri hem Hugging Face üzerinden açık kaynaklı olarak paylaştı hem de geliştiriciler için API erişimi sundu. Özellikle *Voxtral Mini Transcribe*, düşük maliyetli ses tanıma çözümü olarak OpenAI’ın Whisper modeline alternatif oluşturuyor.
Voxtral, Mistral’in çok modlu yapay zeka stratejisinin bir parçası olarak, metin tabanlı modelleri sesle buluşturmayı hedefliyor. Şirketin sohbet botu *Le Chat* üzerinde test edilen Voxtral, 6 Ağustos’ta Inworld ile yapılacak bir etkinlikte canlı demolarla tanıtılacak.