Samsung Electronics, yapay zekâ verimliliğini ölçmek için Samsung Research tarafından geliştirilen tescilli benchmark çözümü TRUEBench'i (Trustworthy Real-world Usage Evaluation Benchmark) tanıttı. TRUEBench, büyük dil modellerinin (LLM'ler) gerçek dünya iş verimliliği uygulamalarındaki performansını değerlendiren kapsamlı bir metrik seti sunuyor. Çözüm, gerçekçi değerlendirmeler için çeşitli diyalog senaryoları ve çok dilli koşullardan yararlanıyor.

Samsung'un kendi yapay zekâ teknolojilerine dayanan TRUEBench, içerik oluşturma, veri analizi, özet çıkarma ve çeviri gibi yaygın kurumsal görevleri 10 ana kategori ve 46 alt kategoride inceliyor. Benchmark, yapay zekâ destekli otomatik değerlendirmelerle görevlere güvenilir puanlar veriyor. Bu puanlamalar, insan ve yapay zekânın iş birliğiyle geliştirilen kriterlere dayanıyor.

Samsung Electronics Dijital Deneyimler CTO'su ve Samsung Research Başkanı Paul (Kyungwhoon) Cheun, “Samsung Research, gerçek dünya yapay zekâ deneyimleriyle müşterilerine güçlü uzmanlık ve rekabet avantajı sunuyor. TRUEBench'in üretkenlik işlerinde standartlar oluşturacağına ve Samsung'un teknoloji liderliğini güçlendireceğine inanıyoruz” dedi.

Son dönemde yapay zekâ benimsenmesi arttıkça büyük dil modellerinin üretkenliğini ölçme ihtiyacı da yükseldi. Mevcut kriterler çoğunlukla İngilizce odaklı ve tek tur soru-cevap yöntemleriyle sınırlı olduğu için gerçek çalışma ortamlarını tam yansıtamıyor. TRUEBench ise 10 kategori ve 12 dilde 2.485 test setiyle çok dilli ve çok senaryolu değerlendirme sağlıyor. Testler, yapay zekâ modellerinin gerçek sorunlara nasıl çözüm sunduğunu inceliyor. Ayrıca, kolay taleplerden uzun belge özetlemeye kadar 8 ila 20.000 karakter arasında değişen içeriklerle farklı görevler değerlendiriliyor.

Yapay zekâ modellerinin performansını değerlendirirken yanıtların doğruluğunu belirleyen net kriterlere sahip olmak kritik önemde. Gerçek yaşamda kullanıcı talepleri her zaman açık olmayabiliyor. TRUEBench, sadece yanıtların doğruluğunu değil, kullanıcıların örtük ihtiyaçlarını da dikkate alarak gerçekçi değerlendirmeler yapıyor.

Samsung Research’ün geliştirdiği TRUEBench'te, değerlendirme kriterleri önce gerçek insan yorumcular tarafından oluşturuluyor, ardından yapay zekâ tarafından incelenip hatalar ve tutarsızlıklar kontrol ediliyor. Sonrasında insan yorumcular kriterleri iyileştiriyor. Bu döngü tekrarlanarak daha hassas ve tutarlı standartlar ortaya çıkıyor. Böylece kişisel önyargılar en aza indiriliyor ve her testte tüm koşulların karşılanması gerekiyor, bu da daha detaylı ve doğru puanlama sağlıyor.

TRUEBench'in veri örnekleri ve puanlama tabloları, küresel açık kaynak platformu Hugging Face'de erişime sunuluyor. Kullanıcılar beş modele kadar karşılaştırma yapabiliyor ve yapay zekâ performanslarını kapsamlı şekilde inceleyebiliyor. Ayrıca ortalama yanıt süreleri de paylaşılıyor, böylece performans ve verimlilik eş zamanlı değerlendirilebiliyor.

Kaynak: (BYZHA) Beyaz Haber Ajansı