أعلنت شركة Stability AI عن إطلاق نموذجها الجديد Stable Diffusion 3.5 Large، والذي يعد واحدًا من أكثر النماذج تقدمًا في مجال تحويل النص إلى صورة، حيث يحتوي على ثمانية مليارات معلمة.
تستند هذه النسخة الجديدة إلى بنية Multimodal Diffusion Transformer (MMDiT) وتستخدم ثلاثة مشفرات نصية مدربة مسبقًا، تشمل OpenCLIP-ViT/G وCLIP-ViT/L وT5-xxl. حيث تتمتع هذه المشفرات بطول سياق يصل إلى 77 توكن، مما يعزز قدرات النموذج في معالجة المعلومات النصية.
يمكن للمستخدمين الوصول إلى النموذج عبر واجهة برمجة التطبيقات (API) من خلال خدمات Stability AI وReplicate وDeepinfra، ويتوفر خيار الاستخدام المحلي للنموذج عبر ComfyUI أو Diffusers.
تشير التقارير إلى أن النموذج الجديد يقدم تحسينات مقارنة بالإصدار الثالث، حيث تم تعزيز الجمالية والفوتوراليزم، رغم أن دقة التناسق في الأنظمة البشرية لا تزال بحاجة إلى تحسين.
النموذج متاح بموجب رخصة Stability Community License، التي تسمح بالاستخدام المجاني للأغراض البحثية وغير التجارية، وكذلك للأعمال التجارية ذات الإيرادات السنوية أقل من 1 مليون دولار.
تتطلب المؤسسات ذات الإيرادات السنوية المتجاوزة للمليون دولار الحصول على ترخيص تجاري عبر التواصل مع Stability AI.
نموذج Stable Diffusion 3.5 Large يمثل خطوة هامة في تطوير تقنيات الذكاء الاصطناعي، ويفتح أفقًا واسعًا للابتكارات في مجالات متعددة.