إطلاق “Pyramid Flow”: شبكة عصبية مفتوحة المصدر لتوليد الفيديوهات

https://arclub.site/?p=104196

تكنولوجيا

نشر في: أكتوبر 10, 2024

كتبنا وتعبنا، شاركها وفرحنا

إطلاق نموذج “Pyramid Flow” المفتوح المصدر لتوليد الفيديوهات

أعلن باحثون من جامعة بكين وشركة Kuaishou Technology وجامعة بكين للبريد والاتصالات عن إطلاق نموذج “Pyramid Flow”، وهو نموذج رائد في مجال التعلم الآلي مصمم لتوليد الفيديوهات بدقة متناهية.

ويستطيع هذا النموذج إنتاج فيديوهات تصل مدتها إلى 10 ثوانٍ بدقة 768 بكسل ومعدل إطارات يبلغ 24 إطارًا في الثانية. كما يدعم النموذج وضعيات “text-to-video” و”image-to-video”، مما يتيح للمستخدمين تحويل النصوص والصور إلى محتوى مرئي. وقد عُمل على تدريب هذه النموذج باستخدام مجموعة بيانات مفتوحة على مدى 20,000 ساعة GPU، باستخدام مسرعات الرسوميات Nvidia A100.

أظهرت اختبارات الفريق المطور أن “Pyramid Flow” يتفوق على النماذج الحالية الأخرى المتاحة لتوليد الفيديو، مثل Kling وGen-3 Alpha. كما أجرت الفريق مقارنة شملت أكثر من 20 متطوعًا، حيث أظهرت النتائج أن المشاركين أبدوا تفضيلًا واضحًا لنعومة الفيديوهات الناتجة عن “Pyramid Flow”.

تم نشر نماذج “Pyramid Flow” على منصة Hugging Face، حيث يتوفر أيضًا تطبيق توضيحي للمستخدمين. ويمكن العثور على إرشادات التشغيل عبر GitHub.

ويُعتبر هذا الابتكار خطوة كبيرة في عالم الذكاء الاصطناعي وتوليد المحتوى، مما يجعله أداة قيمة للمبدعين والمطورين في مختلف الصناعات.

تابع حسابنا على تلغرام