إغلاق مشروع “Wordfreq” نتيجة تلوث بيانات الذكاء الاصطناعي
أعلنت روبين سبير، مؤسسة مشروع “Wordfreq” المختص في تحليل استخدام اللغة عبر الإنترنت، عن إغلاق المشروع بسبب التلوث الكبير في بيانات الذكاء الاصطناعي. وأكدت سبير أن البيانات المتاحة أصبحت غير موثوق بها، مما يجعل التحليل غير ممكن.
مشروع “Wordfreq” كان يهدف إلى متابعة استخدام أكثر من 40 لغة مختلفة من خلال تحليل محتوى مثل المقالات في ويكيبيديا، والترجمة للأفلام والبرامج، والأخبار، والكتب، بالإضافة إلى منشورات وسائل التواصل الاجتماعي مثل تويتر وريدديت. وكان الهدف من المشروع هو تقييم التغيرات في العادات اللغوية واللغة العامية والثقافة الشعبية.
وفي بيانها، وصفت سبير الوضع الراهن قائلة: “الذكاء الاصطناعي التوليدي قد لوث البيانات، ولا أعتقد أن هناك معلومات موثوقة عن استخدام اللغة من قبل الأشخاص بعد عام 2021”.
وأكدت سبير أن “الويب سكرابينغ” كان مصدرًا هامًا للبيانات، ولكنها الآن تشهد طوفانًا من المحتوى الذي تم توليده بواسطة نماذج لغوية ضخمة، مما يعكس صورة مشوهة عن استخدام الكلمات. كمثال، أشارت إلى كيفية استخدام نموذج ChatGPT لكلمة “فهم”، مما أدى إلى زيادة ملحوظة في استخدامها على الرغم من عدم تغير واقع استخدامها بين الناس.
واعترفت سبير أن “Wordfreq” كان يحتوي دائمًا على بعض المحتوى غير المرغوب فيه، لكنه كان يسهل التعرف عليه. بينما الآن، أنظمة الذكاء الاصطناعي الكبيرة تقوم بتوليد نصوص تبدو وكأنها من تأليف الإنسان، مما يزيد من تعقيد الأمور.
وأضافت سبير أن إمكانية جمع بيانات “الويب سكرابينغ” أصبحت أصعب مع فرض المنصات مثل تويتر وريدديت رسوماً على استخدام واجهات برمجة التطبيقات الخاصة بها. وأوضحت أنها لم تعد ترغب في العمل في مجال كان مرتبطًا بالذكاء الاصطناعي التوليدي وأكدت: “أريد أن أبتعد عن أي شيء يمكن أن يُخلط مع الذكاء الاصطناعي التوليدي أو يمكن أن يفيده”.
اختتمت سبير حديثها بالتعبير عن أملها في أن تدفع شركات مثل OpenAI و Google ثمنًا باهظًا نتيجة الفوضى التي أحدثوها.