Jannah Theme License is not validated, Go to the theme options page to validate the license, You need a single license for each domain name.
تكنولوجيا

تطلق جامعة هارفارد مجموعة بيانات ضخمة مجانية للتدريب على الذكاء الاصطناعي بتمويل من OpenAI وMicrosoft


أعلنت جامعة هارفارد يوم الخميس أنها ستصدر مجموعة بيانات عالية الجودة تضم ما يقرب من مليون كتاب من كتب المجال العام والتي يمكن لأي شخص استخدامها لتدريب نماذج لغوية كبيرة وأدوات الذكاء الاصطناعي الأخرى. تم إنشاء مجموعة البيانات من خلال مبادرة البيانات المؤسسية التي تم تشكيلها حديثًا في جامعة هارفارد بتمويل من كل من Microsoft وOpenAI. يحتوي على كتب تم مسحها ضوئيًا كجزء من مشروع Google Books والتي لم تعد محمية بموجب حقوق الطبع والنشر.

يبلغ حجم قاعدة بيانات مبادرة البيانات المؤسسية حوالي خمسة أضعاف حجم مجموعة بيانات Books3 سيئة السمعة التي تم استخدامها لتدريب نماذج الذكاء الاصطناعي مثل Meta’s Llama، وتغطي الأنواع والعقود واللغات، مع تضمين كلاسيكيات شكسبير وتشارلز ديكنز ودانتي إلى جانب كتب الرياضيات التشيكية الغامضة. وقواميس الجيب الويلزية. يقول جريج ليبيرت، المدير التنفيذي لمبادرة البيانات المؤسسية، إن المشروع عبارة عن محاولة “لتحقيق تكافؤ الفرص” من خلال منح عامة الناس، بما في ذلك اللاعبين الصغار في صناعة الذكاء الاصطناعي والباحثين الأفراد، إمكانية الوصول إلى نوع من المعلومات الدقيقة والمتطورة للغاية. مستودعات المحتوى المنسقة التي عادةً ما تكون لدى عمالقة التكنولوجيا المؤسسين فقط الموارد اللازمة لتجميعها. ويقول: “لقد خضعت لمراجعة صارمة”.

يعتقد ليبيرت أنه يمكن استخدام قاعدة البيانات الجديدة ذات الملكية العامة جنبًا إلى جنب مع المواد المرخصة الأخرى لبناء نماذج الذكاء الاصطناعي. يقول: “أعتقد أن الأمر يشبه إلى حد ما الطريقة التي أصبح بها نظام Linux نظام تشغيل أساسيًا لجزء كبير من العالم”، مشيرًا إلى أن الشركات ستظل بحاجة إلى استخدام بيانات تدريب إضافية لتمييز نماذجها عن نماذج منافسيها.

وأكد بيرتون ديفيس، نائب رئيس مايكروسوفت ونائب المستشار العام للملكية الفكرية، أن دعم الشركة للمشروع كان يتماشى مع معتقداتها الأوسع حول قيمة إنشاء “مجموعات من البيانات التي يمكن الوصول إليها” لشركات الذكاء الاصطناعي الناشئة لاستخدامها والتي “تدار في المصلحة العامة.” بمعنى آخر، لا تخطط مايكروسوفت بالضرورة لاستبدال جميع بيانات تدريب الذكاء الاصطناعي التي استخدمتها في نماذجها الخاصة ببدائل المجال العام مثل الكتب الموجودة في قاعدة بيانات هارفارد الجديدة. يقول ديفيس: “نحن نستخدم البيانات المتاحة للعامة لأغراض تدريب نماذجنا”.

مع رفع العشرات من الدعاوى القضائية بشأن استخدام البيانات المحمية بحقوق الطبع والنشر لتدريب الذكاء الاصطناعي في طريقها إلى المحاكم، أصبح مستقبل كيفية بناء أدوات الذكاء الاصطناعي على المحك. إذا فازت شركات الذكاء الاصطناعي بقضاياها، فستكون قادرة على الاستمرار في استخراج الإنترنت دون الحاجة إلى الدخول في اتفاقيات ترخيص مع أصحاب حقوق الطبع والنشر. ولكن إذا خسرت، فقد تضطر شركات الذكاء الاصطناعي إلى إصلاح كيفية صنع نماذجها. تتقدم موجة من المشاريع، مثل قاعدة بيانات هارفارد، على افتراض أنه – بغض النظر عما يحدث – ستكون هناك شهية لمجموعات البيانات ذات النطاق العام.

بالإضافة إلى مجموعة الكتب الثمينة، تعمل مبادرة البيانات المؤسسية أيضًا مع مكتبة بوسطن العامة لمسح ملايين المقالات من الصحف المختلفة الموجودة الآن في المجال العام، وتقول إنها مفتوحة لتشكيل تعاونات مماثلة في المستقبل. لم يتم تحديد الطريقة الدقيقة التي سيتم بها إصدار مجموعة بيانات الكتب. طلبت مبادرة البيانات المؤسسية من جوجل العمل معًا على التوزيع العام، لكن عملاق البحث لم يوافق علنًا على استضافتها بعد، على الرغم من أن جامعة هارفارد تقول إنها متفائلة بأنها ستفعل ذلك. (لم تستجب جوجل لطلبات WIRED للتعليق).


اكتشاف المزيد من مدونة الواحة

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من مدونة الواحة

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading