يتفوق النموذج الجديد لـ Anthropic على التفكير والتخطيط ، ولديه مهارات Pokã © Mon لإثبات ذلك

أعلنت الأنثروبور اثنين نماذج جديدة ، Claude 4 Opus و Claude Sonnet 4 ، خلال مؤتمر المطور الأول في سان فرانسيسكو يوم الخميس. سيكون الزوج متاحًا على الفور لدفع مشتركي كلود.
وتقول الشركة إن النماذج الجديدة ، التي تقفز اتفاقية التسمية من 3.7 مباشرة إلى 4 ، لها عدد من نقاط القوة ، بما في ذلك قدرتها على التفكير والتخطيط وتذكر سياق المحادثات خلال فترات طويلة من الزمن. Claude 4 Opus هو أيضًا أفضل في لعب Pokã © Mon من سابقتها.
يقول مايك كريجر ، كبير موظفي المنتجات في الأنثروبور في مقابلة مع Wired. في السابق ، كان الأطول الذي يمكن أن يلعبه النموذج هو 45 دقيقة فقط ، كما أضاف متحدث باسم الشركة.
قبل بضعة أشهر ، أطلقت الأنثروبور تيار نشل يسمى “Plays plays pokã © Mon” الذي يعرض قدرات Claude 3.7 Sonnet في Pokã © Mon Red Live. يهدف العرض التوضيحي إلى إظهار مدى قدرة كلود على تحليل اللعبة واتخاذ القرارات خطوة بخطوة ، مع الحد الأدنى من الاتجاه.
الصدارة خلف Pokã © Mon Research هي David Hershey ، وهو عضو في الموظفين الفنيين في الأنثروبور. في مقابلة مع Wired ، يقول Hershey إنه اختار Pokã © Mon Red لأنه ملعب بسيط ، “يعني أن اللعبة قائمة على الدوران ولا تتطلب ردود فعل في الوقت الفعلي ، والتي تضعف النماذج الحالية للأنثروبور. لقد كانت أيضًا أول لعبة فيديو لعبها على الإطلاق ، في لعبة Game Boy الأصلية ، بعد الحصول عليها لعيد الميلاد في عام 1997.
كان هدف هيرشي الشامل في هذا البحث هو دراسة كيف يمكن استخدام كلود كعامل “العمل بشكل مستقل للقيام بمهام معقدة نيابة عن مستخدم. في حين أنه من غير الواضح ما هو معرفته السابقة ، فإن كلود تدور حولها ، فأنت تتمثل في الحصول على أدوات التدريب الخاصة به. على الشاشة.
“الوقت فوق ، لقد مررت وحذف جميع الأشياء الخاصة بـ Pokã © Mon التي يمكنني فقط لأنني أعتقد أنه من المثير للاهتمام حقًا أن نرى كم يمكن أن يكتشف النموذج من تلقاء نفسه ،” يقول هيرشي حقًا ، مضيفًا أنه يأمل في بناء لعبة لم يسبق لها مثيل من قبل من أجل اختبارها حقًا.
عندما لعب كلود 3.7 سونيت اللعبة ، واجهت بعض التحديات: لقد أمضت “ساعات من الساعات” عالقة في مدينة واحدة وتواجه مشكلة في تحديد شخصيات غير لاعب ، مما أدى إلى توقف تقدمه بشكل كبير في اللعبة. مع Claude 4 Opus ، لاحظ هيرشي تحسنًا في إمكانات كلود على المدى الطويل والتخطيط عندما شاهدها وهي تتنقل في مسعى معقد. بعد إدراك أنها تحتاج إلى قوة معينة للمضي قدمًا ، أمضت الذكاء الاصطناعى يومين في تحسين مهاراتها قبل الاستمرار في اللعب. يعتقد هيرشي أن هذا النوع من التفكير متعدد الخطوات ، مع عدم وجود ردود فعل فورية ، يظهر مستوى جديد من التماسك ، مما يعني أن النموذج لديه قدرة أفضل على المسار الصحيح.
هذا أحد طرقي المفضلة للتعرف على نموذج. مثل ، هذه هي الطريقة التي أفهم بها نقاط قوته ، وما هي نقاط ضعفها ، كما يقول هيرشي. “إنه طريقتي في الوصول إلى هذا النموذج الجديد الذي نطرحه ، وكيفية العمل معه.
الجميع يريد وكيل
إن الأبحاث الأنثروبرية هي نهج جديد لمعالجة مشكلة ما قبل – كيف يمكننا أن نفهم القرارات التي تتخذها الذكاء الاصطناعى عند الاقتراب من المهام المعقدة ، ودفعها في الاتجاه الصحيح؟
إن الإجابة على هذا السؤال جزء لا يتجزأ من التقدم في منظمة العفو الدولية التي يمكنها منظمة العفو الدولية التي يمكنها معالجة المهام المعقدة مع الاستقلال النسبي. ساعات.
اكتشاف المزيد من مدونة الواحة
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.