Close Menu
خليج العربخليج العرب
    What's Hot

    تحدي العملاء

    مايو 17, 2026

    مختص: وجود مناهج للتربية الوطنية تربي الأطفال على حب الوطن ضرورة

    مايو 17, 2026

    الأمين العام لـ«كبار العلماء»: المملكة سخرت جهات عدة للتواصل مع الحجاج بلغات مختلفة

    مايو 17, 2026
    فيسبوك X (Twitter) الانستغرام
    الدخول
    فيسبوك X (Twitter) الانستغرام يوتيوب
    الأحد _17 _مايو _2026AH
    خليج العربخليج العرب
      مباشر النشرة البريدية
    • الرئيسية
    • اخر الاخبار
    • جدة
    • السعودية
    • العالم
    • سياسة
    • مال واعمال
    • تكنولوجيا
    • ثقافة
    • رياضة
    • صحة
    • علوم
    • فنون
    • منوعات
    خليج العربخليج العرب
    الرئيسية»مال واعمال
    مال واعمال

    تسارع مجموعات الذكاء الاصطناعي إلى إعادة تصميم اختبار النماذج وإنشاء معايير جديدة

    فريق التحريربواسطة فريق التحريرنوفمبر 9, 2024لا توجد تعليقات5 دقائق

    تسارع مجموعات التكنولوجيا إلى إعادة تصميم كيفية اختبار وتقييم نماذج الذكاء الاصطناعي الخاصة بها، حيث تتجاوز التكنولوجيا سريعة التقدم المعايير الحالية.

    أعلنت كل من OpenAI وMicrosoft وMeta وAnthropic مؤخرًا عن خطط لبناء عملاء ذكاء اصطناعي يمكنهم تنفيذ المهام للبشر بشكل مستقل نيابة عنهم. وللقيام بذلك بفعالية، يجب أن تكون الأنظمة قادرة على تنفيذ إجراءات متزايدة التعقيد، باستخدام المنطق والتخطيط.

    تجري الشركات “تقييمات” لنماذج الذكاء الاصطناعي من قبل فرق من الموظفين والباحثين الخارجيين. وهي عبارة عن اختبارات موحدة، تُعرف باسم المعايير المرجعية، تعمل على تقييم قدرات النماذج وأداء أنظمة المجموعات المختلفة أو الإصدارات الأقدم.

    ومع ذلك، فإن التطورات الأخيرة في تكنولوجيا الذكاء الاصطناعي تعني أن العديد من أحدث النماذج تمكنت من الاقتراب من دقة 90 في المائة أو أكثر في الاختبارات الحالية، مما يسلط الضوء على الحاجة إلى معايير جديدة.

    “وتيرة الصناعة سريعة للغاية. قال أحمد الدحلة، قائد الذكاء الاصطناعي التوليدي في ميتا: “لقد بدأنا الآن في تشبع قدرتنا على قياس بعض هذه الأنظمة (وكصناعة)، وأصبح تقييمها أكثر صعوبة”.

    للتعامل مع هذه المشكلة، قامت العديد من مجموعات التكنولوجيا، بما في ذلك Meta وOpenAI وMicrosoft، بإنشاء معايير واختبارات داخلية خاصة بها للذكاء. لكن هذا أثار مخاوف داخل الصناعة بشأن القدرة على مقارنة التكنولوجيا في غياب الاختبارات العامة.

    “تتيح لنا العديد من هذه المعايير معرفة مدى بعدنا عن أتمتة المهام والوظائف. قال دان هندريكس، المدير التنفيذي لمركز سلامة الذكاء الاصطناعي ومستشار شركة Elon Musk’s xAI: “من دون نشرها، سيكون من الصعب على الشركات والمجتمع الأوسع معرفة ذلك”.

    تستخدم المعايير العامة الحالية – Hellaswag وMMLU – أسئلة متعددة الخيارات لتقييم الحس السليم والمعرفة عبر مواضيع مختلفة. ومع ذلك، يرى الباحثون أن هذه الطريقة أصبحت الآن زائدة عن الحاجة وأن النماذج تحتاج إلى مشاكل أكثر تعقيدًا.

    قال مارك تشين، نائب الرئيس الأول للأبحاث في OpenAI: “لقد وصلنا إلى عصر لم تعد فيه الكثير من الاختبارات المكتوبة بواسطة الإنسان كافية كمقياس جيد لمدى قدرة النماذج”. “وهذا يخلق تحديا جديدا بالنسبة لنا كعالم بحثي.”

    تم تحديث أحد المعايير العامة، SWE-bench Verified، في أغسطس لتقييم الأنظمة الذاتية بشكل أفضل بناءً على تعليقات الشركات، بما في ذلك OpenAI.

    يستخدم مشاكل برمجية واقعية مصدرها منصة المطورين GitHub ويتضمن تزويد وكيل الذكاء الاصطناعي بمستودع الأكواد ومشكلة هندسية ومطالبته بإصلاحها. تتطلب المهام المنطق لإكمالها.

    وفقًا لهذا المقياس، يحل أحدث نموذج من OpenAI، وهو معاينة GPT-4o، 41.4 في المائة من المشكلات، بينما يحصل Claude 3.5 Sonnet من Anthropic على 49 في المائة.

    قال جاريد كابلان، كبير مسؤولي العلوم في Anthropic: “الأمر أكثر صعوبة (مع الأنظمة الوكيلة) لأنك تحتاج إلى ربط هذه الأنظمة بالكثير من الأدوات الإضافية”.

    وأضاف: “عليك بشكل أساسي إنشاء بيئة رملية كاملة ليلعبوا فيها. الأمر ليس بهذه البساطة مجرد تقديم مطالبة، ورؤية ماهية الإكمال ثم تقييم ذلك”.

    هناك عامل مهم آخر عند إجراء اختبارات أكثر تقدما وهو التأكد من إبقاء الأسئلة المرجعية خارج المجال العام، من أجل ضمان عدم قيام النماذج “بالغش” بشكل فعال من خلال توليد الإجابات من بيانات التدريب بدلا من حل المشكلة.

    تعد القدرة على التفكير والتخطيط أمرًا بالغ الأهمية لإطلاق العنان لإمكانات وكلاء الذكاء الاصطناعي الذين يمكنهم تنفيذ المهام عبر خطوات وتطبيقات متعددة، وتصحيح أنفسهم.

    قال إيسي كامار، نائب الرئيس ومدير مختبر حدود الذكاء الاصطناعي في أبحاث مايكروسوفت: “إننا نكتشف طرقًا جديدة لقياس هذه الأنظمة وبالطبع أحد هذه الطرق هو التفكير، وهو مجال مهم”.

    ونتيجة لذلك، تعمل ميكروسوفت على معيارها الداخلي الخاص، والذي يتضمن مشاكل لم تظهر من قبل في التدريب لتقييم ما إذا كانت نماذج الذكاء الاصطناعي لديها قادرة على التفكير كما يفعل الإنسان.

    تساءل البعض، بما في ذلك باحثون من شركة Apple، عما إذا كانت نماذج اللغات الكبيرة الحالية “تستدل” أو “تطابق الأنماط” تمامًا مع أقرب البيانات المماثلة التي شوهدت في تدريباتهم.

    وقال روشير بوري، كبير العلماء في شركة آي بي إم للأبحاث: “في المجالات الأضيق التي تهتم بها الشركات، فإنها تقوم بالتفكير”. “(النقاش يدور حول) هذا المفهوم الأوسع للاستدلال على المستوى البشري، والذي من شأنه أن يضعه تقريبًا في سياق الذكاء العام الاصطناعي. هل يعقلون حقًا أم أنهم يرددون؟”

    يقيس OpenAI التفكير بشكل أساسي من خلال التقييمات التي تغطي الرياضيات وموضوعات العلوم والتكنولوجيا والهندسة والرياضيات ومهام البرمجة.

    “الاستدلال هو مصطلح عظيم جدا. كل شخص يعرفه بشكل مختلف وله تفسيره الخاص. . . قال تشين من OpenAI: “هذه الحدود غامضة للغاية (ونحن) نحاول ألا نتورط كثيرًا في هذا التمييز نفسه، ولكن ننظر إلى ما إذا كان يقود المنفعة أو الأداء أو القدرات”.

    كما أدت الحاجة إلى معايير جديدة إلى جهود المنظمات الخارجية.

    في شهر سبتمبر، أعلنت شركة Scale AI وشركة Hendrycks الناشئة عن مشروع يسمى “الاختبار الأخير للإنسانية”، والذي يجمع أسئلة معقدة من خبراء من مختلف التخصصات، والتي تتطلب إكمالها تفكيرًا مجردًا.

    مثال آخر هو FrontierMath، وهو معيار جديد تم إصداره هذا الأسبوع، أنشأه علماء رياضيات خبراء. واستنادًا إلى هذا الاختبار، تستطيع النماذج الأكثر تقدمًا الإجابة على أقل من 2 بالمائة من الأسئلة.

    ومع ذلك، بدون اتفاق صريح على قياس هذه القدرات، يحذر الخبراء من أنه قد يكون من الصعب على الشركات تقييم منافسيها أو على الشركات والمستهلكين فهم السوق.

    “لا توجد طريقة واضحة للقول إن هذا النموذج أفضل بالتأكيد من هذا النموذج” (لأنه) عندما يصبح المقياس هدفًا، فإنه يتوقف عن أن يكون مقياسًا جيدًا” ويتم تدريب النماذج على اجتياز المعايير المحددة، كما قال ميتا آل. داهل.

    “إنه شيء نعمل، كصناعة بأكملها، على تحقيقه.”

    تقارير إضافية من هانا ميرفي في سان فرانسيسكو

    شاركها. فيسبوك تويتر بينتيريست لينكدإن تيلقرام واتساب البريد الإلكتروني

    مقالات ذات صلة

    سحب مزيج توابل بلاكستون بسبب احتمال تلوثه بالسالمونيلا

    مال واعمال مايو 17, 2026

    يساعد المتسوقون من الجيل Z في إحياء مراكز التسوق الأمريكية من خلال الدفع نحو التجارب الشخصية

    مال واعمال مايو 16, 2026

    اتهمت أمازون بالاحتفاظ بمئات الملايين من تكاليف التعريفة الجمركية لكسب تأييد إدارة ترامب

    مال واعمال مايو 16, 2026

    يقول عمدة مدينة نيويورك، زهران ممداني، إنه حاول مقابلة الرئيس التنفيذي الملياردير بعد رد فعل فيديو “فرض الضرائب على الأغنياء”

    مال واعمال مايو 16, 2026

    تحقق من الفريزر الخاص بك: تم سحب الآيس كريم العضوي من 17 ولاية بسبب وجود شظايا معدنية محتملة

    مال واعمال مايو 16, 2026

    سجلت شركة هوندا أول خسارة سنوية على الإطلاق منذ ما يقرب من 70 عامًا، حيث يأتي الرهان على السيارات الكهربائية بنتائج عكسية

    مال واعمال مايو 16, 2026

    شركة كوكا كولا تغلق منشأة في كاليفورنيا بعد أكثر من قرن

    مال واعمال مايو 15, 2026

    وبرر ترامب ذلك في الوقت الذي تواجه فيه أوبك الانهيار بعد رحيل الإمارات

    مال واعمال مايو 15, 2026

    ستاربكس تلغي 300 وظيفة في الولايات المتحدة وتغلق بعض مكاتب الدعم الإقليمية

    مال واعمال مايو 15, 2026
    اترك تعليقاً
    اترك تعليقاً إلغاء الرد

    اخر الأخبار

    عرض المزيد

    تحدي العملاء

    مايو 17, 2026

    مختص: وجود مناهج للتربية الوطنية تربي الأطفال على حب الوطن ضرورة

    مايو 17, 2026

    الأمين العام لـ«كبار العلماء»: المملكة سخرت جهات عدة للتواصل مع الحجاج بلغات مختلفة

    مايو 17, 2026

    «الحج» تدعو ضيوف الرحمن إلى المحافظة على بطاقة «نسك» والاستفادة من خدماتها خلال الرحلة

    مايو 17, 2026

    رائج الآن

    مدير مشروع «سلام»: موسم الحج من أعظم النماذج الحية للتواصل الحضاري في العالم

    مايو 17, 2026

    الأرصاد عن طقس الأحد: سحب رعدية ورياح نشطة مثيرة للأتربة على عدة مناطق

    مايو 17, 2026

    تحدي العملاء

    مايو 17, 2026

    بملامح تفيضُ سكينة.. الحاج محمود هارون يختصر فرحة السنغال بمبادرة طريق مكة

    مايو 17, 2026

    صور لاستقبال أكبر حاملة طائرات في العالم بأميركا

    مايو 17, 2026
    Demo
    فيسبوك X (Twitter) الانستغرام لينكدإن تيكتوك
    2026 © خليج العرب. جميع حقوق النشر محفوظة.
    • من نحن
    • سياسة الخصوصية
    • اعلن معنا
    • اتصل بنا

    اكتب كلمة البحث ثم اضغط على زر Enter

    تسجيل الدخول أو التسجيل

    مرحبًا بعودتك!

    Login to your account below.

    نسيت كلمة المرور؟