أداة “OpenBookQA”: اختبار الذكاء العلمي لمستوى التعليم الإعدادي

أُطلق في عام 2018 نظام OpenBookQA، وهو إطار ومجموعة بيانات صُممت لتقييم قدرة النماذج على استدراك الحقائق العلمية من “كتاب مفتوح” مكون من 1,326 حقيقة أساسية، ومن ثم الربط بينها وبين معرفات عامة لتفسير وتوليد الإجابات، بعيدا عن تذكر نصوص ثابتة.

ما هو OpenBookQA؟

المميزات الأساسية

  1. استدلال علمي متداخل (core fact + common knowledge)
    يجمع بين الحقائق العلمية والوعي العام، مثل مثال: “هل الدرع المعدني يُوصل الكهرباء؟”.
  2. تحدي بعيد عن الحفظ
    يضع النموذج أمام مقاربة متقدمة تتطلب التفكير والمنطق، وليس مجرد استخدام تقنيات استرجاع نصوص.
  3. أداء ضعيف للنماذج المدربة مسبقا
    بالرغم من الاستثمار الضخم في NLP، فقد حققت النماذج أقل من 50%، في مقابل أداء بشري تفوق الـ 92% .
  4. متوفرة كبيانات مفتوحة ومحمّلة على GitHub
    تشمل التعليمات البرمجية والنماذج الأساسية، تحت ترخيص Apache-2.0 (github.com).
  5. قاعدة تدريب أساسية لتقييم قدرات الاستدلال
    استُخدمت كمعيار في أطر مثل Hugging Face وlm-evaluation-harness لاختبار النماذج على التفكير المنطقي.

الأهمية البحثية والتطبيقية

رابط التنزيل والاطلاع على OpenBookQA (GitHub & بيانات EMNLP):
(github.com)

المرجع:

Mihaylov, T., Clark, P., Khot, T., & Sabharwal, A. (2018). Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering. EMNLP 2018 (aclanthology.org, github.com).

Exit mobile version