بناء المعاجم التاريخية الرقمية في عصر التكنولوجيا ـ التحديات والإمكانيات
إشراف: د. حكيمة خمار

- الملخص:
تسعى هذه الدراسة إلى الكشف عن التحديات التي تواجه بناء المعاجم التاريخية الرقمية، في ظل التطور التكنولوجي المتسارع، من قبيل جمع وتحليل البيانات التاريخية، وتأمين استدامة هذه البيانات. إضافة إلى التحديات الاجتماعية والثقافية التي تتطلب مراعاة التنوع اللغوي وفهم السياقات الثقافية المختلفة. كما تسعى هذه الدراسة إلى تقديم حلول عملية لهذه التحديات، من خلال توظيف الإمكانيات التكنولوجيا الحديثة من قبيل؛ الذكاء الاصطناعي، الحفظ والأمن الرقمي، معالجة البيانات، التوليد الآلي للغة…
الكلمات المفتاحية: المعاجم التاريخية، المعاجم الرقمية، تأثيل اللغة، تخطيط اللغة، معالجة اللغات الطبيعية، اللغويات الحاسوبية.
Abstract
This study aims to explore the challenges faced in building digital historical dictionaries amid rapid technological advancements, such as the collection and analysis of historical data and ensuring its sustainability. It also addresses social and cultural challenges, which require consideration of linguistic diversity and an understanding of different cultural contexts. The study seeks to offer practical solutions to these challenges by leveraging modern technological tools, including artificial intelligence, digital preservation, data security, and processing.
Keywords: – historical lexicons –computational linguistic – data preservation – computational models historical language analysis.
- مقدمة:
أصبح بناء المعاجم التاريخية الرقمية في عصر التكنولوجيا الحديثة، مشروعًا يجمع بين التراث اللغوي والثقافي وأحدث التقنيات المعلوماتية. فلم تعد هذه المعاجم مجرد نسخ رقمية لنظيراتها الورقية، بل غدت أدوات تفاعلية تتيح الوصول الواسع والمفتوح إلى بنك غير محدود من الموارد العلمية والمعرفية، وتسهم في تعميق فهمنا للغات والثقافات التاريخية. على الرغم من إمكانياتها الهائلة، فإن عملية إنشاء هذه الموارد تواجه مجموعة من التحديات المتعلقة بتحويل النصوص التاريخية إلى شكل رقمي (معادلات رياضية). هذا ما يتطلب عملا طويلا وشاقا ومعقدا مثل؛ المسح الضوئي عالي الدقة، والتعرف الضوئي على الحروف، والتصحيح اليدوي للأخطاء.
تكمن أهمية بناء المعاجم التاريخية الرقمية، في الإمكانيات الكثيرة والمتنوعة التي تُتيحها للباحثين والدارسين والمتخصصين للاطلاع على بنوك وموارد لغوية ومعجمية غنية، دون الحاجة إلى الوصول الفعلي للمصادر المادية (نسخ مطبوعة، مخطوطات). علاوة على ذلك، فإن هذا النوع من المعاجم من قبيل: “أوكسفورد التاريخي” و”لاروس التاريخي” يمكن أن يقدما رؤى ثورية حول تطور اللغات الطبيعية، وتأثير الحركات الثقافية والاجتماعية والاقتصادية والسياسية على هذه اللغات سلبا أو إيجابا. كما يمكنها أن تدمج الأدوات التحليلية التي تسمح بالبحث والتنقيب في البيانات بطرق لم تكن ممكنة في النسخ الورقية.
سنتناول في هذه الورقة الجانب المتعلق بأثر التكنولوجيا الرقمية في بعدِها الوظيفي بالمعاجم عموما، والتاريخية على وجه الخصوص، من خلال فهم الكيفية التي تساهم بها التكنولوجيا الرقمية في مواجهة التحديات المرتبطة ببناء المعاجم التاريخية، وصولا إلى الإمكانيات التي تقدمها لتحسين جودة وإتاحة هذه المعاجم للمتخصصين وغير المتخصصين، ومن تم؛ ستفترض الدراسة أن استخدام التكنولوجيا الرقمية يعزز بشكل كبير من دقة وشمولية المعاجم التاريخية، ويسهم في تسهيل إتاحتها وتحديثها بما يلبي احتياجات الباحثين المتخصصين وغير المتخصصين.
- التحديات الرئيسية في بناء المعاجم التاريخية الرقمية:
تُعد صناعة المعاجم التاريخية الرقمية، من المشروعات العلمية والتوثيقية الضخمة والمعقدة والممتدة زمنيا، إذ تتم على مراحل عدة وعبر سنوات كثيرة. فالمعجم التاريخي يستهدف توثيق تاريخ وتطور اللغة، وتقديمه بشكل رقمي، يسهل الوصول إليه واستخدامه عبر الإنترنت، بخلاف ما قد يذهب إليه غير المختصين حول الوظيفة أو الحاجة من هذا النوع من المعاجم، والتي تبدو في ظاهرها مجرد عملية جمع للكلمات والألفاظ مع معانيها ودلالاتِها اللغوية والاصطلاحية وترتيبها وفق نموذج معجمي مُعين، ومن تم؛ فإن بناء هذا المشروع اللغوي يواجه العديد من التحديات والإكراهات.
2.1- معالجة البيانات:
يُعد جمع ومعالجة البيانات اللغوية ومعالجتُها؛ التحدي الأبرز في إعداد المعاجم التاريخية. فهذه العملية لا تتطلب فقط الوصول إلى مجموعة واسعة من المصادر اللغوية القديمة من مخطوطات ومنحوتات، بل تتطلب أيضا فهما عميقا وواعيا للكيفية التي تطورت بها معاني ودلالات الكلمات واستخداماتها عبر الزمن، ما يسمح بكشف التنوع اللغوي والثراء الثقافي للغات عبر العصور.
يتطلب تحديد وتسجيل هذه التغييرات منهجية دقيقة لجمع كل تلك البيانات والمعطيات، وهو ما يُشير إليه “ديفيد كريستال” في دراسته الموسومة بـ” The Cambridge Encyclopedia of the English Language “. إذ يُسلط الضوء على أهمية العمل الميداني في اللغويات، ويؤكد ضرورة “استحداث تكوينات للمعجميين والمشتغلين بالترجمة؛ في المعلوميات واستخدام التقنيات الرقمية الحديثة لتحليل البيانات اللغوية والنصوص التاريخية بشكل أكثر فعالية. موازاةً مع فهم أعمق للسياق الثقافي والتاريخي الذي استُخدمت فيه الكلمات“[1].
2.2- الحفظ والأمان الرقمي:
مع تزايد الاعتماد على الوسائل الرقمية والبيانات في البحث اللغوي بشكل عام، وتطوير المعاجم التاريخية الإلكترونية بشكل خاص، أصبحت قضايا الحفظ والأمان الرقمي أكثر أهمية من أي وقت مضى. فالحاجة إلى حماية المعلومات من التلف أو الضياع أو التعرض للهجمات الإلكترونية والقرصنة باتت ضرورة حتمية لإنجاح هذه المشاريع المعجمية.
يعتبر النسخ الاحتياطي المنتظم لقاعدة البيانات والأرشفة الرقمية المتزامنة؛ جزءا لا يتجزأ من استراتيجيات الحفظ التي تسمح بضمان الوصول السلس وطويل الأمد إلى هذه البيانات، مع الحفاظ على سلامتها وأصالتها. يوردُ (روسنتال وروبرتسون -2013) في دراستهما عن استراتيجيات الحفظ الرقمي، أن تطبيق أحدث التقنيات في مجال أمن التحكم الذاتي أو السيبراني يتطلب فهمًا واضحًا للمخاطر المرتبطة بالتخزين الرقمي والوعي بأحدث أساليب الحماية.
إذ “إن الاستثمار في البنية التحتية للأمان السيبراني وتدريب الأطر على أفضل الممارسات الأمنية، يعد أمرًا ضروريًا للحماية ضد الهجمات الإلكترونية“[2]، إذ إن النسخ الاحتياطي والأرشفة الرقمية؛ من الإجراءات المهمة والحاسمة للغاية في إدارة المخاطر واستراتيجيات الحفظ، في ضوء التطورات التكنولوجية المستمرة، كما يبين ذلكKimberly, 2015)) بقوله: “يساهم استخدام تقنيات مثل “التكرار الموزع” والتشفير بشكل فعال في تأمين البيانات وضمان القدرة على استعادتها في حالات الضياع أو التلف“[3]،
فهذه التقنيات يمكن أن تشكل إطارا حيويا للحفاظ على المعاجم التاريخية الرقمية، وغيرها من البيانات الثقافية والمعرفية والعلمية القيمة. وتتطلب هذه العمليات مراجعة دورية وتحديثا مستمرا للخطط المتبعة من أجل التكيف مع التطورات التكنولوجية المتلاحقة، ومواجهة التهديدات الأمنية والهجمات السيبرانية الجديدة.
إن الحفاظ على سلامة المعاجم التاريخية الرقمية، لا يقتصر فقط على تطبيق التقنيات المتقدمة، بل يشمل أيضاً تطوير الممارسات الإدارية الصارمة التي توازن بين الوصول والسلاسة والأمان. فـ: “المؤسسات التي تحتفظ بهذه البيانات القيمة، يجب أن تضع في اعتبارها توفير ضمانات كافية لحماية هذه الموارد الثقافية، مع الأخذ بعين الاعتبار الحاجة إلى ضمان وصولها إلى الأجيال القادمة”[4]، وهذا يتطلب نهجًا شاملًا يضمن الاستفادة من أحدث الابتكارات والتقنيات في مجال الأمن السيبراني وإدارة المعلومات للحفاظ على البيانات آمنة ومتاحة دائما.
- التحديات الفنية والتقنية:
تُشكل الدقة اللغوية أساس المعاجم التاريخية عموما، والرقمية منها بصفة خاصة، فالانتقال من النسخ الورقية إلى النسخ الرقمية؛ يتطلب دقة متناهية في التوثيق والحفاظ على السياق اللغوي والتاريخي والثقافي لكل كلمة. إذ التحدي هنا؛ يكمن بشكل أساسي في تطوير أنظمة وبرامج وتطبيقات رقمية قادرة على تحليل وتصنيف وفهرسة وأرشفة كميات هائلة من البيانات والمعطيات النصية بدقة وكفاءة عالية. وتقديمها بطرق مبتكرة وسهلة الاستخدام للمستخدمين المتخصصين وغير المتخصصين. ويشمل هذا التحدي؛ تطوير واجهات تفاعلية وأنظمة بحث قوية، بالإضافة إلى تقنيات الحفظ الرقمي لضمان الوصول طويل الأمد إلى المعلومات.
هذه التحديات الفنية والتقنية؛ تتطلب استجابات معقدة. إلى جانب تحديات ضمان الدقة اللغوية والحفاظ على السياق اللغوي والثقافي. كما يكمن التحدي الأكبر في تطوير تقنيات تعتمد الذكاء الاصطناعي وأنظمة المعلومات المتقدمة، وترقيتها بشكل مستمر لضمان الكفاءة في الأداء والاستجابة.
من المعلوم أن المعاجم التاريخية بطبيعتها؛ تتطلب دقة لغوية فائقة، فكل كلمة يجب أن توثق بدقة مع الحفاظ على سياقها اللغوي والثقافي والتاريخي. في النسخ الرقمية، إثبات هذه الدقة أمر صعب للغاية، بسبب الحاجة إلى نقل النصوص من وسائط فيزيائية إلى صيغ ومعادلات رقمية، فالأخطاء التي قد تحدث خلال هذا الانتقال؛ يمكن أن تؤدي إلى تحريف معاني الكلمات والألفاظ، وإخراجها عن دلالاتها وسياقاتها اللغوية والتاريخية.
تشير إحدى الدراسات المهمة حول التحديات التي تواجه رقمنة النصوص التاريخية، إلى أن “الحاجة إلى أنظمة تصحيح تلقائية ودقيقة هي ضرورية للتأكد من أن النصوص الرقمية تمثل إلى حدود ما؛ دقة المحتوى الأصلي”[5]. تقترح هذه الدراسة ضرورة استخدام الذكاء الاصطناعي لتحليل هذه النصوص وتصحيح الأخطاء بطريقة يمكن أن تحاكي دقة الخبراء البشريين، لكن إتاحة الفرصة للذكاء الاصطناعي بديلا عن البشر، مازال أمرا غير مقبول ومحطّ نقاش كبير.
لذلك يكتفي الخبراء في مجال اللغويات الحاسوبية حاليا؛ بتوظيف برامج وأنظمة قادرة على تحليل، وتصنيف، وفهرسة، وأرشفة البيانات بكفاءة عالية، فيما يُحاول نُظراؤُهم من المبرمجين بناء تطبيقات وأدوات رقمية تُسمى (أنظمة إدارة المعرفة) قادرة على التعرف على السياقات اللغوية والثقافية بدقة عالية، وقادرة أيضا على إدارة البيانات الضخمة وتقديمها بطرق مبتكرة وسهلة الاستخدام للمستخدمين.
لقد ساهمت الماسحات الضوئية في تحويل النصوص المطبوعة إلى نسخ رقمية، وهو ما سمح بالحفظ الأرشيفي للنصوص وسهَّل الوصول إليها عبر الإنترنت. مع ذلك، ما لبثت أن تطورت الأمور بإدخال الذكاء الاصطناعي لتحسين قدرة هذه النظم على التعرف على النصوص وتحليلها بشكل أكبر وأكثر كفاءة. فلا يقتصر تأثير الذكاء الاصطناعي على تحسين جودة النصوص الرقمية فحسب، وإنما: “يساهم أيضا في تحليل السياقات اللغوية والاستخدامات العابرة للأزمنة المختلفة”[6].
ساهمت التكنولوجيا في السنوات الأخيرة، في تطوير تقنيات متقدمة تستخدم الذكاء الاصطناعي وخصوصا (تعلم الآلة – Machine Learning[7]) للتعرف على النصوص وتحليلها بشكل أعمق. تتميز هذه التقنيات بقدرتها على التعامل مع مستويات متقدمة من التعقيد والتداخل والترابط في النصوص اللغوية، مما يتيح للباحثين استخراج معلومات دقيقة عن التطورات اللغوية والثقافية عبر التاريخ، أو عبر مراحل محددة من التاريخ.
نشير في هذا السياق إلى دراسة[8] أُجريت لتحليل التغيرات الدلالية في اللغة الروسية على مدى عدة قرون، باستخدام الخوارزميات وباعتماد قواعد بيانات ضخمة من النصوص الرقمية. وذلك بهدف اختبار قدرة (تعلم الآلة) على تقديم تصنيف أكثر تفصيلاً لدرجات ومستويات التغير التي تلحق اللغة أو عنصرا من اللغة على فترات زمنية متفاوتة ومتباعدة. وقد تمحورت هذه الدراسة حول تقديم مجموعتين اختباريتين صُممتا لتحليل التغيرات الدلالية في الكلمات الروسية عبر فترة زمنية محددة.
ركزت المجموعة الأولى من هذه الدراسة على التغيرات الدلالية الكبيرة للأسماء والصفات من المرحلة أو الفترة (ما قبل السوفياتية) إلى المرحلة (السوفياتية)، بينما غطت المجموعة الثانية؛ التغيرات الدقيقة المرصودة اجتماعياً وثقافياً بين عام 2000 و2014. وأظهرت النتائج قدرات وإمكانيات الذكاء الاصطناعي الهائلة على كشف المتغيرات الدلالية وتحليل كميات ضخمة جدا من البيانات وقدرته على الأرشفة والفرز والتصنيف والتحليل والفهرسة.
- جمع المادة اللغوية التاريخية:
تُعد عملية جمع المادة اللغوية التاريخية، إحدى المراحل الأكثر تعقيدا في بناء المعاجم التاريخية الرقمية، حيث تواجه صعوبات متعددة تتعلق بتنوع المصادر، وتباين المعلومات، وصعوبة الوصول إلى النصوص الأصلية. ما يتطلب جهدا بحثيا مضنيا يمتد ليشمل التنقيب في الوثائق والمخطوطات والمصادر الأدبية القديمة، فضلًا عن الحاجة إلى توثيق دقيق للمعلومات، والتأكد من صحتها قبل إدراجها في المعجم. إضافة إلى ما يتطلبه جمع المادة اللغوية من تصنيف دقيق وفق معايير علمية صارمة، حيث يتم اعتماد نماذج تصنيف متخصصة تعتمد على:
- تصنيف زمني: وفق العصور التاريخية المختلفة لتتبع تطور المصطلحات والمعاني.
- تصنيف موضوعي: بحسب المجالات والتخصصات؛ (لغوية، فكرية، الأدبية، فنية، الثقافية..).
- تصنيف جغرافي: لفهم الفروقات اللغوية بين البيئات المختلفة وتأثيراته في الدلالة والاستعمال.
تتم هذه العمليات عادةً عبر “استمارات بحثية موسعة”[9]، تضم معطيات دقيقة تتطلب وقتا وجهدا كبيرين، مما يستوجب الاستعانة بأدوات رقمية وتقنيات الذكاء الاصطناعي لتسريع عملية الفرز والتحليل وضمان دقة النتائج.
أما التحدي الأكبر في جمع المادة اللغوية التاريخية، فيتمثل في موضوع “الترجمة[10]“، إذ تتعدد لغات المصادر والمراجع، مما يتطلب مهارات لغوية متقدمة لفهم المعاني العميقة وتقديم ترجمة دقيقة تتناسب مع السياق التاريخي للألفاظ. إذ لا تقتصر المسألة على الفروق اللغوية فحسب، بل تمتد إلى فهم التحولات الدلالية التي مرت بها المصطلحات عبر العصور. لذا، فإن الاعتماد على المعاجم المتخصصة، بالإضافة إلى الاستعانة بخبراء ومتخصصين لغويين، يعد أمرا أساسيا لضمان دقة الترجمة وسلامة الدلالة والمعنى اللغوي. ولتدليل هذه التحديات، لابد من اعتماد العناصر التالية:
- إنشاء قواعد بيانات رقمية موثوقة: تجمع بين مختلف المصادر والمراجع التاريخية.
- استخدام الذكاء الاصطناعي وتقنيات التعلم الآلي: لتسهيل فرز وتحليل البيانات وتصنيفها.
- تطوير أدوات ترجمة متخصصة: في المجال اللغويات التاريخية لدعم الباحثين في عمليات الترجمة التقنية الدقيقة.
4.1- الموارد والتمويل:
تُعتبر الموارد البشرية والتمويل، أهم التحديات التي تواجه المشروعات الأكاديمية والبحثية عموما والمعاجم التاريخية على وجه الخصوص، إذ تحتاج هذه المشروعات إلى استثمارات مالية كبيرة لتوظيف الخبراء والمتخصصين والأكاديميين الذين سيتم انتدابهم لهذا العمل وما يتطلبه من تجميع للمواد التاريخية وصور ووثائق، وتفريغ لمئات الآلاف من الصفحات المطبوعة والمخطوطة…، إضافة إلى مختبرات حقيقية مؤثثة ومجهزة بكل المعدات اللازمة والبرمجيات المتخصصة، والأطر المُكوّنة في تطوير البرمجيات وعلوم الحاسوب، الذين توكل إليهم مهمة نقل وتحويل مادة المعاجم من الأوراق والملفات والمستندات إلى الصيغة الرقمية.
ليس هذا فحسب، بل يحتاج مشروع أكاديمي كهذا؛ إلى استدامة هذا التمويل لضمان الاستمرارية والتطور لهذه المعاجم صيانة وتصحيحا، وتغذية وتطويرا..، وفي السنوات القليلة الماضية توفرت كل هذه الإمكانيات في البيئة البحثية والأكاديمية العربية، وتبنت دولة قطر مشروع؛ صناعة “معجم الدوحة التاريخي”، أعقبه بوقت وجيز مشروع “معجم الشارقة التاريخي”.
يُعتبر هذان المعجمان؛ من أهم وأكبر المعاجم التاريخية الرقمية الموجودة في العالم العربي حتى الآن، حيث سبقتهُما محاولات فردية وجماعية لم تكتمل أو لم تستطع تغطية مساحات زمنية معتبرة من تاريخ اللغة العربية، نذكر منها على سبيل المثال؛ مشروع “فيشر وعبد الله العلايلي” الذي توقف بسبب الحروب ومشروع “الجمعية اللغوية العربية” في تونس، والذي توقف هو الآخر”[11]. إضافة إلى مشاريع أخرى كانت تقتصر على عقد الاجتماعات وإصدار القرارات دون المرور إلى فعل الإنجاز.
تجدر الإشارة هنا؛ إلى أهمية توحيد الجهود والموارد والإمكانيات والخبرات والكفاءات العربية لإنشاء معجم تاريخي عربي واحد شامل ومستدام، مع التركيز على تعميم المعايير والوسائل والأدوات، وذلك بهدف تلبية الاحتياجات العلمية والمعرفية والأكاديمية المختلفة للمستخدمين العرب وغير العرب؛ المتخصصين وغير المتخصصين، وإرضاء متطلباتِهم البحثية وإشباع رضاهم العلمي والمعرفي، على غرار مشاريع المعاجم التاريخية القومية. ففي فرنسا مثلا؛ هناك معجم تاريخي فرنسي شامل للغة الفرنسية ولكل الناطقين بالفرنسية بغض النظر عن جنسياتِهم، وقس على ذلك المعجم التاريخي الإنجليزي والروسي والألماني.
إذا أخذنا في الاعتبار وحدة الدين واللغة والثقافة والتاريخ في الدول العربية؛ فإن مشروعا قوميا لمعجم تاريخي عربي واحد وشامل، سيكون ذا مردود ونتائج أعم وأوفر في حفظ اللغة والتاريخ والهوية العربية، وستكون الاستفادة منه عميمة على الباحثين أفرادا كانوا أو مؤسسات، عربا أو أجانب. خصوصا مع الإمكانيات الكبيرة التي صارت تُتيحُها الثورة التكنولوجيا والتي ساهمت بشكل كبير في إثراء هذا النوع من المعاجم على مستويين اثنيْن هما؛
- مستوى الكم: أتاحت الموارد العلمية والمعرفية المتاحة كمحتوى على الشبكة العالمية، إثراء المعاجم التاريخية بكميات كبيرة ولا محدودة من المادة اللغوية، بخلاف ما كان عليه الوضع سابقا، حيث كان الأمر يعتمد بشكل كامل على المجهود البشري وهو ما ينتج عنه عيوب وأخطاء كثيرة، وتتجلى هذه الأخطاء في التكرار أو الخلط في المادة اللغوية، أو فيما يخص النقص الكبير في المادة العلمية، نتيجة محدودية الجهد البشري، وقلة المصادر والمراجع اللغوية، إضافة إلى عائق اللغة الأجنبية، حيث يتطلب “التأثيل” في اللغة العربية؛ الدراية والإحاطة بلغات أجنبية كالفارسية والتركية واللاتينية، إضافة إلى الفرنسية والإنجليزية.
- مستوى الأدوات والوسائل: اختلف الوضع مع ظهور الإنترنت، التي سهلت واختصرت على المعجمي والمشتغلين بالمعاجم الكثير من الجهد والوقت، وأتاحت لهم مادة لغوية ضخمة مع إمكانيات لا محدودة يُمكن القيام بها جملة وفي الآن نفسه بكبسة زر، مع إمكانية تخزين كمٍّ لا نهائي من البيانات والمعلومات بشكل رقمي ومنظم. بالإضافة إلى إمكانية استدعاء أية معلومة أو لفظة بسرعة وفي ثوانٍ معدودة، دون الحاجة إلى الرجوع لآلاف الصفحات والبحث يدويا، دون إغفال إمكانية التحقق من صحة المعلومات وموثوقية مصادرها من خلال برامج وتطبيقات خاصة وفعالة في رصد الاقتباس والسرقات العلمية. ما يجعل المشتغلين بهذه المعاجم، يَقِظِينَ دائما لمسألة الأمانة العلمية (اقتباسا، نقلا، أو انتحالا). بخلاف ما كان عليه الوضع سابقا؛ إذ كانت صناعة المعاجم تعتمد بشكل كامل على العمل اليدوي من حيث ملء الجذاذات والمذكرات والمفكرات التي يعتمدها المعجمي لجمع اللغة وتصنيفها وتبويبها؛ حسب نوع المعجم. فكلما كان المعجم كبيرا وضخما، كان عدد هذه الجذاذات كبيرا جدا، ما يستهلك الكثير من الجهد والوقت والتركيز، ما يؤثر على الجودة العلمية لهذه المعاجم.
التكامل مع مختلف الأنظمة الرقمية:
يمثل تكامل المعاجم الرقمية مع الأنظمة والتطبيقات المختلفة من قبيل: – “Google AI” و”GPT-4″، التي تسهم في تنظيم وتحليل النصوص بفعالية. أما قواعد البيانات الضخمة مثل “MySQL” و”MongoDB” فتساعد على تحسين هيكلة المعلومات، بينما تدعم منصات مفتوحة المصدر مثل “Wikidata” الربط بين البيانات التاريخية والمعجمية – إحدى المحطات المهمة في بناء المعاجم التاريخية الرقمية،
إذ يلعب هذا التكامل دورا حيويا في تحسين كفاءة وفاعلية هذه المعاجم، باعتباره ضرورة أساسية لضمان التجاوب في الوصول إلى البيانات بشكل سلس، شامل ومترابط، بما يُعزز قابلية الاستفادة من محتوى هذه المعاجم استفادة وافية وفي كل الظروف والبيئات الرقمية المتاحة، والوصول إلى مجموعة واسعة من الموارد اللغوية والتاريخية من خلال منصة موحدة ومتكاملة الخدمات. كما تمكن المستخدمين من البحث في البيانات وتحليلها وتصنيفها وترجمتها، دون الحاجة إلى التنقل بين أنظمة وتطبيقات ونوافذ متعددة.
- أخلاقيات استخدام البيانات:
تُعد الأخلاقيات وسرية البيانات من الركائز الأساسية في مشاريع بناء المعاجم التاريخية الرقمية. فمع التطور المستمر في تكنولوجيا المعلومات، تزداد الحاجة إلى وضع معايير أخلاقية واضحة تضمن استخدام البيانات في إطار قانوني وأخلاقي صارم. فعلى الرغم من أن هذه المعاجم تُستخدم لأغراض بحثية وعلمية وأكاديمية بحتة،
إلا أن الاعتماد على الأدوات والبرامج الرقمية يزيد من احتمالية الوصول إلى بيانات شخصية أو معلومات سرية، قد تكون غير مخصصة للنشر العام (Facca et al., 2020). فالخوارزميات التي تقوم عليها هذه المعاجم قد تستدعي معلومات غير مصرح بها، أو تعرض بيانات محمية قد تظهر لخطأٍ ما وكأنها ذات وصول مفتوح متاحة للعموم، مما يستدعي اتخاذ تدابير وقائية صارمة لمنع أي انتهاك لخصوصية الأفراد والمؤسسات.
وتتطلب المشاريع العلمية الضخمة والممتدة في مجال المعاجم التاريخية الرقمية تطبيق منهجيات صارمة لمتابعة عمليات جمع البيانات، تخزينها، ومعالجتها (Kamocki & Witt, 2022). بحيث يتم ذلك وفقا للقوانين واللوائح المعمول بها في حماية الخصوصية والبيانات الشخصية. ومن أبرز الأسس التي يجب الالتزام بها:
- الامتثال للمعايير الدولية: مثل اللائحة العامة لحماية البيانات (GDPR) في الاتحاد الأوروبي، والتي توفر إطارا قانونيا لحماية خصوصية المستخدمين وضمان التعامل المسؤول مع البيانات الحساسة.
- تطبيق سياسات إخفاء الهوية والتشفير: لضمان حماية البيانات الشخصية ومنع الوصول غير المصرح به إليها.
- التدقيق المستمر والتحليل الأخلاقي: من خلال مراجعة دورية لكيفية استخدام البيانات وتقييم مدى توافقها مع المعايير الأخلاقية.
إن التعامل مع البيانات في المعاجم التاريخية الرقمية يتطلب توازناً دقيقًا بين حرية البحث العلمي وحماية خصوصية البيانات، مما يستوجب تطوير آليات رقابة صارمة تحمي المعلومات الشخصية وتضمن التزام هذه المشاريع بالمعايير الأخلاقية والقانونية
- تحديات التكنولوجيا والبرمجة:
تمثل التحديات التكنولوجية والبرمجية، إحدى الإكراهات الهامة جداً في بناء المعاجم التاريخية الرقمية، حيث يتطلب الأمر تطوير واستخدام برمجيات وتقنيات وتطبيقات جد متقدمة تستجيب لبنية اللغة العربية، على خلاف معظم البرامج والتطبيقات التي تم إنشاؤها انطلاقا من النماذج اللغوية الأجنبية (فرنسية، إنجليزية).
أما التحديات على مستوى الموارد البشرية، فإن مشروع المعجم التاريخي، يجب أن يتولاه خبراء متعددو التكوينات (في اللغويات، والبرمجة، وعلم الإحصاء وتحليل البيانات، والرقمنة والمعلوميات). “بخلاف ما هو عليه الحال الآن، إذ إن اشتغال كلٍّ من اللغوي والمبرمج والإحصائي ومطور التطبيقات، ومحلل البيانات كلٌّ بمفردِه وفي معزل عن الآخر، يُقلل من كفاءة هذه المعاجم ويحد من فاعليتِها، كما يزيد من الأخطاء والإبلاغات، ما يستدعي التعديل والتصحيح والتصويب المستمر للمادة اللغوية في المعجم“[12].
ما يستدعي زيادة الجهود وتطوير أساليب العمل من أجل تحقيق أفضل النتائج الممكنة، وضمان إخراج هذه المعاجم على أحسن صورة؛ من حيث سهولة الجرد وجودة المادة العلمية، مع ضرورة “توفير وسائل وأدوات التوثيق والحماية الحديثة التي تضمن الحفاظ على بيانات المعجم بشكل آمن وموثوق من أي اختراق أو تدمير أو عبث محتمل“[13].
- المعاجم التاريخية الرقمية والذكاء الاصطناعي:
يُعَتَبَر استخدام الذكاء الاصطناعي في تحليل النصوص التاريخية عموما، والمادة المعجمية التاريخية على وجه الخصوص، من الإمكانيات الهامة التي أتاحتها التكنولوجيا الرقمية الحديثة. كما سبقت الإشارة إلى ذلك. فتقنية الذكاء الاصطناعي تساهم في تفسير النصوص والمادة اللغوية التاريخية الضخمة بطُرُق أكثر كفاءة وفعالية وإبداعا بخلاف التحليل والجرد اليدوي التقليدي الذي يظل مجهودا بشريا.
وتعمل الأدوات والإمكانيات الذكية التي يوفرها الذكاء الاصطناعي؛ على تمتين التعلم الآلي ومعالجة اللغة الطبيعية وتحليل النصوص بِسرْعَةٍ ودقةٍ فائقة، وعلى مستويات متعددة، خصوصا المستوى المتعلق بالجرد والفرز والترتيب والتصنيف والفهرسة والتحليل والإحصاء والأرشفة. وكذا المستوى المرتبط بتحديد الأحداث والأشخاص والتواريخ والعلاقات الناظمة بينهم، بهدف تقديم وجهة نظر شاملة للباحثين والمتخصصين على حد سواء.
يُعزز استخدام الذكاء الاصطناعي قُوة ودقة المعاجم الرقمية في تحليل النصوص التاريخية، ويُضيف بُعدًا جديدًا مدهشا لاستكشاف وتنظيم المصادر التاريخية المتنوعة والمتعددة، و”يعكس هذا التقدم العلمي الرائع تقدمًا هائلاً في مجال البحث التاريخي وتحليل النصوص، حيث يسهم في فهم أعمق وأشمل للأحداث والظواهر والعلاقات التي تجمع بين النصوص التاريخية[14]“. ويُثير استخدام النسخ المتقدمة من الذكاء الاصطناعي العديد من التحديات والمشكلات، من بينها:
- انتهاك حقوق الطبع والنشر لبعض المواد العلمية والمعرفية التي لا يُعتبر مُحتواها مُشاعا (متاح) للعموم، وذلك من خلال الاقتباس مباشرة دون الإحالة على المصدر، وأحيانا يُسند الذكاء الاصطناعي المعلومات لمصادر وهمية وغير حقيقية، ما يعزز ضياع مجهود الباحثين وينتهك باستمرار حقوق الملكية الفكرية.
- تعزيز النمو والتطور المستمر في توظيف الذكاء الاصطناعي في صناعة المعاجم التاريخية؛ يزيد من خطر استدعاء وتوظيف معلومات ومعطيات حساسة متاحة على الإنترنت وتتمتع بالسرية الكاملة وغير مصرح بها للعموم، واستعمالُها على أنها مادة تاريخية (الملفات القضائية، التحقيقات البوليسية….).
إن حدوث مثل هذه الأخطاء وارد جدا فيما يخص الصناعة المعجمية الآلية، بسبب هشاشة النظم الرقمية، لذلك يتوجب تفعيل خدمة أو بند يتوافق مع القوانين واللوائح الوطنية والدولية التي تسمح بالإبلاغ عن كيفية استخدام البيانات سواء للأفراد أو المؤسسات، بما يضمن حقوقهم في الوصول إلى بياناتهم والتحقق منها أو تصحيحها أو حذفها إذا اقتضى الأمر ذلك.
- التحديات الاجتماعية والثقافية في بناء المعاجم التاريخية الرقمية:
تعتبر التحديات الاجتماعية والثقافية إحدى الجوانب المهمة التي يجب أخذها في الاعتبار عند بناء المعاجم التاريخية الرقمية. وتشمل هذه التحديات؛ التعامل مع التنوع اللغوي والثقافي والتراثي العربي والناطق بالعربية، وما يستدعي ذلك من احترام السياقات التاريخية والثقافية للنصوص وللمادة المعجمية التي يتم توظيفها في هذه المعاجم[15].
يتطلب هذا الأمر فهماً عميقاً للاستخدامات اللغوية المختلفة التي تعكس العادات الثقافية والممارسات الاجتماعية عبر الزمن، مما يستدعي أن تمثل المعاجم هذه الاستخدامات بدقة، دون انحياز أو تفضيل بين اللغات واللهجات والثقافات والقوميات. كما يجب احترام الحساسيات الثقافية المرتبطة ببعض النصوص، مثل النصوص المقدسة أو المفردات التي قد تُفهم بشكل خاطئ (كالإهانات أو العنصرية أو التنمر أو الكراهية أو الإقصاء).
ولتحقيق ذلك، ينبغي جمع المادة اللغوية من مصادر متنوعة ثقافياً ولغوياً، مع توثيق السياقات المرتبطة بها، والتعامل مع لهجات ولغات متعددة بأساليب تحليلية متخصصة. هذا يتطلب فريقاً معجمياً على درجة عالية من الخبرة في اللغات واللهجات، مع إلمام بعلم التأثيل واللغات السامية[16].
عموما؛ لا يمكن لمشروع ضخم وممتد في الزمان واللغة والثقافة أن يكون تحت هيمنة جهة أو مؤسسة واحدة في نطاق جغرافي معزول، وإنما من خلال بناء شراكات متنوعة وممتدة مع مجتمعات وهيئات ومؤسسات من مناطق ودول مختلفة، وتحت إشراف علماء وخبراء وفنيين وتقنيين وإداريين من الفئات والتخصصات ذات الصلة، وذلك بهدف إيجاد تمثيل دقيق وعادل للتراث اللغوي الموظف في هذه المعاجم والموازنة بين المادة الثقافية المختلفة.
- خاتمة:
ركزنا في هذه الدراسة على إظهار أهمية وكفاءة وفاعلية التكنولوجيا الرقمية والحوسبة في تطوير المعاجم الرقمية عموما، والتاريخية منها على وجه الخصوص. ويتجلى دور التكنولوجيا فيما تقدمه من حلول وبدائل عملية لتجاوز التحديات والصعوبات التقليدية؛ المتعلقة بتجميع، جرد، فرز، تصنيف وتوثيق المادة اللغوية، وذلك من خلال استغلال أدوات التحليل الرقمية المتقدمة والبيانات اللغوية الضخمة، التي تمكن من تعزيز دقة وشمولية التوثيق اللغوي، فضلا عن تسهيل الوصول إلى هذه المعاجم وإتاحتها عبر منصات النشر الإلكتروني.
لم يقتصر هذا التحول النوعي على تحسين جودة المعاجم فحسب، بل وسع كذلك من قاعدة مستخدميها لتشمل المختصين وغير المختصين، كونها أدوات للتعلم الذاتي. كما أتاح هذا التحول إمكانيات غير محدودة للتحديث المستمر وتوسيع نطاق الوصول المفتوح.
ومع ذلك، يصاحب هذا التطور المطرد في المعاجم الرقمية تحديات كثيرة ومخاطر جمة؛ تفرض ضرورة التفكير الاستراتيجي في كيفية تحقيق التوازن بين الاستفادة من التكنولوجيا المتقدمة مع الأخذ بالاحتياطات الأمنية الكافية لحماية الموارد اللغوية لهذه المعاجم من الاختراق أو التدمير أو التلاعب بها وسوء استخدامها. في المقابل؛ يجب الحرص على صوت التراث اللغوي في امتداداته وأبعاده الثقافية والاجتماعية لضمان استخدامه بشكل علمي واعٍ ومستدام دون تمييز أو إقصاء.
- المراجع العربية:
البلوي، احمد فالح، عبد الخالق يوسف، ويحيى. (2024). تقييم مدى تضمين أنماط الذكاءات المتعددة في محتوى كتب اللغة الإنجليزية بالصف الأول متوسط بالمملكة العربية السعودية. مجلة کلية التربية (أسيوط), 40(3.2), 1-44. https://doi.org/ekb.eg
راشد وليد وحميد. (2021). مشاريع صناعة المعجم التاريخي للغة العربية. [PDF]. في 27 أكتوبر 2021.
محمد ناصف، س. ث. (2023). دراسات في صناعة المعجم الرقمي التفاعلي: معجم الدوحة التاريخي للغة العربية نموذجًا. مجلة كلية اللغة العربية بالمنوفية. https://journals.ekb.eg/article_333423.html
فريق من الباحثين. (2020). أكبر مشروع لغوي تاريخي في العالم. مجلة الرافد، العدد 330، فبراير 2025. https://arrafid.ae/Portals/0/Files/Magazines/159/Arrafid_330February_2025.pdf
مجمع اللغة العربية بدمشق. (2019). المجلد الثاني والثمانون – الجزء الأول. https://arabacademy-sy.org/uploads/magazine/mag82/mag82-1.pdf
- المراجع الأجنبية:
– Machine Learning and Knowledge Discovery in Databases: European Conference, ECML PKDD 2022, Grenoble, France, September 19–23, 2022, Proceedings, Part I.
Facca, D., Smith, M. J., Shelley, J., Lizotte, D., & Donelle, L. (2020). Exploring the ethical issues in research using digital data collection strategies with minors: A scoping review. PLOS ONE, 15(8), e0237875. https://doi.org/10.1371/journal.pone.0237875
Kamocki, P., & Witt, A. (2022). Ethical issues in language resources and language technology – Tentative taxonomy. Proceedings of the 13th Conference on Language Resources and Evaluation (LREC 2022), 559–563. https://aclanthology.org/2022.lrec-1.59.pdf
– Crystal, D. (2003). The Cambridge Encyclopedia of the English Language. Cambridge University Press.
– Driscoll, M. J., & Pierazzo, E. (Eds.). (2016). Digital Scholarly Editing: Theories and Practices. Open Book Publishers.
– Rosenthal, D. S. H., & Robertson, T. (2013). Digital preservation: The need for an open source digital archival and preservation system for small to medium sized collections. Procedia Computer Science.
– Rathore, M. M., Shah, S. A., Shukla, D., Bentafat, E., & Bakiras, S. (2021). The role of AI, machine learning, and big data in digital twinning: A systematic literature review, challenges, and opportunities. IEEE Access, 9, 32030-32052. [IEEE Xplore](ieee.org).
– Kimberly, P. J. (2015). Backup and archiving strategies in the age of digital preservation. Information Management Journal, 49(4).
– Ray, et al. (2018). Journal of Data Mining and Digital Humanities.
– Kukushkina, O., Kutuzov, A., & Andreev, I. (2019). Analyzing semantic change in Russian language with word embeddings. arXiv. https://arxiv.org/abs/1905.06837
– Taherdoost, H. (2022). Internet Addiction; Symptoms, Impacts and Treatments. Open Access Journal of Addiction and Psychology, 5(2). https://doi.org/10.33552/OAJAP.
– Peters, D., & others. (2016). Ethical challenges of big data in public health. Current Opinion in Public Health, 8(1), 40-45.
Dictionaries and Society: A Cultural, Ethical, and Social Exploration. (2023, October 25). Retrieved July 24, 2024, from GradesFixer website: https://gradesfixer.com/free-essay-examples/dictionaries-and-society-a-cultural-ethical-and-social-exploration/
American Society of Overseas Research (ASOR). (n.d.). Digitizing Cultural Heritage: Challenges, Opportunities and Best Practices. Retrieved July 24, 2024, from https://www.asor.org/anetoday/2024/07/digitizing-cultural-heritage.
– Rothenberg, J. (1999). Ensuring the longevity of digital documents. Scientific American, 280(1).
- الهوامش والإحالات:
[1] Crystal, D. (2003). The Cambridge Encyclopedia of the English Language. Cambridge University Press. P33.
[2] Rosenthal, D. S. H., & Robertson, T. (2013). Digital preservation: The need for an open source digital archival and preservation system for small to medium sized collections. Procedia Computer Science, 20, 88-93.
[3] Kimberly, P. J. (2015). Backup and archiving strategies in the age of digital preservation. Information Management Journal, 49(4), 24-29.
[4] Rothenberg, J. (1999). Ensuring the longevity of digital documents. Scientific American, 280(1), 42-47.
[5] Driscoll, M. J., & Pierazzo, E. (Eds.). (2016). Digital Scholarly Editing: Theories and Practices. Open Book Publishers.
[6] Ray, et al. (2018). Journal of Data Mining and Digital Humanities.
[7] تعلم الآلةMachine Learning) ) في مجال الذكاء الاصطناعي؛ مجموعة من الأساليب والتقنيات التي تمكّن الحواسيب من تحسين أدائها ورفع كفاءتها في مهام وتخصصات معينة بناءً على الخبرات أو البيانات السابقة، دون الحاجة لبرمجة صريحة لكل سيناريو أو وظيفة بشكل منفصل.
يتم عبر تطوير خوارزميات تتعلم من البيانات وتجد الأنماط داخلها. هذا التعلم يمكن أن يكون موجهًا، حيث تكون البيانات مصحوبة بمعلومات تعريفية (مثل العلامات أو الفئات، أو التصنيفات…)، أو غير موجهة، حيث تُستخدم البيانات بدون معلومات تعريفية مسبقة لاكتشاف الهيكلية والأنماط الكامنة فيها.
يتم استخدام تعلم الآلة في العديد من التطبيقات مثل؛ التعرف على الوجوه، تحليل النصوص، التنبؤات المالية، التوصيات الشخصية في الخدمات الإلكترونية وغيرها، مما يجعله أحد أكثر المجالات تأثيرًا واستخدامًا في الذكاء الاصطناعي.
[8] Kukushkina, O., Kutuzov, A., & Andreev, I. (2019). Analyzing semantic change in Russian language with word embeddings. arXiv. https://arxiv.org/abs/1905.06837.
[9] فريق من الباحثين. (2020). أكبر مشروع لغوي تاريخي في العالم. مجلة الرافد، العدد 330، فبراير 2025. https://arrafid.ae/Portals/0/Files/Magazines/159/Arrafid_330February_2025.pdf
[10] مجمع اللغة العربية بدمشق. (2019). المجلد الثاني والثمانون – الجزء الأول. https://arabacademy-sy.org/uploads/magazine/mag82/mag82-1.pdf
[11] المؤلفون: راشد وليد وحميد فدة. (2021). مشاريع صناعة المعجم التاريخي للغة العربية. [PDF]. استلم في 22 مايو 2021، مقبول في 27 أكتوبر 2021.
[12] Rathore, M. M., Shah, S. A., Shukla, D., Bentafat, E., & Bakiras, S. (2021). The role of AI, machine learning, and big data in digital twinning: A systematic literature review, challenges, and opportunities. *IEEE Access, 9*, 32030-32052. [IEEE Xplore](ieee.org).
[13] Taherdoost, H. (2022). Internet Addiction; Symptoms, Impacts and Treatments. Open Access Journal of Addiction and Psychology, 5(2). https://doi.org/10.33552/OAJAP.2022.05.000608
[14] البلوي، احمد فالح، عبد الخالق يوسف، ويحيى. (2024). تقييم مدى تضمين أنماط الذكاءات المتعددة في محتوى كتب اللغة الإنجليزية بالصف الأول متوسط بالمملكة العربية السعودية. مجلة کلية التربية (أسيوط), 40(3.2), 1-44. https://doi.org/ekb.eg
[15] Dictionaries and Society: A Cultural, Ethical, and Social Exploration. (2023, October 25). Retrieved July 24, 2024, from GradesFixer website: https://gradesfixer.com/free-essay-examples/dictionaries-and-society-a-cultural-ethical-and-social-exploration/
[16] American Society of Overseas Research (ASOR). (n.d.). Digitizing Cultural Heritage: Challenges, Opportunities and Best Practices. Retrieved July 24, 2024, from https://www.asor.org/anetoday/2024/07/digitizing-cultural-heritage.