المكتبة الوطنية السويدية تبدأ مشروعاً لتحويل الإرث المكتوب إلى بيانات مخزنة على الذكاء الاصطناعي

على مدى السنوات الـ 500 الماضية، جمعت المكتبة الوطنية السويدية تقريباً كل كلمة منشورة باللغة السويدية، بدءاً من مخطوطات العصور الوسطى التي لا تقدر بثمن، ووصولاً إلى قوائم البيتزا.

وبفضل قانون عمره قرون ينص على تقديم نسخة من كل شيء نُشر باللغة السويدية إلى المكتبة - المعروف أيضاً باسم Kungliga biblioteket، أو KB - تمتد مجموعات المكتبة من النصوص الواضحة إلى الغامضة: الكتب والصحف والبث الإذاعي والتلفزيوني ومحتوى الإنترنت ورسائل الدكتوراه. إضافةً إلى، الأطروحات والبطاقات البريدية والقوائم، لتكوين مجموعة متنوعة من ما يقارب الـ 26 بيتابايت من البيانات، وهي مثالية لتدريب أحدث أشكال الذكاء الاصطناعي.

في هذا الصدد، يقول لوف بورجيسون Love Börjeson، مدير مختبر البيانات بالمكتبة KBLab: «يمكننا بناء أحدث نماذج الذكاء الاصطناعي باللغة السويدية نظراً لكوننا نملك أفضل البيانات».

وباستخدام أنظمة NVIDIA DGX، طورت المجموعة أكثر من عشرين نموذجاً من المحولات مفتوحة المصدر، كما أنها متوفرة على Hugging Face.

النماذج، التي تم تنزيلها من قبل ما يصل إلى 200,000 مطور شهرياً، تتيح البحث في المكتبة والمؤسسات الأكاديمية الأخرى.

يقول بورجيسون: «قبل إنشاء مختبرنا، لم يتمكن الباحثون من الوصول إلى مجموعة بيانات في المكتبة - كان عليهم النظر إلى كائن واحد في كل مرة». ويضيف: «كانت هناك حاجة للمكتبة لإنشاء مجموعات بيانات مكنت الباحثين من إجراء أبحاث موجهة نحو الكمية».

تحويل أرشيف المكتبة إلى بيانات تدريب للذكاء الاصطناعي

تمثل مجموعات بيانات المكتبة التنوع الكامل للغة السويدية - بما في ذلك الاختلافات الرسمية وغير الرسمية واللهجات الإقليمية والتغييرات التي حدثت بمرور الوقت.

في هذا الصدد، قال بورجيسون: «تدفق المعلومات مستمر ومتزايد - كل شهر، نرى أكثر من 50 تيرابايت من البيانات الجديدة». ويتابع: «بين النمو الأُسي للبيانات الرقمية والعمل المستمر على رقمنة المجموعات المادية التي يعود تاريخها إلى مئات السنين، لن ننتهي أبداً من إضافة مجموعتنا».

بهذا، سيتمكن الباحثون قريباً من إنشاء مجموعات بيانات شديدة التخصص - على سبيل المثال، سحب كل بطاقة بريدية سويدية تصور كنيسة، أو كل نص مكتوب بأسلوب معين أو كل ذكر لشخصية تاريخية عبر الكتب والمقالات الصحفية والبث التلفزيوني.

في هذا السياق، وبعد فترة وجيزة من إنشاء KBLab في عام 2019، رأى بورجيسون إمكانية تدريب نماذج لغة المحول على أرشيفات المكتبة الضخمة، وهو مستوحى من نموذج معالجة اللغة الطبيعية المبكر متعدد اللغات من Google والذي تضمن 5 جيجابايت من النصوص السويدية.

كما يهدف الفريق الآن إلى تدريب نماذجه وإنشاء ما لا يقل عن تيرابايت من النصوص السويدية، حيث بدأ المختبر تجاربه بإضافة محتوى هولندي وألماني ونرويجي إلى مجموعات بياناته بعد أن اكتشفوا أن مجموعة البيانات متعددة اللغات قد تحسن أداء الذكاء الاصطناعي.

تسخير البيانات متعددة الوسائط لأبحاث العلوم الإنسانية

إضافةً إلى نماذج المحولات التي تفهم النص السويدي، يحتوي KBLab على أداة ذكاء اصطناعي تقوم بنسخ الصوت وتحويله إلى النص، مما يمكّن المكتبة من نسخ مجموعتها الهائلة من البث الإذاعي حتى يتمكن الباحثون من البحث في السجلات الصوتية عن محتوى محدد.

بدأ KBLab أيضاً تطوير نماذج نصية توليدية تعمل على نموذج ذكاء اصطناعي يمكنه معالجة مقاطع الفيديو وإنشاء أوصاف تلقائية لمحتوياتها. حيث يقول بورجيسون: «نريد أيضاً ربط جميع الطرائق المختلفة مع بعضها. عند البحث في قواعد بيانات المكتبة عن مصطلح معين، يجب أن نكون قادرين على إرجاع النتائج جميعها سواء كانت نصوص وصوت وفيديو».

بدوره، دخلت KBLab في شراكة مع باحثين في جامعة يوتوبوري، الذين يطورون تطبيقات المصب باستخدام نماذج المختبر لإجراء أبحاث لغوية - بما في ذلك مشروع يدعم عمل الأكاديمية السويدية لتحديث تقنياتها القائمة على البيانات لإنشاء قواميس سويدية.

يقول بورجيسون بخصوص ذلك: «الفوائد المجتمعية لهذه النماذج أكبر بكثير مما توقعنا في البداية!».