قام الباحثون بتدريب نموذج معالجة اللغة الطبيعية على الآلاف من التسلسلات الجينية المأخوذة من ثلاثة فيروسات مختلفة: 45,000 تسلسل فريد لأحد أنواع الأنفلونزا، و60,000 تسلسل فريد لأحد أنواع فيروس HIV، وما بين 3,000 و4,000 لأحد أنواع فيروس سارس-كوف-2، الذي يسبب مرض كوفيد-19. تعمل هذه النماذج عن طريق ترميز الكلمات في فضاء رياضي، بحيث تكون الكلمات ذات المعاني المتقاربة أقرب إلى بعضها البعض من الكلمات ذات المعاني المختلفة؛ وهذا ما يُعرف باسم التضمين. وبالنسبة للفيروسات، فإن تضمين التسلسلات الجينية أدى إلى تجميع الفيروسات وفقاً لمدى التقارب بين تحولاتها.

تهدف هذه المقاربة عموماً إلى كشف التحولات التي قد تسمح للفيروس بالهرب من النظام المناعي دون التأثير على قدرته على الإصابة، أي التحولات التي تغير معنى الفيروس دون جعله خاطئاً من الناحية القواعدية. فهل تنجح هذه النماذج في قراءة تحولات فيروس كورونا؟ تعرف على الإجابة في مقالتنا عن الموضوع من الرابط: