المحتوى العربي وما ادراك ما المحتوى العربي !
عبارة عن مجموعة من صفحات الويب ومواقع ومدونات مكتوبة باللغة العربية.
فعندما نتحدث عن مؤشر للمحتوى العربي، فإننا نعني مقياسا تقريبيا لحجم الصفحات المفھرسة باللغة العربية والمتاحة على شبكة الانترنت.
مثل هذا المؤشر يعتبر ذو أهمية بالغة للعديد من القطاعات، وللمستخدمين العرب بشكل عام، لكن على الرغم من ذلك لم تتوفر حتى الآن دراسة تعطي مؤشرا يعبر عن حجم المحتوى العربي بشكل قريب من الواقع. تتراوح أرقام الإحصائيات المعلنة بالعادة ما بين 1% إلى 3% مثل ما نشرته الجزيرة.نت عام 2010، لكن أغلب هذه الإحصاءات إما تتحدث عن حجم المستخدمين العرب أو عن نسبة المواقع العربية، وهو أمر يختلف عن حجم المحتوى العربي.
تزداد أهمية هذا المؤشر عند الإطلاع على حجم المبادرات المعنية بإثراء المحتوى العربي، وزيادة الإقبال على تعريب إستخدام الإنترنت، فمن دون مؤشر يقدر تغير مشاركة المحتوى العربي عبر السنوات، يصبح من الصعب قياس الإنجازات في هذا المجال.
اذاً، الحاجة لمؤشر للمحتوى العربي على الشبكة العنكبوتية بات أمر اً ضرورياً ليدل على مدى إثراء الشبكة العنكبوتية بھذا المحتوى، وبالتالي يمكّن المھتمين الدارسين ومتخذي القرار بالاطلاع على وضع المحتوى العربي واقتراح الخطط المناسبة والتي يمكن ان تزيد ھذا المحتوى كماً ونوعاً، كما انه يمكن ان يعطي تنبؤات بمعدل نمو المحتوى العربي خلال السنوات القليلة القادمة.
هناك عدة صعوبات تواجه مثل هذا البحث، أبرزھا النمو والتغير السريع الذي يميز المحتوى على الإنترنت، بالاضافة للنسبة الكبيرة من محتوى الويب الذي يطلق عليه اسم المحتوى العميق، أو المحتوى المخفي Hidden Content أو Deep Content وھو محتوى غير مرئي بالنسبة لمحركات البحث مما يُصعّب قياس حجم المحتوى بدقة عالية. أيضا الفرق الشاسع بين عدد متكلمي اللغة وعدد الصفحات الفعلي، ووجود صفحات مكررة، وتداخل أحرف ورموز اللغات، ومحدودية المعلومات التي توفرها محركات البحث عن صفحات الويب، وغيرها من المشاكل. كل ذلك يجعل مهمة تقدير المحتوى تتطلب حلولا ذكية غير مباشرة حسب المعلومات والأدوات المتوفرة.
تعتمد دراسة موضوع لحساب مؤشر المحتوى الرقمي العربي على عدة نظريات ونماذج إحصائية ولغوية وحسابات ذكية لتقدير المحتوى العربي، تم تطبيقها بشكل عام على عدة مراحل، أولھا تحديد مَجمَع للنصوص أو ما يسمى بذخيرة النصوص وھي مجموعة كبيرة ومنظمة من النصوص المخزنة والمعالجة إلكترونياً.
في ھذه الدراسة، تم استخدام ويكيبيديا الموسوعة الحرة كذخيرة للنصوص، ويعود السبب في ذلك الى انھا الموسوعة التي تحتوي على العدد الأكبر من المقالات العربية، كما أنھا تشمل مقالات في كافة المجالات والتصنيفات وھذا يجعلھا مصدراً متنوعاً يمكن الاعتماد عليه، اذ تحتوي ھذه الذخيرة حالياً ما يتجاوز الثلاثمئة ألف مقال، بالإضافة الى تغطيتھا لأماكن واسعة من الوطن العربي.
بعد ذلك، يتم تحليل الأنماط اللغوية في الذخيرة، يتم حساب تكرار ظھور كل كلمة في جميع مقالات الذخيرة، وتطبيق قانون زيف Zipf's Law الذي يقول أن توزيع الكلمات في أي لغة يتبع نمطا بيانيا يمكن التنبؤ به، وأن احتمالية ظھور الكلمات الأكثر شيوعا مرتبطة بترتيبھا، فالكلمة الأكثر شيوعا تظھر بإحتمالية الضعف عن الكلمة في المرتبة الثانية، وثلاثة أضعاف الثالثة، وھكذا... ثم نقوم بتغطية مجال معين من الكلمات ابتداءً من الكلمات الأكثر تكراراً وصولاً الى الكلمات الأقل تكراراً، وبعد ذلك استخراج عدد من الكلمات تتبع ھذا التوزيع ليتم استخدامھا كعينة باستخدام ترتيب TF-IDF قياس (تكرار الكلمة – مقلوب تكرار المحتوى)، في ھذه الدراسة تم استخدام 50 كلمة تم استخراجھا بناءً على ھذا التوزيع.
يتم بعد ذلك ارسال كل كلمة من ھذه الكلمات والبحث عنھا في محرك البحث غوغل، والذي تم اختياره كمحرك بحث معتمد في ھذه الدراسة نظراً لشيوع استخدامه بين محركات البحث، خاصة عند استخدام اللغة العربية في البحث، بالاضافة لاعتماده من قبل عدد كبير من مستخدمي الانترنت. ويتم تسجيل عدد الصفحات العربية فقط التي تظھر في محرك البحث والتي تحتوي على كل كلمة من كلمات العينة وعددھا 50 ، وبعد تسجيل نتائج بحث كل كلمة، يتم تقدير حجم المحتوى العربي اعتماداً على النسبة والتناسب بين تكرار الكلمة في وثائق الذخيرة وتكرارھا في محرك البحث. ثم يتم حساب متوسط للقيم الناتجة ويتم اعتمادھا لتشير الى قيمة تقريبة لحجم المحتوى العربي على الانترنت. هذه الدراسة تأخذ بعين الإعتبار الفروقات بين التكرار في الذخيرة وعلى الإنترنت وتحلل أنماط الكلمات العربية عبر نتائج محرك البحث.
لزيادة دقة التقدير، ولتقدير عدد صفحات المحتوى الكلي للانترنت بطريقة مشابھة للمحتوى العربي، يتم استخدام نتائج محرك بحث غوغل السنوية لتقدير نسبة ظھور الكلمات والمحتويات المختلفة، ومنھا تقدير المحتوى الكلي.
لتقدير المحتوى العالمي، نقدر نسبة المحتوى الإنجليزي بالنسبة للمحتوى العالمي. ھناك دراسات تشير إلى أن عدد المواقع الإنجليزية تشكل 55 % من عدد المواقع الكلية، لكن ھذه الدراسات لا تشير إلى عدد الصفحات، فقد يكون ھناك موقع إنجليزي واحد يحتوى من الصفحات ما يعادل مئات المواقع غير الإنجليزية (مثل ويكيبيديا).
من أجل ذلك نستخدم حسابا غير مباشر عن طريق حساب عدد مقالات، تعديلات، وتفاعلات موقع ويكيبيديا الإنجليزي، ونسبتھا من عدد مقالات وتفاعلات وتعديلات مواقع ويكيبيديا من اللغات الأخرى. لأن موقع ويكيبيديا يمثل شريحة من الأشخاص فاعلين في مجال لغتھم، يمكن إستخدام ھذا التقدير وتعميمه على باقي صفحات الإنترنت.
ولكون صفحات المحتوى تطورت في السنوات الأخيرة لتشمل أي نوع من صفحات المعلومات مثل الخرائط وصفحات التواصل الاجتماعي وحتى صفحات المواقع الإعلانية والمزعجة، فإن التقدير بأخذ ذلك بعين الاعتبار للوصول الى رقم يعبر عن نسبة حقيقية للمحتوى المفيد.
في النھاية نحصل على أرقام سنوية وكلية تعبر عن تقدير نسبة المحتوى العربي من المحتوى الكلي على الإنترنت، وعلى تقدير تقريبي لحجم المحتوى العربي على الإنترنت.
هذه الدراسة مصدرها موقع موضوع
رابط الموقع :
التعليقات