كان عدد الحروف العربية قبل وضع النقاط عليها ستة عشر حرفا وهذا مطابق تماما لنظام العد الست عشري حيث يشكل الالف رقم 1 و الحروف ب ت ث ن الرقم 2 لانهم نفس الشكل بدون تنقيط ، وكذلك ح ج خ تاخذ رقم 3 ، د ذ تاخذ رقم 4 ، ه تاخذ رقم 5 اما ق و فياخذان 6 ولدينا ر ز تاخذان رقم 7 اما ط فتاخذ رقم 8 ولدينا ي ى ياخذان رقم 9 والكاف تاخذ رقم َA والام رقم B وميم رقم C اما غ ع فياخذان رقم D ا، الفاء رقم E ، ص ض رقم F اما الصفر فيقابله السين والشين في النظام العد الست عشري
وبهاذا نجد الحروف العربية بدون تنقيط تشفر النظام العد ست عشري .
فلهاذا يمكن القول ان الحرف الواحد غير المنقط من اللغة يمكن تمثيله بنظام الثنائي باربعة بتات لانه رمز من النظام الست عشري .
كما ان البايت اي ثمن بتات يمكن تمثيلها بحرفين غير منقطين وهي الحالة الاولى في ترميز UTF8
0XXXXXXX
اما تلاث حروف فيرمز على اثنان بايت و تكتب بالشكل التالي 110XXXXX 10XXXXXX على UTF 8
اما اربعة حروف فيرمز على ثلاثة اوكتي اوبايت بالشكل التالي 1110XXXX 10XXXXXX 10XXXXXX في UTF8
واخيرا خمسة حروف فترمز على اربعة اوكتي على الشكل 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX في UTF8
اذا بالمقارنة بين الترميز في UTF8 نجد ان خمسة حروف غير هو الحد الاقصى للترميز
وعند مقارنة فواتح الصور القرانية نجد منها من تبدا بحرف ومنها من تبدا بحرفين ومنها من تبدا بثلاث وكذالك اربع واخيرا خمسة احرف .
التعليقات