أستخدم برنامج Pocket بشكل دائم من أجل حفظ المقالات التي أريد قرائتها لاحقاً والخدمة رائعة جداً لأنها تعمل على إستخلاص النص والصور من المقالة فقط بدون تحميل أي شيء إضافي وكنت أتسأءل عن الخوارزمية المستخدمة لهذا الشيء، فتكوين كل صفحة مختلف عن الأخر فهي أبدأ في البحث عن عناصر مثل لأنها في الغالب ستحتوي على النص أم ماذا؟
خوارزمية إستخلاص نص المقالة من الصفحة
نعم صحيح كل صفحة تختلف عن الأخرى، لذا في اعتقادي يتم جلب الصفحة بالكامل ويتم فلترتها وحذف الزوائد عن طريق البحث عن العناصر بالتخمين مكتوبه مسبقاً مثل البحث عن id المقال بهذه الكلمات
article|body|content|entry|hentry|main|page|pagination|post|text|blog|story
أو طريقة ثانية عن طريق تحليل العناصر ومقارنتها ببعضها البعض أي العناصر فيها نص أكثر وصور وغيرها يتم أخذه.
هذا والله أعلم.
يمكنك الاستفادة من هذه الروابط
التعليقات