خوارزمية إستخلاص نص المقالة من الصفحة

phpg
2013-09-05T06:39:51+00:00

أستخدم برنامج Pocket بشكل دائم من أجل حفظ المقالات التي أريد قرائتها لاحقاً والخدمة رائعة جداً لأنها تعمل على إستخلاص النص والصور من المقالة فقط بدون تحميل أي شيء إضافي وكنت أتسأءل عن الخوارزمية المستخدمة لهذا الشيء، فتكوين كل صفحة مختلف عن الأخر فهي أبدأ في البحث عن عناصر مثل لأنها في الغالب ستحتوي على النص أم ماذا؟

نعم صحيح كل صفحة تختلف عن الأخرى، لذا في اعتقادي يتم جلب الصفحة بالكامل ويتم فلترتها وحذف الزوائد عن طريق البحث عن العناصر بالتخمين مكتوبه مسبقاً مثل البحث عن id المقال بهذه الكلمات

article|body|content|entry|hentry|main|page|pagination|post|text|blog|story

أو طريقة ثانية عن طريق تحليل العناصر ومقارنتها ببعضها البعض أي العناصر فيها نص أكثر وصور وغيرها يتم أخذه.

هذا والله أعلم.

يمكنك الاستفادة من هذه الروابط

http://lab.arc90.com/2009/0...

https://github.com/buriy/py...

https://github.com/feelingl...

تطوير الويب

مجتمع لمناقشة وتبادل الخبرات حول تطوير الويب. ناقش أحدث التقنيات، اللغات، والأدوات في عالم تطوير المواقع والتطبيقات. شارك مشاريعك، اسأل عن نصائح، وتعاون مع مطورين محترفين وهواة.

102 ألف متابع

أطلق موقعك الإلكتروني في دقائق

صمم موقعك كاملا بالسحب والإفلات بدون خبرة برمجية، واحجز مكانك على الإنترنت.

أنشئ موقعك الآن

خوارزمية إستخلاص نص المقالة من الصفحة

التعليقات

تطوير الويب

أطلق موقعك الإلكتروني في دقائق