snapshoter

41 نقاط السمعة
14.8 ألف مشاهدات المحتوى
عضو منذ
تم اصلاح الخطأ بالاعتماد على sitemap للوصول الى المواضيع عدد النتائج مقارب للاحتمال التي ذكرتها :D * 11813 موضوع * 62515 تعليق * 102 مجمتع يمكنك تحميل البيانات الجديدة عبر الرابط http://goo.gl/6dJhl5 و ايضا الاطلاع على المصدر https://github.com/hemache/snapshoter
تم اصلاح الخطأ, يمكنك تحميل البيانات الجديدة (بتاريخ 11-10-2014) من خلال الرابط http://goo.gl/6dJhl5
نعم, يمكن استعمال PhantomJS (Ghost) او اي متصفح مدعوم من Selenium لكن هذا سيكلف الكثير على مستوى الاداء و ايضا يحتاج الى اعادة كتابة العديد من الاجزاء حاليا افكر في محاكات طلبات Ajax المرسلة او ربما كحل اخير استعمال ال"Machine Gun" حيث سيتم زيارة كل الروابط المحتملة (عبر ID) الى حين الوصول الى صفحات 404 !
العفو , بفضلك انا متحمس مجددا للعمل على هذا المشروع
نعم كان هناك خطأ على مستوى الية تتبع المواضيع ذات الروابط (تم اصلاحه) بالاضافة الى خطا اخر (https://arabia.io/go/14275/65891) النتائج الجديدة root@arabia:~/snapshoter/data# grep '"item": "post"' 11-10-2014.json | wc -l 3802 root@arabia:~/snapshoter/data# grep '"item": "comment"' 11-10-2014.json | wc -l 20962 root@arabia:~/snapshoter/data# grep '"item": "community"' 11-10-2014.json | wc -l 132
اللغة المستخدم هي Python و XPath بالنسبة للغة الاستعلام بدل CSS Selector حاليا, لا يتم التفريق بين المحتوى القديم و الجديد. كل ما في الامر انه يتم اطلاق زاحف (crawler) لجلب كل محتويات الموقع بدون استثناء و يشجع هذا الامر سرعة العملية -نسبيا- حيث تتم في اقل من 20 دقيقة باعدادات متواضعة يبدء الامر من صفحة المجتمعات, و يتم متابعة جميع روابط المواضيع الا انه قد اكتشفة للتو انه يوجد خطأ على مستوى هذه الالية , و هو انه لا
نعم, حيث ان كل مشاركات الاعضاء هنا في ارابيا تحت رخصة CC BY-SA 3.0 > User contributions licensed under CC BY-SA 3.0. و تسمح الرخصة بنسخ و اعادة توزيع المحتوى في اي شكل كان http://creativecommons.org/licenses/by-sa/3.0 > Share — copy and redistribute the material in any medium or format > Adapt — remix, transform, and build upon the material > for any purpose, even commercially.