ما هي آلية عمل Web Crawlers ؟

تستخدم نمط تتبع الروابط، على سبيل المثال سأقوم بجلب محتوى الصفحة:

حسوب I/O - أحدث المساهمات
io.hsoub.com/new
يمكنك هنا طرح ومناقشة الأفكار والقضايا التقنية والعلمية والمشاركة في العديد من المجتمعات المختلفة.

ومنها سأقوم بإستخلاص جميع روابط الموضوعات لأبدأ في جلب البيانات من كل رابط على حدة بنفس الطريقة وهكذا.

2015-08-06T14:18:30+00:00
أضف ردا
المزيد
- رابط مختصر

مثال بلغة php لما أشرت له من نمط تتبع الروابط، يقوم الكود بالبحث عن روابط المواضيع وإستخلاصها كالتالي:

    $html = file_get_contents('https://io.hsoub.com/new');
    $domain = '
  
    
  



  حسوب I/O
   io.hsoub.com
  يمكنك هنا طرح ومناقشة الأفكار والقضايا التقنية والعلمية والمشاركة في العديد من المجتمعات المختلفة.


  
  

';
    preg_match_all('/<div class\=\"postContent\">.*?<\/h2>/s', $html, $match);
    foreach($match[0] as $value)
    {
        preg_match('/href="([^\n\t\s"]+)/', $value, $match2);
        $link = str_replace('href="','',$match2[0]);
        if(preg_match('/https?/i', $link)){
            $links[] = $link;
        }
        else
        {
            $links[] = $domain.$link;
        }
    }

    foreach($links as $link){
        echo "<div><a href='{$link}'>{$link}</a></div>";
    }

p3r0

2015-08-06T17:53:58+00:00
أضف ردا
المزيد
- رابط مختصر

رائع :)

شكرا لك

ثقافة

مجتمع لمناقشة المواضيع الثقافية، الفكرية، والاجتماعية بموضوعية وعقلانية. ناقش وتبادل المعرفة والأفكار حول الأدب، الفنون، الموسيقى، والعادات.

110 ألف متابع

أطلق موقعك الإلكتروني في دقائق

صمم موقعك كاملا بالسحب والإفلات بدون خبرة برمجية، واحجز مكانك على الإنترنت.

أنشئ موقعك الآن

ما هي آلية عمل Web Crawlers ؟

التعليقات

ثقافة

أطلق موقعك الإلكتروني في دقائق