ما هي آلية عمل Web Crawlers ؟


التعليق السابق

شكرا لك :)

ولكن .. كيف تجلب هذه الادوات جميع صفحات الموقع ؟ هل تقوم بعملية Brute Force اي تخمين ام ماذا ؟؟

  • تستخدم نمط تتبع الروابط، على سبيل المثال سأقوم بجلب محتوى الصفحة: ومنها سأقوم بإستخلاص جميع روابط الموضوعات لأبدأ في جلب البيانات من كل رابط على حدة بنفس الطريقة وهكذا.

مثال بلغة php لما أشرت له من نمط تتبع الروابط، يقوم الكود بالبحث عن روابط المواضيع وإستخلاصها كالتالي:

    $html = file_get_contents('https://io.hsoub.com/new');
    $domain = '
';
    preg_match_all('/<div class\=\"postContent\">.*?<\/h2>/s', $html, $match);
    foreach($match[0] as $value)
    {
        preg_match('/href="([^\n\t\s"]+)/', $value, $match2);
        $link = str_replace('href="','',$match2[0]);
        if(preg_match('/https?/i', $link)){
            $links[] = $link;
        }
        else
        {
            $links[] = $domain.$link;
        }
    }

    foreach($links as $link){
        echo "<div><a href='{$link}'>{$link}</a></div>";
    }

رائع :)

شكرا لك


ثقافة

لمناقشة المواضيع الثقافية، الفكرية والاجتماعية بموضوعية وعقلانية.

97.1 ألف متابع