آموزش سرچ کنسول با گزارش crawl stats
آیا میدانید آخرین باری که ربات گوگل به سایت شما درخواست داده است و با چه پاسخی روبرو شده است؟ کدام صفحه آخرین بار درون رفته است؟ برای پیدا کردن پاسخ به این سؤالات، باید به گزارشات “Crawl Stats” در سرچ کنسول مراجعه کنید. در ادامه، ما به معرفی این قسمت مهم اما پنهان میپردازیم.
“Crawl Stats” چیست؟
این بخش که در قسمت “Setting” سرچ کنسول قرار دارد، اطلاعاتی درباره وضعیت سایت شما در مقابل درخواستهای ربات گوگل ارائه میدهد.
در این بخش، باید چند نکته ضروری را در نظر داشته باشید:
اگر در دامنه اصلی (Property) خود هستید، میتوانید گزارشهای مربوط به زیردامنهها را نیز مشاهده کنید. اما اگر در دامنه فرعی (Subdomain) قرار دارید، گزارش URLهای مربوط به زیردامنههای دیگر قابل نمایش نیست.
اگر از منابعی که به دامنههای دیگر مرتبط هستند در صفحات خود استفاده کردهاید، گزارش crawl آنها را در این بخش مشاهده نخواهید کرد.
این بخش شامل گزارشهای HTTP و HTTPS است؛ اما در قسمت URLهای نمونه گزارش، فقط صفحاتی را مشاهده خواهید کرد که عضوی از دامنه فعلی شما هستند؛ به عبارتی، اگر در دامنه HTTP هستید، در قسمت مشاهده URLها، فقط موارد HTTP قابل مشاهده هستند.
تمام درخواستهای مربوط به صفحات با کدهای 301، 302 و 404 شمرده خواهند شد.
در بخش “تعداد کل درخواستهای خزش”
در این بخش، یک نمودار نشان داده میشود که تعداد کل درخواستهایی که بات گوگل ارسال کرده است را نشان میدهد. این درخواستها شامل درخواستهای موفق و ناموفق میشوند. این بخش تنها محدود به صفحات HTML نیست و تعداد درخواستهای خزش برای منابع صفحه مانند فایلهای CSS نیز شمرده میشود.
در بخش “حجم دانلود”
این بخش حجم بایتهایی که با خزش صفحات در هر روز دانلود میشوند را نشان میدهد. اگر حافظه نهان (Cache) برای منابع فعال باشد، تنها در اولین درخواست، حجم آنها محاسبه میشود.
در بخش “مدت زمان پاسخ میانگین”
این نمودار میانگین زمان پاسخ (به واحد میلیثانیه) به درخواستهایی که بات گوگل ارسال کرده است را نشان میدهد.
در بخش “وضعیت میزبان”
این بخش وضعیت پاسخگویی سرور شما در مقابل درخواستهای بات گوگل را نشان میدهد.
وضعیت پاسخ به سه شکل نمایش داده میشود:
- دایره سبز پر: در 90 روز گذشته، گوگل با هیچ مشکل قابل توجهی در هنگام درخواست به سایت شما مواجه نشده است.
- دایره سبز خالی: حداقل یکبار در 90 روز گذشته، گوگل در هنگام ارسال درخواست به سایت شما با مشکل مواجه شده است.
- دایره قرمز: در هفته گذشته، حداقل یکبار سایت شما در دسترس نبوده است. این مورد حتماً باید مورد بررسی قرار گیرد.
در بخش “جزئیات وضعیت میزبان”
همانطور که در بند قبل اشاره شد، اگر دایره قرمز مشاهده شد، حتماً باید بررسیهای لازم انجام شود.
این جزئیات به سه بخش با نمودارهای جداگانه تقسیم میشود:
- مشکلات مرتبط با دریافت ربات: در این بخش، مشکلاتی که با دریافت ربات بوت گوگل مرتبط هستند، نمایش داده میشود.
- مشکلات مرتبط با DNS: در این بخش، مشکلاتی که با سیستم نام دامنه (DNS) مرتبط هستند، نمایش داده میشود.
- در دسترس نبودن سرور: در این بخش، وضعیت در دسترس نبودن سرور نشان داده میشود. در صورتی که این مورد رخ داده باشد، حتماً باید این موضوع را به سرویس دهنده میزبانی خود اعلام کنید.
در این بخش، انواع پاسخهایی که به درخواستهای خزش داده شده است، نمایش داده میشود. با کلیک بر روی هر کد پاسخ، میتوانید صفحاتی که این پاسخ را برگرداندهاند را مشاهده کنید.
پاسخ ۲۰۰: در حالت عادی، بخش اعظمی از درخواستها پاسخ ۲۰۰ را دریافت میکنند.
پاسخ 301: در مواردی که صفحه را به طور دائم بازمسیری (Redirect) کردهاید، این پاسخ را دریافت میکنید.
پاسخ 302: صفحاتی که به طور موقت بازمسیری شدهاند، پاسخ 302 را ارسال میکنند.
پاسخ 304: اگر صفحه شما از زمان آخرین خزش تغییری نکرده باشد، در برابر آن پاسخ 304 ثبت میشود. پاسخهای ۲۰۰، ۳۰۱، ۳۰۲ و ۳۰۴ پاسخهای مناسبی هستند و در مواجهه با آنها میتوانید یک آرامش راحت را تجربه کنید.
در بخش “پاسخهای محدود شده توسط Robots.txt”
- پاسخ Blocked by Robots.txt: این پاسخ نشان میدهد که صفحات توسط فایل Robots.txt مسدود شدهاند و ربات قادر به ارسال درخواست به آنها نیست. اگر صفحهای بهطور ناخواسته در این بخش قرار دارد، لازم است فایل Robots.txt را مجدداً بررسی کنید.
- پاسخ Not Found 404: این پاسخ برای صفحات 404 و لینکهای شکسته دریافت میشود. هر سایت ممکن است تعدادی صفحات 404 داشته باشد؛ اما برای اطمینان بیشتر، لازم است این بخش را بررسی کنید تا لینکهای ناخواسته در این بخش قرار نگیرند.
در بخش “خطاهای قابل بررسی”
در ادامه به خطاهایی میپردازیم که حتماً باید بررسی شوند؛ زیرا به تدریج از صفحات گوگل حذف میشوند.
- پاسخ Robots.txt not Available: اگر فایل Robots.txt شما برای مدتی در دسترس نباشد، این پاسخ دریافت میشود. در این حالت، گوگل درخواستهای خزش را برای مدتی متوقف میکند (این پاسخ جدا از این است که فایل موجود نباشد).
- پاسخ Unauthorized (401/407): این دسته صفحات نیاز به ورود به سیستم (لاگین) دارند. شما میتوانید این صفحات را از طریق فایل Robots.txt محدود کنید یا اگر از منظر فنی نیاز به ورود به سیستم ندارند، آنها را تغییر دهید.
در بخش “خطاهای سرور و خطاهای مشتری (Client Errors)”
- پاسخ Server Error: این پاسخ نشان میدهد که خطایی در سرور رخ داده است. بهتر است این خطا را به تیم برنامهنویسی اطلاع داده و مشکل را بررسی کنند. این خطا معمولاً ناشی از مشکلات ساختاری یا برنامهنویسی است.
- پاسخ Other Client Error (4XX): نوع دقیق این خطا مشخص نیست و برای تشخیص علت آن، نیاز به بررسی دقیق است. به عنوان مثال، اگر IPهای گوگل در CDN شما مسدود شده باشد، صفحات با این خطا مواجه میشوند.
علاوه بر این، برخی از خطاهای دیگر مانند DNS Unresponsive، DNS Error، Fetch Error، Page Couldn’t be Reached، Page Timeout و Redirect Error نیز در دسته خطاهایی قرار میگیرند که نیاز به بررسی دارند.
بلوک filetype
در بخش “بلوک نوع فایلها (File Type)”
در این بلوک، درصد مشاهده فایلهایی که خزش شدهاند، بر اساس نوع فایل، قابل مشاهده است.
نوعهای فایلی که در این بلوک نمایش داده شدهاند، عبارتند از:
CSS (نمایش فایلهای CSS)
JavaScript (نمایش فایلهای جاوا اسکریپت)
Video (نمایش فایلهای ویدیو)
Image (نمایش فایلهای تصویری)
Html (نمایش فایلهای HTML)
Json (نمایش فایلهای JSON)
PDF (نمایش فایلهای PDF)
Audio (نمایش فایلهای صوتی)
Syndication (اطلاعات RSS)
و…
درصد مشاهده فایلها بر اساس هر نوع فایل در این بلوک قابل مشاهده است.
در بخش “بلوک هدف خزش (Crawl Purpose)”
این بلوک شامل دو بخش “کشف” و “تازهسازی” است. در بخش “تازهسازی”، URLهایی که برای اولین بار شناسایی و خزش میشوند، قرار میگیرند، در حالی که در بخش “تازهسازی”، URLهایی که قبلاً خزش شدهاند، قرار میگیرند.
در بخش “بلوک نوع بات گوگل (Google Bot Type)”
همانطور که میدانید، گوگل برای اهداف مختلف از باتهای مختلفی استفاده میکند که هر کدام رفتار خاص به خود را دارند.
باتهای این بخش عبارتند از:
Smartphone (بات موبایل)
Desktop (بات دسکتاپ)
Image (بات تصویر)
Video (بات ویدیو)
Page Resource Load (بات بارگیری منابع صفحه مانند CSS)
Adsbot (بات تبلیغات گوگل)
Storebot (بات فروشگاه)
Other Agent Type (نوع دیگر باتها)
با کلیک بر روی هر بات، میتوانید صفحاتی که توسط آن بات بررسی شدهاند و نوع پاسخی که دریافت کردهاند، را به تفکیک مشاهده کنید.
درباره بررسی نرخ خزش، چند نکته وجود دارد:
- تأثیر اضافه کردن بخش جدید: در صورت اضافه کردن بخش جدید به وبسایت، نرخ خزش شما به طور قابل ملاحظهای افزایش خواهد یافت. این به این معنی است که باتهای خزش، برای بررسی و خزش صفحات جدید بیشتری درخواست میدهند.
- تأخیر در پاسخ سرور: اگر سرعت پاسخ سرور شما به درخواستهای گوگل کند باشد، باتها به تدریج تعداد درخواستهای خود را کاهش خواهند داد. این اقدام به منظور جلوگیری از ایجاد فشار زیاد بر سرور و امکان پاسخگویی به درخواستهای کاربران است.
- نوع درخواستها: در ابتدای افتتاح سایت و ساخت صفحات جدید، بیشترین تعداد درخواستها از نوع “کشف” (discovery) است. اما به تدریج، درخواستها به “تازهسازی” (refresh) تبدیل میشوند. این به این معنی است که باتها بیشتر تلاش میکنند تا صفحات قبلی را بروز رسانی کنند تا صفحات جدید را کشف کنند.
- محتوای بهروز نشده: صفحاتی که مدت زیادی محتوای آنها بهروز نشود، معمولاً کندتر خزش میشوند. این به این معنی است که باتها کمتر به آنها درخواست میدهند و در صورتی که محتوا بهروز شود، خزش بیشتری انجام میدهند.
با رعایت این نکات، میتوانید نحوه خزش سایت خود را بهبود داده و بهترین بهرهبرداری از باتهای خزش را داشته باشید.