گوگل چگونه کار می‌کند؟

مطلبی که در ادامه می‌خونید ترکیبی از ترجمه و نگارش مطلبی هستش با عنوان In-depth guide to how Google Search works که جزو مستندات اصلی خود Google Developer هستش. سعی می‌کنم مطالب رو به زبان ساده بگم و هر جایی که نیاز به توضیح اضافی داشت اونو می‌ذارم. مطالبی که اضافه می‌شن رو با بک‌گراند زرد می‌نویسم.

گوگل یه موتور جستجوگر تمام و کمال خودکاره و از یه نرم افزاری به اسم Web Crawler یا خزنده وب برای کشف صفحات مختلف وب استفاده می‌کنه. اینکار به صورت مرتب انجام می‌شه و در نهایت صفحاتی که پیدا میشن وارد خود ایندکس گوگل خواهند شد. در واقع بیشتر صفحاتی که در نتایج گوگل مشاهده می‌کنید به صورت دستی وارد نشدن بلکه از طریق این نرم افزار ایندکس شدند. توی این مطلب به صورت قدم به قدم با چگونگی کار کردن گوگل و ایندکس کردن محتوا آشنا می‌شیم. برای کسی که قدم اول سئو رو برمی‌داره این مطلب مطمئنا جای خوبی برای یادگیری خواهد بود.

یک نکته مهم قبل از شروع

قبل از اینکه با جزئیات اینکه گوگل چگونه کار می‌کند آشنا شویم لازم به ذکر است بگوییم که گوگل به هیچ شیوه‌ای برای پیمایش یا ایندکس کردن یک وبسایت پول دریافت نمی‌کند و از کسی هم بابت این کار پولی را قبول نمی‌کند. اگر کسی چنین ادعایی داشت بدانید که اشتباه می‌کند.

همچنین گوگل هیچگونه پیمایش یا ایندکس کردنی را تضمین نمی‌کند. حتی اگر وبسایت شما تمام اصول اولیه و استاندارد گوگل را رعایت کرده باشد باز هم ضمانتی برای انجام چنین کاری نیست. حالا بیا این رو به کارفرما بگو!

Google doesn’t guarantee that it will crawl, index, or serve your page, even if your page follows the Google Search Essentials.

Google For Developer – Documentation

آشنایی با سه مرحله Google Search

سرچ گوگل براساس سه مرحله پیش می‌رود که البته تمام صفحات و وبسایت‌ها از این سه مرحله رد نخواهند شد:

  • کرالینگ یا خزندگی یا پیمایش یا Crawling: گوگل در این مرحله، متون، تصاویر و ویدیوهای پیدا شده توسط نرم افزار Crawler را دانلود می‌کند.
  • ایندکسینگ: گوگل در این مرحله متون، تصاویر و ویدیوهای پیدا شده روی صفحات را آنالیز یا بررسی کرده و آن‌ها را در ایندکس خود که یک دیتابیس بزرگ است ذخیره می‌کند.
  • آماده‌سازی نتایج جستجو: زمانی که یک کاربر جستجویی انجام دهد، اگر مطالب ایندکس شده با کوئری کاربر تطابق داشته باشند گوگل آن را به کاربر نشان خواهد داد.

حالا بیایید دونه دونه با این سه مرحله آشنا بشیم.

کرالینگ یا Crawling

مرحله اول مربوط به کشف صفحات در دنیای اینترنت است. از اونجایی که یک رجیستری یا یک مخزن مشترک برای تمام صفحات وب وجود نداره، گوگل مجبوره که به صورت مرتب و همیشگی صفحات مختلف رو برای آپدیت‌های جدید نگاه کنه و اونا رو پیمایش بکنه. بعد از اینکار گوگل این صفحات رو داخل لیست صفحات خودش قرار می‌ده. به این پروسه URL discovery می‌گن. بعضی از برگه‌ها خیلی سریع پیدا می‌شن به این دلیل که گوگل قبلا اونا رو دیده اما بعضی از لینک‌ها و صفحات که برای گوگل تازگی داره، از طریق یکسری صفحه شناخته شده که به اون صفحه نا شناخته لینک دادن پیدا میشن. برای مثال یک Hub Page1 مثل صفحه دسته‌بندی که به یک مطلب جدید لینک می‌ده.

زمانی که گوگل یک آدرس (صفحه) جدید را کشف کرد ممکن است که وارد آن شود و متوجه شود که چه اطلاعاتی در آن وجود دارد. برای این کار ما از حجم عظیمی از کامپیوترها برای کرال کردن برگه‌ها و آدرس‌های مختلف استفاده می‌کنیم. برنامه‌ای که مسئول دریافت یا Fetch کردن اطلاعات است Googlebot نام دارد که با نام‌هایی مانند کرالر، ربات، بات یا اسپایدر نیز شناخته می‌شود. Googlebot از یک الگوریتم برای اینکه بهفمد چه وبسایتی را باید پیمایش بکند استفاده می‌کند. همچنین چه تعداد برگه را در این وبسایت «چه زمان‌هایی» پیمایش بکند نیز در الگوریتم تعریف می‌شود.

البته به عنوان یک نکته مهم در نظر داشته باشید که Googlebot نمی‌تواند تمام وبسایت را کرال بکند. گاهی اوقات بعضی از برگه‌ها برای برای کرال شدن نیاز به انجام فرایند login دارند و گاهی اوقات هم خود صاحب وبسایت به خزنده‌ها اجازه ورود را نمی‌دهد. همچنین گوگل برای پیدا کردن تمام محتوای وبسایت هر فایل جاوا اسکریپتی موجود را توسط کروم اجرا می‌کند چرا که برخی از محتوا پس از اجرای این فایل‌ها نشان داده می‌شوند.

در نهایت کرال کردن وبسایت به میزان دسترسی Googlebot به خود وبسایت بستگی دارد. برخی از مشکلات کلی که باعث می‌شود تا بات‌ها نتوانند به وبسایت دست پیدا بکنند عبارت هستند از:

  • مشکلات سروری که وبسایت را میزبانی می‌کند
  • مشکلات مربوط به شبکه
  • قواعد وبسایت و فایل robots.txt که اجازه دسترسی به بات‌ها را نمی‌دهند

ایندکسینگ

بعد از اینکه یک صفحه کرال شد، گوگل تلاش می‌کند تا محتویات آن را درک کند. نام این مرحله ایندکسینگ است و شامل مراحلی برای پردازش و آنالیز محتوای متنی، تگ‌های کلیدی، خاصیت‌ها، تصاویر، ویدیوها و… می‌شود.

در حین انجام این کارها گوگل از تکراری نبودن محتوای این برگه و نبود محتوایی مشابه‌ این روی اینترنت یا فضای کانونیکال اطمینان حاصل می‌کند. کانونیکال صفحه‌ای است که ممکن است در نتایج جستجو به کاربران نشان داده شود. برای انتخاب کانونیکال ابتدا باید برگه‌هایی که به هم دیگر شبیه هستند را پیدا کنیم و بعد برگه‌ای که از همه بهتر است (به لحاظ کیفی) را انتخاب خواهیم کرد. برگه‌ها دیگر در این حالت به عنوان نسخه‌های جایگزینی در نظر گرفته می‌شوند که ممکن است محتوای متفاوتی نیز ارائه دهند. این برگه‌ها براساس یکسری المان‌های جداگانه انتخاب یا به کاربر نمایش داده خواهند شد.

در نهایت اطلاعات جمع‌آوری شده از کانونیکال و محتوای آن ممکن است در Google Index که یک دیتابیس بسیار بزرگ است ذخیره شود. البته ایندکس کردن تضمینی نیست و ممکن است صفحاتی باشند که توسط گوگل ایندکس نشوند. جدای از آن در برخی از حالات ایندکس نشدن به دلیل عواملی مانند زیر اتفاق می‌افتد:

  • کیفیت محتوا پایین باشد
  • قواعد meta مربوط به robot اجازه چنین کاری را ندهند
  • طراحی و کاربری وبسایت به گونه‌ای باشد که ایندکس پذیر نباشد

آماده‌سازی نتایج جستجو

زمانی که یک کاربر یک عبارت را برای جستجو انتخاب می‌کند ما سعی می‌کنیم در میان صفحاتی که ایندکس کرده‌ایم بهترین و مرتبط‌ترین موضوعات را برای وی برگردانیم. خود این مرتبط بودن به صد‌ها فاکتور مختلف مربوط می‌شود. زبان کاربر، موقعیت مکانی، دستگاهی که از آن استفاده می‌کند و… . برای مثال اگر کسی در ایران به دنبال دوچرخه باشد محتوایی که به وی تحویل داده می‌شود با کسی که در آلمان به دنبال دوچرخه است متفاوت خواهد بود.

  1. هاب پیج به یک برگه مرکزی گفته میشه که اطلاعات مربوط به صفحات و لینک‌های دیگری در اون وجود دارد. ↩︎

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

مطالب وبلاگ