مطلبی که در ادامه میخونید ترکیبی از ترجمه و نگارش مطلبی هستش با عنوان In-depth guide to how Google Search works که جزو مستندات اصلی خود Google Developer هستش. سعی میکنم مطالب رو به زبان ساده بگم و هر جایی که نیاز به توضیح اضافی داشت اونو میذارم. مطالبی که اضافه میشن رو با بکگراند زرد مینویسم.
گوگل یه موتور جستجوگر تمام و کمال خودکاره و از یه نرم افزاری به اسم Web Crawler یا خزنده وب برای کشف صفحات مختلف وب استفاده میکنه. اینکار به صورت مرتب انجام میشه و در نهایت صفحاتی که پیدا میشن وارد خود ایندکس گوگل خواهند شد. در واقع بیشتر صفحاتی که در نتایج گوگل مشاهده میکنید به صورت دستی وارد نشدن بلکه از طریق این نرم افزار ایندکس شدند. توی این مطلب به صورت قدم به قدم با چگونگی کار کردن گوگل و ایندکس کردن محتوا آشنا میشیم. برای کسی که قدم اول سئو رو برمیداره این مطلب مطمئنا جای خوبی برای یادگیری خواهد بود.
یک نکته مهم قبل از شروع
قبل از اینکه با جزئیات اینکه گوگل چگونه کار میکند آشنا شویم لازم به ذکر است بگوییم که گوگل به هیچ شیوهای برای پیمایش یا ایندکس کردن یک وبسایت پول دریافت نمیکند و از کسی هم بابت این کار پولی را قبول نمیکند. اگر کسی چنین ادعایی داشت بدانید که اشتباه میکند.
همچنین گوگل هیچگونه پیمایش یا ایندکس کردنی را تضمین نمیکند. حتی اگر وبسایت شما تمام اصول اولیه و استاندارد گوگل را رعایت کرده باشد باز هم ضمانتی برای انجام چنین کاری نیست. حالا بیا این رو به کارفرما بگو!
Google doesn’t guarantee that it will crawl, index, or serve your page, even if your page follows the Google Search Essentials.
Google For Developer – Documentation
آشنایی با سه مرحله Google Search
سرچ گوگل براساس سه مرحله پیش میرود که البته تمام صفحات و وبسایتها از این سه مرحله رد نخواهند شد:
- کرالینگ یا خزندگی یا پیمایش یا Crawling: گوگل در این مرحله، متون، تصاویر و ویدیوهای پیدا شده توسط نرم افزار Crawler را دانلود میکند.
- ایندکسینگ: گوگل در این مرحله متون، تصاویر و ویدیوهای پیدا شده روی صفحات را آنالیز یا بررسی کرده و آنها را در ایندکس خود که یک دیتابیس بزرگ است ذخیره میکند.
- آمادهسازی نتایج جستجو: زمانی که یک کاربر جستجویی انجام دهد، اگر مطالب ایندکس شده با کوئری کاربر تطابق داشته باشند گوگل آن را به کاربر نشان خواهد داد.
حالا بیایید دونه دونه با این سه مرحله آشنا بشیم.
کرالینگ یا Crawling
مرحله اول مربوط به کشف صفحات در دنیای اینترنت است. از اونجایی که یک رجیستری یا یک مخزن مشترک برای تمام صفحات وب وجود نداره، گوگل مجبوره که به صورت مرتب و همیشگی صفحات مختلف رو برای آپدیتهای جدید نگاه کنه و اونا رو پیمایش بکنه. بعد از اینکار گوگل این صفحات رو داخل لیست صفحات خودش قرار میده. به این پروسه URL discovery میگن. بعضی از برگهها خیلی سریع پیدا میشن به این دلیل که گوگل قبلا اونا رو دیده اما بعضی از لینکها و صفحات که برای گوگل تازگی داره، از طریق یکسری صفحه شناخته شده که به اون صفحه نا شناخته لینک دادن پیدا میشن. برای مثال یک Hub Page1 مثل صفحه دستهبندی که به یک مطلب جدید لینک میده.
زمانی که گوگل یک آدرس (صفحه) جدید را کشف کرد ممکن است که وارد آن شود و متوجه شود که چه اطلاعاتی در آن وجود دارد. برای این کار ما از حجم عظیمی از کامپیوترها برای کرال کردن برگهها و آدرسهای مختلف استفاده میکنیم. برنامهای که مسئول دریافت یا Fetch کردن اطلاعات است Googlebot نام دارد که با نامهایی مانند کرالر، ربات، بات یا اسپایدر نیز شناخته میشود. Googlebot از یک الگوریتم برای اینکه بهفمد چه وبسایتی را باید پیمایش بکند استفاده میکند. همچنین چه تعداد برگه را در این وبسایت «چه زمانهایی» پیمایش بکند نیز در الگوریتم تعریف میشود.
البته به عنوان یک نکته مهم در نظر داشته باشید که Googlebot نمیتواند تمام وبسایت را کرال بکند. گاهی اوقات بعضی از برگهها برای برای کرال شدن نیاز به انجام فرایند login دارند و گاهی اوقات هم خود صاحب وبسایت به خزندهها اجازه ورود را نمیدهد. همچنین گوگل برای پیدا کردن تمام محتوای وبسایت هر فایل جاوا اسکریپتی موجود را توسط کروم اجرا میکند چرا که برخی از محتوا پس از اجرای این فایلها نشان داده میشوند.
در نهایت کرال کردن وبسایت به میزان دسترسی Googlebot به خود وبسایت بستگی دارد. برخی از مشکلات کلی که باعث میشود تا باتها نتوانند به وبسایت دست پیدا بکنند عبارت هستند از:
- مشکلات سروری که وبسایت را میزبانی میکند
- مشکلات مربوط به شبکه
- قواعد وبسایت و فایل robots.txt که اجازه دسترسی به باتها را نمیدهند
ایندکسینگ
بعد از اینکه یک صفحه کرال شد، گوگل تلاش میکند تا محتویات آن را درک کند. نام این مرحله ایندکسینگ است و شامل مراحلی برای پردازش و آنالیز محتوای متنی، تگهای کلیدی، خاصیتها، تصاویر، ویدیوها و… میشود.
در حین انجام این کارها گوگل از تکراری نبودن محتوای این برگه و نبود محتوایی مشابه این روی اینترنت یا فضای کانونیکال اطمینان حاصل میکند. کانونیکال صفحهای است که ممکن است در نتایج جستجو به کاربران نشان داده شود. برای انتخاب کانونیکال ابتدا باید برگههایی که به هم دیگر شبیه هستند را پیدا کنیم و بعد برگهای که از همه بهتر است (به لحاظ کیفی) را انتخاب خواهیم کرد. برگهها دیگر در این حالت به عنوان نسخههای جایگزینی در نظر گرفته میشوند که ممکن است محتوای متفاوتی نیز ارائه دهند. این برگهها براساس یکسری المانهای جداگانه انتخاب یا به کاربر نمایش داده خواهند شد.
در نهایت اطلاعات جمعآوری شده از کانونیکال و محتوای آن ممکن است در Google Index که یک دیتابیس بسیار بزرگ است ذخیره شود. البته ایندکس کردن تضمینی نیست و ممکن است صفحاتی باشند که توسط گوگل ایندکس نشوند. جدای از آن در برخی از حالات ایندکس نشدن به دلیل عواملی مانند زیر اتفاق میافتد:
- کیفیت محتوا پایین باشد
- قواعد meta مربوط به robot اجازه چنین کاری را ندهند
- طراحی و کاربری وبسایت به گونهای باشد که ایندکس پذیر نباشد
آمادهسازی نتایج جستجو
زمانی که یک کاربر یک عبارت را برای جستجو انتخاب میکند ما سعی میکنیم در میان صفحاتی که ایندکس کردهایم بهترین و مرتبطترین موضوعات را برای وی برگردانیم. خود این مرتبط بودن به صدها فاکتور مختلف مربوط میشود. زبان کاربر، موقعیت مکانی، دستگاهی که از آن استفاده میکند و… . برای مثال اگر کسی در ایران به دنبال دوچرخه باشد محتوایی که به وی تحویل داده میشود با کسی که در آلمان به دنبال دوچرخه است متفاوت خواهد بود.
- هاب پیج به یک برگه مرکزی گفته میشه که اطلاعات مربوط به صفحات و لینکهای دیگری در اون وجود دارد. ↩︎
دیدگاهتان را بنویسید