How Google Search Works → Arastoo Abasi

When you publish your website or a new blog post, how will Google display it in the search results?

One of the first steps for anyone learning SEO is understanding how Google works. By understanding this, we will gain insights into how Google deals with our website and fix some indexing problems.

It’s not too complicated and can be simplified into three parts:

Crawling
Indexing
Serving

I’ll explain each step in a simple and easy-to-understand way.

Crawling

The first step for Google is finding new pages on the internet. In this step, Google performs a process called “URL discovery”. In this process, Google tries to find new links and pages that didn’t exist before. By gathering a list of new URLs, Google starts the second step: Crawling.

Once Google finds new links, it tries to discover what is on them. Some links may prevent Google from doing this by admin, and these types of pages will never be shown in Google search results. Archives, checkout pages, logout links, etc., are examples of pages you don’t want in your search results.

Finding out what is in a link is a process called Crawling. In this process, Google uses a bot to crawl the link and gather information for the next step.

For more information about this step, you can watch this video:

How Google Works: Crawlings

Indexing

In the next step, Google tries to understand the meaning and purpose of the page. It analyzes the structure of the page and looks through its source. This means looking at the HTML content and finding the Title tag, image tag, video tag, etc.

In this process, Google ensures that the content is original and not a copy of another page. Some pages are modified versions of other content, and this is where we use a canonical URL.

All the information that Google finds in this step will be stored in the Google Index, which is a large database of all the pages that Google knows about.

If your links have problems or structural issues, Google will not index them. By using tools like Google Search Console, you can find out what the problem is and why Google is not indexing them.

For more information about Indexing, you can watch this video:

How Google Works: Indexing

Serving

The last step is serving the content and the page URL to users. When a user searches for something, Google tries to find the best content for them. Google looks through its index database, ranks the links based on certain metrics, and then presents the most relevant one to the user.

How optimized is your content? Is your content helpful? Did you use any media, like images or videos? Does it have links to other pages? All these factors are metrics for ranking a link. Of course, it is more complicated than that, but in the end, Google will present the most relevant and optimized content to the user.

Conclusion

In this post, we discussed how Google indexes and serves content. We also explained how Google stores information in its index and the role of tools like Google Search Console in identifying issues with links. Finally, we talked about how Google ranks and presents the most relevant content to users based on various metrics like optimization, helpfulness, media usage, and internal links. For reading more on How Search Works, read the Search Central Docs.

گوگل چگونه کار می‌کند؟

مطلبی که در ادامه می‌خونید ترکیبی از ترجمه و نگارش مطلبی هستش با عنوان In-depth guide to how Google Search works که جزو مستندات اصلی خود Google Developer هستش. سعی می‌کنم مطالب رو به زبان ساده بگم و هر جایی که نیاز به توضیح اضافی داشت اونو می‌ذارم. مطالبی که اضافه می‌شن رو با بک‌گراند زرد می‌نویسم.

گوگل یه موتور جستجوگر تمام و کمال خودکاره و از یه نرم افزاری به اسم Web Crawler یا خزنده وب برای کشف صفحات مختلف وب استفاده می‌کنه. اینکار به صورت مرتب انجام می‌شه و در نهایت صفحاتی که پیدا میشن وارد خود ایندکس گوگل خواهند شد. در واقع بیشتر صفحاتی که در نتایج گوگل مشاهده می‌کنید به صورت دستی وارد نشدن بلکه از طریق این نرم افزار ایندکس شدند. توی این مطلب به صورت قدم به قدم با چگونگی کار کردن گوگل و ایندکس کردن محتوا آشنا می‌شیم. برای کسی که قدم اول سئو رو برمی‌داره این مطلب مطمئنا جای خوبی برای یادگیری خواهد بود.

یک نکته مهم قبل از شروع

قبل از اینکه با جزئیات اینکه گوگل چگونه کار می‌کند آشنا شویم لازم به ذکر است بگوییم که گوگل به هیچ شیوه‌ای برای پیمایش یا ایندکس کردن یک وبسایت پول دریافت نمی‌کند و از کسی هم بابت این کار پولی را قبول نمی‌کند. اگر کسی چنین ادعایی داشت بدانید که اشتباه می‌کند.

همچنین گوگل هیچگونه پیمایش یا ایندکس کردنی را تضمین نمی‌کند. حتی اگر وبسایت شما تمام اصول اولیه و استاندارد گوگل را رعایت کرده باشد باز هم ضمانتی برای انجام چنین کاری نیست. حالا بیا این رو به کارفرما بگو!

Google doesn’t guarantee that it will crawl, index, or serve your page, even if your page follows the Google Search Essentials.
Google For Developer – Documentation

آشنایی با سه مرحله Google Search

سرچ گوگل براساس سه مرحله پیش می‌رود که البته تمام صفحات و وبسایت‌ها از این سه مرحله رد نخواهند شد:

کرالینگ یا خزندگی یا پیمایش یا Crawling: گوگل در این مرحله، متون، تصاویر و ویدیوهای پیدا شده توسط نرم افزار Crawler را دانلود می‌کند.
ایندکسینگ: گوگل در این مرحله متون، تصاویر و ویدیوهای پیدا شده روی صفحات را آنالیز یا بررسی کرده و آن‌ها را در ایندکس خود که یک دیتابیس بزرگ است ذخیره می‌کند.
آماده‌سازی نتایج جستجو: زمانی که یک کاربر جستجویی انجام دهد، اگر مطالب ایندکس شده با کوئری کاربر تطابق داشته باشند گوگل آن را به کاربر نشان خواهد داد.

حالا بیایید دونه دونه با این سه مرحله آشنا بشیم.

کرالینگ یا Crawling

مرحله اول مربوط به کشف صفحات در دنیای اینترنت است. از اونجایی که یک رجیستری یا یک مخزن مشترک برای تمام صفحات وب وجود نداره، گوگل مجبوره که به صورت مرتب و همیشگی صفحات مختلف رو برای آپدیت‌های جدید نگاه کنه و اونا رو پیمایش بکنه. بعد از اینکار گوگل این صفحات رو داخل لیست صفحات خودش قرار می‌ده. به این پروسه URL discovery می‌گن. بعضی از برگه‌ها خیلی سریع پیدا می‌شن به این دلیل که گوگل قبلا اونا رو دیده اما بعضی از لینک‌ها و صفحات که برای گوگل تازگی داره، از طریق یکسری صفحه شناخته شده که به اون صفحه نا شناخته لینک دادن پیدا میشن. برای مثال یک Hub Page¹ مثل صفحه دسته‌بندی که به یک مطلب جدید لینک می‌ده.

زمانی که گوگل یک آدرس (صفحه) جدید را کشف کرد ممکن است که وارد آن شود و متوجه شود که چه اطلاعاتی در آن وجود دارد. برای این کار ما از حجم عظیمی از کامپیوترها برای کرال کردن برگه‌ها و آدرس‌های مختلف استفاده می‌کنیم. برنامه‌ای که مسئول دریافت یا Fetch کردن اطلاعات است Googlebot نام دارد که با نام‌هایی مانند کرالر، ربات، بات یا اسپایدر نیز شناخته می‌شود. Googlebot از یک الگوریتم برای اینکه بهفمد چه وبسایتی را باید پیمایش بکند استفاده می‌کند. همچنین چه تعداد برگه را در این وبسایت «چه زمان‌هایی» پیمایش بکند نیز در الگوریتم تعریف می‌شود.

البته به عنوان یک نکته مهم در نظر داشته باشید که Googlebot نمی‌تواند تمام وبسایت را کرال بکند. گاهی اوقات بعضی از برگه‌ها برای برای کرال شدن نیاز به انجام فرایند login دارند و گاهی اوقات هم خود صاحب وبسایت به خزنده‌ها اجازه ورود را نمی‌دهد. همچنین گوگل برای پیدا کردن تمام محتوای وبسایت هر فایل جاوا اسکریپتی موجود را توسط کروم اجرا می‌کند چرا که برخی از محتوا پس از اجرای این فایل‌ها نشان داده می‌شوند.

در نهایت کرال کردن وبسایت به میزان دسترسی Googlebot به خود وبسایت بستگی دارد. برخی از مشکلات کلی که باعث می‌شود تا بات‌ها نتوانند به وبسایت دست پیدا بکنند عبارت هستند از:

مشکلات سروری که وبسایت را میزبانی می‌کند
مشکلات مربوط به شبکه
قواعد وبسایت و فایل robots.txt که اجازه دسترسی به بات‌ها را نمی‌دهند

ایندکسینگ

بعد از اینکه یک صفحه کرال شد، گوگل تلاش می‌کند تا محتویات آن را درک کند. نام این مرحله ایندکسینگ است و شامل مراحلی برای پردازش و آنالیز محتوای متنی، تگ‌های کلیدی، خاصیت‌ها، تصاویر، ویدیوها و… می‌شود.

در حین انجام این کارها گوگل از تکراری نبودن محتوای این برگه و نبود محتوایی مشابه‌ این روی اینترنت یا فضای کانونیکال اطمینان حاصل می‌کند. کانونیکال صفحه‌ای است که ممکن است در نتایج جستجو به کاربران نشان داده شود. برای انتخاب کانونیکال ابتدا باید برگه‌هایی که به هم دیگر شبیه هستند را پیدا کنیم و بعد برگه‌ای که از همه بهتر است (به لحاظ کیفی) را انتخاب خواهیم کرد. برگه‌ها دیگر در این حالت به عنوان نسخه‌های جایگزینی در نظر گرفته می‌شوند که ممکن است محتوای متفاوتی نیز ارائه دهند. این برگه‌ها براساس یکسری المان‌های جداگانه انتخاب یا به کاربر نمایش داده خواهند شد.

در نهایت اطلاعات جمع‌آوری شده از کانونیکال و محتوای آن ممکن است در Google Index که یک دیتابیس بسیار بزرگ است ذخیره شود. البته ایندکس کردن تضمینی نیست و ممکن است صفحاتی باشند که توسط گوگل ایندکس نشوند. جدای از آن در برخی از حالات ایندکس نشدن به دلیل عواملی مانند زیر اتفاق می‌افتد:

کیفیت محتوا پایین باشد
قواعد meta مربوط به robot اجازه چنین کاری را ندهند
طراحی و کاربری وبسایت به گونه‌ای باشد که ایندکس پذیر نباشد

آماده‌سازی نتایج جستجو

زمانی که یک کاربر یک عبارت را برای جستجو انتخاب می‌کند ما سعی می‌کنیم در میان صفحاتی که ایندکس کرده‌ایم بهترین و مرتبط‌ترین موضوعات را برای وی برگردانیم. خود این مرتبط بودن به صد‌ها فاکتور مختلف مربوط می‌شود. زبان کاربر، موقعیت مکانی، دستگاهی که از آن استفاده می‌کند و… . برای مثال اگر کسی در ایران به دنبال دوچرخه باشد محتوایی که به وی تحویل داده می‌شود با کسی که در آلمان به دنبال دوچرخه است متفاوت خواهد بود.

هاب پیج به یک برگه مرکزی گفته میشه که اطلاعات مربوط به صفحات و لینک‌های دیگری در اون وجود دارد. ↩︎