When you publish your website or a new blog post, how will Google display it in the search results?
One of the first steps for anyone learning SEO is understanding how Google works. By understanding this, we will gain insights into how Google deals with our website and fix some indexing problems.
It’s not too complicated and can be simplified into three parts:
- Crawling
- Indexing
- Serving
I’ll explain each step in a simple and easy-to-understand way.
Crawling
The first step for Google is finding new pages on the internet. In this step, Google performs a process called “URL discovery”. In this process, Google tries to find new links and pages that didn’t exist before. By gathering a list of new URLs, Google starts the second step: Crawling.
Once Google finds new links, it tries to discover what is on them. Some links may prevent Google from doing this by admin, and these types of pages will never be shown in Google search results. Archives, checkout pages, logout links, etc., are examples of pages you don’t want in your search results.
Finding out what is in a link is a process called Crawling. In this process, Google uses a bot to crawl the link and gather information for the next step.
For more information about this step, you can watch this video:
Indexing
In the next step, Google tries to understand the meaning and purpose of the page. It analyzes the structure of the page and looks through its source. This means looking at the HTML content and finding the Title tag, image tag, video tag, etc.
In this process, Google ensures that the content is original and not a copy of another page. Some pages are modified versions of other content, and this is where we use a canonical URL.
All the information that Google finds in this step will be stored in the Google Index, which is a large database of all the pages that Google knows about.
If your links have problems or structural issues, Google will not index them. By using tools like Google Search Console, you can find out what the problem is and why Google is not indexing them.
For more information about Indexing, you can watch this video:
Serving
The last step is serving the content and the page URL to users. When a user searches for something, Google tries to find the best content for them. Google looks through its index database, ranks the links based on certain metrics, and then presents the most relevant one to the user.
How optimized is your content? Is your content helpful? Did you use any media, like images or videos? Does it have links to other pages? All these factors are metrics for ranking a link. Of course, it is more complicated than that, but in the end, Google will present the most relevant and optimized content to the user.
Conclusion
In this post, we discussed how Google indexes and serves content. We also explained how Google stores information in its index and the role of tools like Google Search Console in identifying issues with links. Finally, we talked about how Google ranks and presents the most relevant content to users based on various metrics like optimization, helpfulness, media usage, and internal links. For reading more on How Search Works, read the Search Central Docs.
گوگل چگونه کار میکند؟
مطلبی که در ادامه میخونید ترکیبی از ترجمه و نگارش مطلبی هستش با عنوان In-depth guide to how Google Search works که جزو مستندات اصلی خود Google Developer هستش. سعی میکنم مطالب رو به زبان ساده بگم و هر جایی که نیاز به توضیح اضافی داشت اونو میذارم. مطالبی که اضافه میشن رو با بکگراند زرد مینویسم.
گوگل یه موتور جستجوگر تمام و کمال خودکاره و از یه نرم افزاری به اسم Web Crawler یا خزنده وب برای کشف صفحات مختلف وب استفاده میکنه. اینکار به صورت مرتب انجام میشه و در نهایت صفحاتی که پیدا میشن وارد خود ایندکس گوگل خواهند شد. در واقع بیشتر صفحاتی که در نتایج گوگل مشاهده میکنید به صورت دستی وارد نشدن بلکه از طریق این نرم افزار ایندکس شدند. توی این مطلب به صورت قدم به قدم با چگونگی کار کردن گوگل و ایندکس کردن محتوا آشنا میشیم. برای کسی که قدم اول سئو رو برمیداره این مطلب مطمئنا جای خوبی برای یادگیری خواهد بود.
یک نکته مهم قبل از شروع
قبل از اینکه با جزئیات اینکه گوگل چگونه کار میکند آشنا شویم لازم به ذکر است بگوییم که گوگل به هیچ شیوهای برای پیمایش یا ایندکس کردن یک وبسایت پول دریافت نمیکند و از کسی هم بابت این کار پولی را قبول نمیکند. اگر کسی چنین ادعایی داشت بدانید که اشتباه میکند.
همچنین گوگل هیچگونه پیمایش یا ایندکس کردنی را تضمین نمیکند. حتی اگر وبسایت شما تمام اصول اولیه و استاندارد گوگل را رعایت کرده باشد باز هم ضمانتی برای انجام چنین کاری نیست. حالا بیا این رو به کارفرما بگو!
Google doesn’t guarantee that it will crawl, index, or serve your page, even if your page follows the Google Search Essentials.
Google For Developer – Documentation
آشنایی با سه مرحله Google Search
سرچ گوگل براساس سه مرحله پیش میرود که البته تمام صفحات و وبسایتها از این سه مرحله رد نخواهند شد:
- کرالینگ یا خزندگی یا پیمایش یا Crawling: گوگل در این مرحله، متون، تصاویر و ویدیوهای پیدا شده توسط نرم افزار Crawler را دانلود میکند.
- ایندکسینگ: گوگل در این مرحله متون، تصاویر و ویدیوهای پیدا شده روی صفحات را آنالیز یا بررسی کرده و آنها را در ایندکس خود که یک دیتابیس بزرگ است ذخیره میکند.
- آمادهسازی نتایج جستجو: زمانی که یک کاربر جستجویی انجام دهد، اگر مطالب ایندکس شده با کوئری کاربر تطابق داشته باشند گوگل آن را به کاربر نشان خواهد داد.
حالا بیایید دونه دونه با این سه مرحله آشنا بشیم.
کرالینگ یا Crawling
![یک تصویر بامزه از Crawler](https://arastoo.net/wp-content/uploads/2023/09/گوگل-کرالر-ارسطو-عباسی-1024x595.webp)
مرحله اول مربوط به کشف صفحات در دنیای اینترنت است. از اونجایی که یک رجیستری یا یک مخزن مشترک برای تمام صفحات وب وجود نداره، گوگل مجبوره که به صورت مرتب و همیشگی صفحات مختلف رو برای آپدیتهای جدید نگاه کنه و اونا رو پیمایش بکنه. بعد از اینکار گوگل این صفحات رو داخل لیست صفحات خودش قرار میده. به این پروسه URL discovery میگن. بعضی از برگهها خیلی سریع پیدا میشن به این دلیل که گوگل قبلا اونا رو دیده اما بعضی از لینکها و صفحات که برای گوگل تازگی داره، از طریق یکسری صفحه شناخته شده که به اون صفحه نا شناخته لینک دادن پیدا میشن. برای مثال یک Hub Page1 مثل صفحه دستهبندی که به یک مطلب جدید لینک میده.
زمانی که گوگل یک آدرس (صفحه) جدید را کشف کرد ممکن است که وارد آن شود و متوجه شود که چه اطلاعاتی در آن وجود دارد. برای این کار ما از حجم عظیمی از کامپیوترها برای کرال کردن برگهها و آدرسهای مختلف استفاده میکنیم. برنامهای که مسئول دریافت یا Fetch کردن اطلاعات است Googlebot نام دارد که با نامهایی مانند کرالر، ربات، بات یا اسپایدر نیز شناخته میشود. Googlebot از یک الگوریتم برای اینکه بهفمد چه وبسایتی را باید پیمایش بکند استفاده میکند. همچنین چه تعداد برگه را در این وبسایت «چه زمانهایی» پیمایش بکند نیز در الگوریتم تعریف میشود.
البته به عنوان یک نکته مهم در نظر داشته باشید که Googlebot نمیتواند تمام وبسایت را کرال بکند. گاهی اوقات بعضی از برگهها برای برای کرال شدن نیاز به انجام فرایند login دارند و گاهی اوقات هم خود صاحب وبسایت به خزندهها اجازه ورود را نمیدهد. همچنین گوگل برای پیدا کردن تمام محتوای وبسایت هر فایل جاوا اسکریپتی موجود را توسط کروم اجرا میکند چرا که برخی از محتوا پس از اجرای این فایلها نشان داده میشوند.
در نهایت کرال کردن وبسایت به میزان دسترسی Googlebot به خود وبسایت بستگی دارد. برخی از مشکلات کلی که باعث میشود تا باتها نتوانند به وبسایت دست پیدا بکنند عبارت هستند از:
- مشکلات سروری که وبسایت را میزبانی میکند
- مشکلات مربوط به شبکه
- قواعد وبسایت و فایل robots.txt که اجازه دسترسی به باتها را نمیدهند
ایندکسینگ
![گوگل چگونه مطالب را ایندکس میکند؟](https://arastoo.net/wp-content/uploads/2023/09/ایندکس-کردن-مطالب-در-گوگل-ارسطو-عباسی-1024x528.webp)
بعد از اینکه یک صفحه کرال شد، گوگل تلاش میکند تا محتویات آن را درک کند. نام این مرحله ایندکسینگ است و شامل مراحلی برای پردازش و آنالیز محتوای متنی، تگهای کلیدی، خاصیتها، تصاویر، ویدیوها و… میشود.
در حین انجام این کارها گوگل از تکراری نبودن محتوای این برگه و نبود محتوایی مشابه این روی اینترنت یا فضای کانونیکال اطمینان حاصل میکند. کانونیکال صفحهای است که ممکن است در نتایج جستجو به کاربران نشان داده شود. برای انتخاب کانونیکال ابتدا باید برگههایی که به هم دیگر شبیه هستند را پیدا کنیم و بعد برگهای که از همه بهتر است (به لحاظ کیفی) را انتخاب خواهیم کرد. برگهها دیگر در این حالت به عنوان نسخههای جایگزینی در نظر گرفته میشوند که ممکن است محتوای متفاوتی نیز ارائه دهند. این برگهها براساس یکسری المانهای جداگانه انتخاب یا به کاربر نمایش داده خواهند شد.
در نهایت اطلاعات جمعآوری شده از کانونیکال و محتوای آن ممکن است در Google Index که یک دیتابیس بسیار بزرگ است ذخیره شود. البته ایندکس کردن تضمینی نیست و ممکن است صفحاتی باشند که توسط گوگل ایندکس نشوند. جدای از آن در برخی از حالات ایندکس نشدن به دلیل عواملی مانند زیر اتفاق میافتد:
- کیفیت محتوا پایین باشد
- قواعد meta مربوط به robot اجازه چنین کاری را ندهند
- طراحی و کاربری وبسایت به گونهای باشد که ایندکس پذیر نباشد
آمادهسازی نتایج جستجو
![لوگو گوگل<br>](https://arastoo.net/wp-content/uploads/2023/09/گوگل-و-آماده-سازی-نتایج-جستجو-ارسطو-عباسی.webp)
زمانی که یک کاربر یک عبارت را برای جستجو انتخاب میکند ما سعی میکنیم در میان صفحاتی که ایندکس کردهایم بهترین و مرتبطترین موضوعات را برای وی برگردانیم. خود این مرتبط بودن به صدها فاکتور مختلف مربوط میشود. زبان کاربر، موقعیت مکانی، دستگاهی که از آن استفاده میکند و… . برای مثال اگر کسی در ایران به دنبال دوچرخه باشد محتوایی که به وی تحویل داده میشود با کسی که در آلمان به دنبال دوچرخه است متفاوت خواهد بود.
- هاب پیج به یک برگه مرکزی گفته میشه که اطلاعات مربوط به صفحات و لینکهای دیگری در اون وجود دارد. ↩︎
Leave a Reply