فایل Robots.txt چیست و چه کاربردی دارد؟

بیایید با یک مثال ساده شروع کنیم تا فایل Robots.txt را راحت تر درک کنیم.

فرض کنید برای اولین بار برای انجام یک کار مدیریتی وارد یک شرکت بزرگ می شوید. تو هیچ جا نمیدونی مدیران این سازمان هم می دانند که مشتریان همه جا را نمی شناسند به همین دلیل در کنار در ورودی میز اطلاعات درست کرده اند و یک یا چند نفر را مسئول راهنمایی و امنیت قرار داده اند. اگر این افراد رگولاتور و نگهبان نبودند، کل سازمان دچار هرج و مرج می شد. همه برای انجام کارشان در راهروها بالا و پایین می روند و کارگران نمی توانند کارها را به درستی انجام دهند.

فایل Robots.txt در وب سایت ها نقش این راهنماها و نگهبانان را بازی می کند، اما نه برای کاربرانی که وارد سایت می شوند، بلکه برای روبات هایی که می خواهند در قسمت های مختلف سایت برای بررسی سایت یا انجام کار دیگری حرکت کنند.

ربات؟!

خب بله. این فقط افراد نیستند که از سایت شما بازدید می کنند. ربات هایی وجود دارند که به دلایل مختلف از سایت شما بازدید می کنند.

ربات ها نرم افزارهای واقعی هستند که به طور خودکار صفحات مختلف را باز و اسکن می کنند.

ربات های موتور جستجوی گوگل مهم ترین ربات هایی هستند که در اینترنت پرسه می زنند.این ربات ها صفحات سایت شما را چندین بار در روز چک می کنند. اگر وب سایت بزرگی دارید، این امکان برای روبات های گوگل وجود دارد که روزانه هزاران بار صفحات سایت را بررسی کنند.

هر یک از این ربات ها عملکرد خاصی را انجام می دهند. به عنوان مثال، مهم ترین ربات گوگل یا Googlebot برای یافتن صفحات جدید در اینترنت و پذیرش آنها برای بررسی بیشتر از طریق الگوریتم های رتبه بندی کار می کند. بنابراین ربات ها نه تنها برای سایت شما مضر هستند، بلکه باید از آنها نیز استقبال کرد.

اما باید بدانید که این روبات ها از زبان انسان استفاده نمی کنند! یعنی مثل چی سرشان را پایین می اندازند و سایت را از سر تا پا اسکن می کنند. گاهی اوقات ربات های گوگل چیزهایی را می گیرند که ما نمی خواهیم کسی آنها را ببیند، آنها را در سرورهای گوگل ذخیره می کنند و به دنیا نشان می دهند. بنابراین باید راهی برای جلوگیری از آنها وجود داشته باشد.

خوشبختانه، ما می توانیم دسترسی ربات ها به صفحات یا فایل ها را کنترل کنیم.

می توانید با نوشتن دستورات ساده در فایلی به نام Robots.txt از ورود ربات ها به بخش هایی از سایت جلوگیری کنید و به آنها بگویید که اجازه ورود به بخش هایی از سایت را ندارند یا برای سفارش خاصی که سرور میزبان سایت شما ندارد. . مشغول به کار با ربات ها و همچنین سئوی وب سایت شما از نقطه نظر فنی.در ادامه می خواهیم در مورد این فایل مهم با جزئیات کامل صحبت کنیم. بیایید قدم به قدم پیش برویم تا نحوه استفاده از فایل Robots.txt را ببینیم. نحوه محدود کردن روبات ها، نحوه جلوگیری از ایندکس شدن صفحات و در نهایت ایجاد یک فایل Robots.txt عالی.

ابتدا بیایید ببینیم این فایل Robots.txt دقیقا چیست و چه کاری انجام می دهد.

فایل Robots.txt چیست؟

فایل Robot.txt مانند مجوزی برای روبات ها است. وقتی روبات ها می خواهند صفحات سایت شما را بخزند، ابتدا فایل Robots.txt را می خوانند. در این فایل با چند دستور ساده مشخص می کنیم که ربات اجازه اسکن کدام صفحات را دارد و کدام صفحات را نباید اسکن کند.

مانند تصویر زیر که اجازه دسترسی به پوشه ای به نام عکس و دسترسی به صفحه ای با نام files.html را نمی دهیم.

همانطور که گفتیم مهم ترین ربات های موجود در اینترنت، ربات های موتور جستجوی گوگل هستند، بنابراین در ادامه مقاله هر جا که می گوییم ربات، منظور ربات های گوگل است.

البته ربات های دیگر متعلق به ارائه دهندگان خدمات اینترنتی مختلف هستند. پس از مطالعه این مقاله می توانید هر نوع رباتی را با دانستن نام آن محدود و کنترل کنید.چرا باید فایل Robots.txt داشته باشیم؟

صاحبان وب سایت ها و مدیران وب سایت ها می توانند ورود ربات ها به وب سایت را به روش های مختلف کنترل کنند. دلایل زیادی برای مدیریت وجود دارد حتما بخوانید: انتخاب دامنه مناسب برای گرفتن بهترین نتیجه در سئو

به عنوان مثال، همه صفحات یک سایت از اهمیت یکسانی برخوردار نیستند. اکثر مدیران وب‌سایت‌ها علاقه‌ای ندارند که کنترل پنل وب‌سایت‌شان در موتورهای جستجو ایندکس شود و در دسترس عموم قرار گیرد و یا اینکه برخی از صفحات سایت‌شان محتوای قابل قبولی نداشته باشد و به همین دلیل ترجیح می‌دهند آن صفحات را توسط ربات‌ها بررسی نکنند. یا اگر وب سایتی با هزاران صفحه و بازدیدهای زیادی از سایت دارید، احتمالاً نمی خواهید منابع سرور شما (پهنای باند، قدرت پردازش و غیره) توسط ربات ها استفاده شود.

اینجاست که فایل Robots.txt وارد عمل می شود.

در حال حاضر، هدف اصلی فایل ربات محدود کردن درخواست‌های بیش از حد برای بازدید از صفحات وب است. یعنی اگر ربات ها روزی صد بار بخواهند یک صفحه را چک کنند با نوشتن یک دستور ساده در فایل Robot جلوی آنها را می گیریم تا بفهمیم رئیس کیست!

با فایل Robot تمام شد.txt آیا می توان یک صفحه را از نتایج جستجو حذف کرد؟

تا همین اواخر، اگر می خواستید صفحه ای را به طور کامل از روبات های گوگل حذف کنید و حتی در نتایج جستجو پیدا نکنید، امکان گنجاندن دستور noindex در این فایل وجود داشت، اما حالا ماجرا پیچیده تر شده است. حذف صفحات از موتور جستجوی گوگل برای حذف صفحه از نتایج جستجو مفید نیست.

گوگل می گوید برای حذف صفحات از نتایج جستجو، بهتر است از روش هایی غیر از فایل Robots.txt استفاده کنید. البته می‌توانید از فایل فعلی برای حذف فایل‌هایی مانند تصویر، ویدیو یا صدا از نتایج جستجو استفاده کنید، اما برای صفحات وب مناسب نیست.

روش‌های جایگزین دیگری برای حذف صفحه از نتایج جستجوی Google در زیر ارائه می‌کنیم.

آشنایی با ربات های گوگل

گوگل تعدادی خزنده دارد که به طور خودکار وب سایت ها را خزیده و با دنبال کردن پیوندها از صفحه ای به صفحه دیگر صفحات را پیدا می کند.

لیست زیر شامل مهم ترین ربات های گوگل است که باید بشناسید:

AdSense – رباتی برای خزیدن صفحات با هدف نمایش تبلیغات مرتبط

Googlebot Image – رباتی که تصاویر را جستجو و بررسی می کند

Googlebot News – یک ربات برای نمایه سازی سایت های خبری

ویدیو Googlebot – ربات بررسی ویدیو

Googlebot – این ربات صفحات وب را کشف و نمایه می کند.دو نوع دسکتاپ و گوشی هوشمند دارد

هر یک از این ربات ها به طور مداوم صفحات وب را اسکن می کنند. در صورت نیاز می توانید هر ربات را محدود کنید.

اینکه هر چند وقت یکبار خزنده ها از سایت شما بازدید می کنند به عوامل مختلفی بستگی دارد. هر چه در طول روز محتوای بیشتری در وب سایت خود قرار دهید و تبدیل سایت مهمتر باشد، ربات های جستجوگر بیشتر از سایت شما بازدید خواهند کرد. به عنوان مثال، در وب سایت های خبری که به طور مرتب اخبار منتشر می کنند و اخبار خود را به روز می کنند، ربات ها به سرعت صفحات را اسکن و فهرست می کنند.

در کنسول جستجو، بخشی به نام Crawl Statistics وجود دارد که نشان می دهد روزانه چند بار صفحات وب خزیده شده اند. در همین صفحه می توانید میزان دانلود شده توسط ربات ها و همچنین زمان بارگذاری صفحه را مشاهده کنید.

چرا فایل Robots.txt مهم است؟

این فایل به چند دلیل مهم است:

1. مدیریت ترافیک ربات به وب سایت

کنترل ترافیک ربات مهم است تا سرور وب شما مشغول نباشد و صفحات را برای ربات ها بارگذاری کند. از سوی دیگر، بسیاری از سرورها یا وب سایت ها از نظر پهنای باند و ترافیک محدود هستند.به همین دلیل استفاده از ترافیک برای ربات ها مقرون به صرفه نیست.

2. از نمایش صفحات یا فایل ها در نتایج جستجوی گوگل جلوگیری کنید

اگر در فایل Robots مشخص کنید که ربات های گوگل اجازه دسترسی به صفحات را ندارند، این صفحات به هیچ وجه اسکن نمی شوند، اما هیچ تضمینی وجود ندارد که این صفحه در نتایج جستجوی گوگل ظاهر نشود. این امکان برای ربات ها وجود دارد که یک صفحه را با پیوندهایی که به همان صفحه داده شده اند و با استفاده از پیوند متن لنگر یکسان، ایندکس کنند. در حال حاضر بهترین راه برای حذف یک صفحه از نتایج جستجو، افزودن دستور noindex به صفحه است. اگر از وردپرس استفاده می کنید، افزونه هایی برای این کار وجود دارد و در غیر این صورت، باید از طراح وب خود بخواهید ابزارهایی برای اضافه کردن این کدها یا دستورات در سربرگ هر صفحه ارائه دهد. حتما بخوانید: پارادوکس انتخاب: گزینه های کمتر به معنای تصمیم گیری آسان تر است

در قسمت های بعدی به تفصیل در مورد حذف صفحه از نتایج جستجو توضیح می دهیم.

3. بودجه خود را مدیریت کنید

هرچه صفحات وب سایت شما بیشتر باشد، ربات های موتورهای جستجو به زمان بیشتری برای خزیدن و فهرست بندی صفحات نیاز دارند. این مدت زمان تاثیر منفی بر موقعیت سایت شما در نتایج جستجو خواهد داشت.چرا؟ موتور جستجوی گوگل (Googlebot ما!) قابلیتی به نام Budget Crawl دارد.

Crawl Budget در واقع تعداد صفحات وب سایت شما است که ربات گوگل در یک روز می خزد و می خزد. بودجه شما یا تعداد صفحات مشاهده شده توسط Googlebot با توجه به اندازه وب سایت شما (تعداد صفحات)، سلامت آن (بدون خطا) و تعداد بک لینک هایی که سایت شما دارد تعیین می شود.

بودجه خرید به دو قسمت تقسیم نمی شود. بخش اول محدودیت نرخ خرید و قسمت دوم تقاضای خرید است. پس بیایید ببینیم هر کدام چه معنایی دارند و چه تأثیری دارند.

محدودیت نرخ خرید

Googlebot به گونه ای طراحی شده است که شهروند خوبی در دنیای اینترنت باشد. اول نشستن اولویت این ربات است، بنابراین طوری طراحی شده است که تاثیری بر تجربه کاربری بازدیدکنندگان سایت نداشته باشد. این ارتقاء Crawl Rate Limiting نامیده می‌شود که تعداد صفحاتی را که می‌توان در یک روز خزیدن برای ارائه تجربه کاربری بهتر محدود می‌کند.

به طور خلاصه، Rate Limit تعداد دفعاتی که ربات گوگل با یک سایت تعامل می کند، همزمان با تعداد دفعاتی که ربات خزیدن در وب سایت را متوقف می کند، نشان می دهد.نرخ خزش بسته به عوامل مختلفی می تواند تغییر کند:

Crawl Health: اگر وب سایت سریع باشد و بتواند به سیگنال ها به سرعت پاسخ دهد، قطعاً نرخ خزیدن افزایش می یابد، اما اگر وب سایت شما کند باشد یا هنگام خزیدن خطاهای سرور وجود داشته باشد، نرخ خزیدن ربات گوگل کاهش می یابد.

تعیین محدودیت در کنسول جستجوی گوگل: صاحبان وب سایت می توانند میزان خزیدن وب سایت خود را کاهش دهند.

بنابراین، آیا هنوز خزیدن بودجه را به خاطر دارید؟ قسمت دوم سوال خرید نام دارد. گوگل یک Crawl Query را به صورت زیر تعریف می کند:

سوال خرید

حتی اگر ربات گوگل به حجم جستجوی اعلام شده نرسد، در صورت عدم تقاضا برای ایندکس شدن، مقداری فعالیت از ربات گوگل مشاهده خواهید کرد. دو عاملی که در تعیین قیمت خرید نقش مهمی دارند عبارتند از:

محبوبیت: به این معنی است که محبوب ترین آدرس ها در اینترنت بیشتر از سایر آدرس ها در حال خزیدن هستند تا در فهرست گوگل جدیدتر باشند.

بی ارزش شدن! (Staleness): گوگل آدرس ها را به گونه ای ذخیره می کند که از قدیمی شدن آنها جلوگیری کند.

علاوه بر این، رویدادهایی که کل سایت را تحت تأثیر قرار می دهند، مانند جابجایی یک وب سایت، می توانند میزان جستجوی خریداری شده را برای فهرست مجدد وب سایت در آدرس جدید افزایش دهند.در نهایت، با بررسی نرخ خزیدن و تقاضای خزیدن، بودجه خزیدن یک وب سایت را تعریف می کنیم. در واقع Crawl Budget تعداد URL هایی است که ربات گوگل دوست دارد و می تواند ایندکس کند.

خوب، بیایید دوباره تعریف گوگل از خزیدن بودجه را بخوانیم:

Crawl Budget تعداد URL هایی است که ربات گوگل می خواهد و می تواند ایندکس کند

البته شما هم می‌خواهید ربات Google Crawl Budgeting به بهترین شکل ممکن سایت شما را بخورد. به عبارت دیگر، ربات گوگل باید با ارزش ترین و مهم ترین صفحات را بهتر و بیشتر بررسی کند.

البته، گوگل می گوید عواملی وجود دارند که تأثیر منفی بر خزیدن و نمایه سازی سایت دارند:

تکراری بودن مطالب در سایت

در دسترس بودن صفحات خطا

با استفاده از شناسه ترم

ناوبری ضعیف در سایت

صفحات هک شده در وب

محتوای ناخواسته و هرزنامه

وجود منابع سرور برای این صفحات بودجه هاست شما را خراب می کند. به این ترتیب، صفحات ارزشمند و مهمی که باید ایندکس شوند، واقعاً بعداً به نتایج جستجو راه پیدا می کنند.

خوب، بیایید به اولین موضوع خود، روبات ها برویم.txt برگشت.

اگر بتوانید یک فایل robots.txt خوب ایجاد کنید، می توانید به موتورهای جستجو (مخصوصا Googlebot) بگویید کدام صفحات را نبینند. در واقع با این کار به ربات ها می گویید که کدام صفحات اصلا اولویت شما نیستند. مطمئناً نمی‌خواهید ربات‌های خزنده گوگل سرورهای شما را تحت کنترل درآورند تا محتوای تکراری و کم ارزش را مشاهده و فهرست‌بندی کنند.

با استفاده صحیح از فایل robots.txt، می توانید به ربات های جستجوگر بگویید که از بودجه خزیدن سایت شما به نحو احسن استفاده کنند. این قابلیتی است که اهمیت فایل robots.txt را در سئو دوچندان می کند.

توجه داشته باشید که اگر سایت شما فایل Robots.txt نداشته باشد، ربات های گوگل کار خود را انجام خواهند داد. زمانی که ربات می خواهد یک وب سایت را بررسی کند. اگر چنین فایلی وجود نداشته باشد، ربات بدون هیچ محدودیتی از تمام بخش های موجود بازدید می کند.

بیایید نحوه استفاده از فایل Robots را کمی ببینیم. اما قبل از آن، اجازه دهید در مورد محدودیت ها صحبت کنیم تا بعداً نگویید که چرا از ابتدا آن را نگفتید!

محدودیت‌های دستورالعمل‌های Robots.txt

ربات های فایل محدودیت هایی دارند که باید بدانید باید بخوانید: مراقب باشید: آیا ما واقعاً تصمیمات خود را کنترل می کنیم؟

1.دستورات استفاده شده در فایل Robots.txt برای همه ربات ها یکسان نیست. اینکه آیا ربات موتور جستجو از دستورالعمل ها پیروی می کند بستگی به دستورالعمل های موتور جستجو دارد. یعنی امکان اجرای این دستورات توسط ربات های گوگل وجود دارد اما سایر موتورهای جستجو مانند Yandex یا Bing از این دستورات پیروی نمی کنند.

بهتر است دستورالعمل های هر موتور جستجو را بخوانید تا مطمئن شوید که دستوراتی که می نویسید برای همه موتورهای جستجو کار می کند.

2. این امکان وجود دارد که هر یک از ربات ها دستورات را به روشی متفاوت درک کنند. یعنی این امکان وجود دارد که دو ربات متعلق به یک موتور جستجو یا هر سرویسی باشند که یکی دستورات را دنبال کند و دیگری پیروی نکند.

3. اگر اجازه بررسی صفحه ای با دستورات فایل ربات را نداشته باشیم، باز هم ممکن است گوگل آن را ایندکس کند و در نتایج جستجو ظاهر شود. ربات گوگل باید مستقیماً صفحه را دریافت و اسکن کند (معمولاً حداقل نقشه سایت) یا باید پیوندهای دیگری را که از صفحات و سایت های دیگر به آن صفحه داده شده است بیابد و اسکن کند.

اگر صفحات وب خود را نیز در فایل Robots.txt ایندکس کنید، گوگل آن را در نتایج جستجو نیز نشان خواهد داد.گوگل این صفحه را در جستجوهای مرتبط با کمک کلمه کلیدی هر پیوند و سایر عوامل رتبه بندی می کند. اغلب، این نوع صفحات در نتایج جستجو بدون توضیحات متا ظاهر می شوند زیرا گوگل محتوای صفحه و توضیحات متا را ذخیره نکرده است.

آشنایی با دستورات فایل Robots.txt و معانی آنها

به طور کلی، ما به 4 دستور مهم در فایل Robots.txt نیاز داریم:

User-assistant: برای تعیین رباتی که دستورات برای آن نوشته شده است.

مجاز نیست: بخش هایی از ربات مجاز به درخواست یا بررسی نیستند.

پذیرش: بخش هایی که مجاز به درخواست و بررسی هستند.

نقشه سایت: برای نمایش آدرس فایل نقشه سایت به روبات ها.

در ادامه نحوه استفاده از این دستورات را توضیح خواهیم داد.

1. ربات را با User-Helper مشخص کنید

این دستور برای هدف قرار دادن یک ربات خاص استفاده می شود. این دستور به دو صورت در فایل robots.txt قابل استفاده است.

اگر می خواهید مجوز یکسانی را به همه خزنده ها بدهید، فقط از یک ستاره (*) بعد از User-Agent استفاده کنید. نماد ستاره به معنای “همه چیز” است. مانند مثال زیر:

*: عامل کاربر

دستور بالا به این معنی است که دستورات زیر برای همه ربات های جستجو یکسان عمل می کنند.اما اگر می خواهید به یک ربات خاص مانند GoogleBot دستور خاصی بدهید، دستور شما باید به صورت زیر نوشته شود:

عامل کاربر: Googlebot

کد بالا به این معنی است که “اجرای دستورات فایل فقط برای ربات گوگل مورد نیاز است.

2. علامت گذاری صفحات و بخش های غیرمجاز با Disallow

دستور Disallow به ربات ها می گوید که کدام پوشه های وب سایت شما را نباید اسکن کنند. در واقع این دستور آدرس هایی را که می خواهید از روبات های جستجوگر مخفی کنید را نشان می دهد. حتما بخوانید: دستورالعمل ساخت لینک

به عنوان مثال، اگر نمی خواهید موتورهای جستجو تصاویر وب سایت شما را ایندکس کنند، می توانید تمام تصاویر سایت را در پوشه ای در هاست خود قرار دهید و آنها را در دسترس موتورهای جستجو قرار دهید.

فرض کنید همه این تصاویر را در پوشه ای به نام Photos قرار داده اید. برای اینکه به گوگل بگویید این تصاویر را ایندکس نکند، باید دستوری مانند زیر بنویسید:

*: عامل کاربر

مجاز نیست: / عکس

دستور / دستور بعد از Disallow به ربات گوگل می گوید که باید پوشه ای را در ریشه فایل وارد کنید. نام این پوشه عکس است.

این دو خط در فایل robots.txt به هیچ یک از ربات ها اجازه ورود به پوشه تصاویر را نمی دهد.در کد دستوری بالا، قسمت “User Agent: *” می گوید که اجرای این دستور برای همه ربات های جستجو الزامی است. بخش Disallow:/photos نشان می دهد که ربات مجاز به کلیک کردن یا فهرست کردن پوشه تصاویر سایت نیست.

توجه: نیازی نیست که آدرس کامل را جلوی دستور Accept یا Write بنویسید.

3. بخش های مجاز برای ربات ها را با Allow مشخص کنید

همانطور که می دانیم ربات خزنده و نمایه کننده گوگل گوگل بات نام دارد. این ربات دستورات بیشتری را نسبت به سایر ربات های جستجو درک می کند. ربات گوگل علاوه بر دستورات “User Agent” و “Disallow” دستور دیگری به نام “Allow” را نیز درک می کند.

مجوز Allow به ربات Google می گوید که شما مجاز به مشاهده یک فایل در پوشه مجاز هستید. برای درک بهتر این دستور، از مثال قبلی استفاده می کنیم، بهتر نیست؟

در مثال قبلی یک رشته کد نوشتیم که به روبات های جستجوگر اجازه دسترسی به تصاویر سایت را نمی دهد. تمام تصاویر سایت را در پوشه ای به نام Photos قرار می دهیم و با دستور زیر یک فایل robots.txt ایجاد می کنیم:

*: عامل کاربر

مجاز نیست: / عکس

حال در این پوشه ما که در هاست سایت است تصویری به نام novin را تصور کنید.jpg که می خواهیم Googlebot آن را ایندکس کند. با استفاده از دستور Allow می توانیم به ربات گوگل بگوییم که این کار را انجام دهد:

*: عامل کاربر

مجاز نیست: / عکس

مجاز: /photos/novin.jpg

این دستور به ربات گوگل می گوید که شما مجاز به مشاهده و فهرست بندی فایل novin.jpg هستید، حتی اگر پوشه Photos دور از دسترس ربات ها باشد.

4. نقشه سایت

گوگل راه های مختلفی را برای وب مسترها و صاحبان وب سایت ها برای دسترسی به نقشه سایت ارائه کرده است. یکی از این راه ها نوشتن آدرس فایل در فایل است حتما بخوانید: دیجیتال مارکتینگ در سال 2016: دوران پسا دیجیتال

نقشه سایت: https://example.com/sitemap.xml

هیچ الزامی برای نشان دادن آدرس نقشه سایت خود به ربات های گوگل از این طریق وجود ندارد. بهترین راه برای ارسال نقشه سایت به گوگل، استفاده از ابزار کنسول جستجو است.

همانطور که مشاهده می کنید دیجی کالا دستور نقشه سایت را در فایل robots.txt شما قرار داده است.

در قسمت بعدی نحوه ایجاد فایل Robots.txt را توضیح می دهیم، آن را در جای مناسب قرار داده و تست می کنیم تا ربات های گوگل به آن دسترسی داشته باشند.

فایل Robots.txt کجاست؟

اگر شما را ترغیب می کنید که به ربات ها نگاه کنید.txt سایت شما یا هر سایتی، پیدا کردن آن کار سختی نیست.

تنها کاری که باید انجام دهید این است که آدرس صحیح را در مرورگر خود وارد کنید (مثلا novin.com یا هر سایت دیگری). سپس، robots.txt/ را در انتهای URL تایپ کنید.

با این کار فایل robots را در مرورگر مشاهده خواهید کرد. درست مانند تصویر زیر.

با مشاهده فایل های robots.txt سایر سایت ها می توانید یک قالب برای سایت خود بسازید.

فایل Robots.txt در قسمت Root سایت شما قرار دارد. برای دسترسی به دایرکتوری ریشه وب سایت خود، می توانید به حساب میزبانی وب سایت خود وارد شوید. پس از وارد شدن به قسمت مدیریت فایل بروید.

به احتمال زیاد با چنین صفحه ای مواجه خواهید شد.

فایل robots.txt خود را پیدا کنید و آن را برای ویرایش باز کنید. دستور جدید مورد نظر خود را وارد کرده و آن را ذخیره کنید.

توجه: احتمالاً فایل اصلی را در فهرست اصلی وب سایت پیدا نخواهید کرد. دلیل این امر این است که برخی از سیستم های مدیریت محتوا به طور خودکار یک فایل robots.txt مجازی ایجاد می کنند. اگر با چنین مشکلی مواجه هستید، بهتر است یک فایل جدید برای وب سایت خود ایجاد کنید تا بتوانید به طور مرتب به آن دسترسی داشته باشید.ساخت فایل ربات

به.بیایید با یک مثال ساده شروع کنیم تا فایل Robots.txt را راحت تر درک کنیم.

ربات؟!

ربات ها نرم افزارهای واقعی هستند که به طور خودکار صفحات مختلف را باز و اسکن می کنند.

خوشبختانه، ما می توانیم دسترسی ربات ها به صفحات یا فایل ها را کنترل کنیم.

ابتدا بیایید ببینیم این فایل Robots.txt دقیقا چیست و چه کاری انجام می دهد.

فایل Robots.txt چیست؟

مانند تصویر زیر که اجازه دسترسی به پوشه ای به نام عکس و دسترسی به صفحه ای با نام files.html را نمی دهیم.

اینجاست که فایل Robots.txt وارد عمل می شود.

با فایل Robot تمام شد.txt آیا می توان یک صفحه را از نتایج جستجو حذف کرد؟

روش‌های جایگزین دیگری برای حذف صفحه از نتایج جستجوی Google در زیر ارائه می‌کنیم.

آشنایی با ربات های گوگل

لیست زیر شامل مهم ترین ربات های گوگل است که باید بشناسید:

AdSense – رباتی برای خزیدن صفحات با هدف نمایش تبلیغات مرتبط

Googlebot Image – رباتی که تصاویر را جستجو و بررسی می کند

Googlebot News – یک ربات برای نمایه سازی سایت های خبری

ویدیو Googlebot – ربات بررسی ویدیو

Googlebot – این ربات صفحات وب را کشف و نمایه می کند.دو نوع دسکتاپ و گوشی هوشمند دارد

هر یک از این ربات ها به طور مداوم صفحات وب را اسکن می کنند. در صورت نیاز می توانید هر ربات را محدود کنید.

چرا فایل Robots.txt مهم است؟

این فایل به چند دلیل مهم است:

1. مدیریت ترافیک ربات به وب سایت

2. از نمایش صفحات یا فایل ها در نتایج جستجوی گوگل جلوگیری کنید

در قسمت های بعدی به تفصیل در مورد حذف صفحه از نتایج جستجو توضیح می دهیم.

3. بودجه خود را مدیریت کنید

محدودیت نرخ خرید

تعیین محدودیت در کنسول جستجوی گوگل: صاحبان وب سایت می توانند میزان خزیدن وب سایت خود را کاهش دهند.

سوال خرید

بی ارزش شدن! (Staleness): گوگل آدرس ها را به گونه ای ذخیره می کند که از قدیمی شدن آنها جلوگیری کند.

خوب، بیایید دوباره تعریف گوگل از خزیدن بودجه را بخوانیم:

Crawl Budget تعداد URL هایی است که ربات گوگل می خواهد و می تواند ایندکس کند

البته، گوگل می گوید عواملی وجود دارند که تأثیر منفی بر خزیدن و نمایه سازی سایت دارند:

تکراری بودن مطالب در سایت

در دسترس بودن صفحات خطا

با استفاده از شناسه ترم

ناوبری ضعیف در سایت

صفحات هک شده در وب

محتوای ناخواسته و هرزنامه

خوب، بیایید به اولین موضوع خود، روبات ها برویم.txt برگشت.

محدودیت‌های دستورالعمل‌های Robots.txt

آشنایی با دستورات فایل Robots.txt و معانی آنها

به طور کلی، ما به 4 دستور مهم در فایل Robots.txt نیاز داریم:

User-assistant: برای تعیین رباتی که دستورات برای آن نوشته شده است.

مجاز نیست: بخش هایی از ربات مجاز به درخواست یا بررسی نیستند.

پذیرش: بخش هایی که مجاز به درخواست و بررسی هستند.

نقشه سایت: برای نمایش آدرس فایل نقشه سایت به روبات ها.

در ادامه نحوه استفاده از این دستورات را توضیح خواهیم داد.

1. ربات را با User-Helper مشخص کنید

این دستور برای هدف قرار دادن یک ربات خاص استفاده می شود. این دستور به دو صورت در فایل robots.txt قابل استفاده است.

*: عامل کاربر

عامل کاربر: Googlebot

کد بالا به این معنی است که “اجرای دستورات فایل فقط برای ربات گوگل مورد نیاز است.

2. علامت گذاری صفحات و بخش های غیرمجاز با Disallow

*: عامل کاربر

مجاز نیست: / عکس

دستور / دستور بعد از Disallow به ربات گوگل می گوید که باید پوشه ای را در ریشه فایل وارد کنید. نام این پوشه عکس است.

توجه: نیازی نیست که آدرس کامل را جلوی دستور Accept یا Write بنویسید.

3. بخش های مجاز برای ربات ها را با Allow مشخص کنید

*: عامل کاربر

مجاز نیست: / عکس

*: عامل کاربر

مجاز نیست: / عکس

مجاز: /photos/novin.jpg

4. نقشه سایت

نقشه سایت: https://example.com/sitemap.xml

همانطور که مشاهده می کنید دیجی کالا دستور نقشه سایت را در فایل robots.txt شما قرار داده است.

فایل Robots.txt کجاست؟

اگر شما را ترغیب می کنید که به ربات ها نگاه کنید.txt سایت شما یا هر سایتی، پیدا کردن آن کار سختی نیست.

با این کار فایل robots را در مرورگر مشاهده خواهید کرد. درست مانند تصویر زیر.

با مشاهده فایل های robots.txt سایر سایت ها می توانید یک قالب برای سایت خود بسازید.

به احتمال زیاد با چنین صفحه ای مواجه خواهید شد.

به..

هک سئو سایت

نمونه پیام صوتی برای طرح دیسکاوری

فیلترینگ اینستاگرام را چگونه رفع کنیم؟

راهکار مقابله با فیلترینگ اینستاگرام