فایل Robot.txt چیست؟
یکی از قسمت های مهم هر سایتی فایل Robots.txt است؛ وب مسترها با استفاده از فایل Robots.txt به ربات های خزنده موتورهای جستجو اعلام می کنند که چطور سایتشان را ایندکس کنند. این فایل معمولا در پوشه اصلی سایت در ریشه دایرکتوری ذخیره می شود. با توجه به اهمیت فایل robot.txt این مقاله را تا آخر بخوانید.
فایل robot.txt فایلی است که به ربات های موتور های جست و جوگر می گوید در کدام صفحات سایت جستجو کنند و همچنین از جست و جو در کدام صفحات خودداری کنند. حالا شاید از خود بپرسید چرا باید کاری کنیم که موتور های جست و جو مانند گوگل، یاهو و بینگ، بعضی از صفحات سایت شما را در جست و جو های خود در نظر نگیرند و آن ها را نشان ندهند؟
دلیل این امر این است که سیستم کار ربات های جست و جو به شکلی است که تمام صفحات وب سایت مورد نظر و مرتبط با موضوع سرچ شده را می گردند. اگر سایت شما مدت زیادی است که فعالیت می کند و تعداد صفحات ایجاد شده در سایت شما بسیار زیاد است، سرعت جست و جوی موتورهای گوگل در سایت شما کاهش می یابد و یا برخی از صفحات از قلم می افتند. گوگل این موضوع را تحت Crawl Budget توضیح داده است. یعنی بودجه و ظرفیتی که برای جست و جو و گردش در هر سایت توسط موتور های جست و جو اختصاص داده می شود، محدود است.
پس برای آن که حداکثر استفاده را از این بودجه بکنید نیاز به یک دستورالعمل دارید که به موتورهای جستجو نشان دهید کدام صفحات از اهمیت بیشتری برخوردار هستند و باید در نتایج جستجو نشان داده شوند. همچنین صفحات کم اهمیت و قدیمی را از دید موتورهای جست و جو پنهان کنید تا بودجه ی جست و جو صرف آن ها نشود.
چرا robot.txt مهم است؟
در ابتدا باید گفت بسیاری از سایت ها به ایجاد یا حتی بهینه سازی فایل Robots.txt نیاز ندارند. همانطور که در بخش قبل اشاره شد این فایل برای سایت هایی واجب است که تعداد صفحات آن ها بسیار زیاد است. در این سایت ها، گاهی مشاهده می شود صفحات مهم با آن که به تازگی ساخته شده اند، در نتایج جستجو نشان داده نمی شوند و یا رتبه پایینی در رنکینگ گوگل کسب می کنند.
دلیل این امر می تواند این باشد که بخش بزرگی از بودجه و ظرفیت جست و جوی ربات گوگل، صرف گشتن در صفحات پر تعداد و نسبتا کم اهمیت سایت مورد نظر می شود. در این موارد است که robot.txt اهمیت پیدا می کند.
البته استفاده از robot.txt فقط مختص به سایت هایی که تعداد صفحات خیلی زیاد دارند نیست. در مواردی، سایت های کوچک تر نیز می توانند از این فایل برای پنهان نگه داشتن برخی از صفحات خاص سایت استفاده کنند. به عنوان مثال، ممکن است شما به عنوان صاحب یک سایت، یک صفحه تست در سایت خود ایجاد کرده باشید که در آن عملکرد های مختلف سایت خود را امتحان می کنید. طبیعتا شما نمی خواهید مخاطبان شما این صفحه آزمایشی سایت شما را ببینند. در این صورت می توانید یک robot.txt بسازید و صفحه مورد نظر را از دید موتورهای جست و جو مخفی کنید.
یکی دیگر از صفحاتی که نمایش آن در نتایج جست و جو گوگل چندان جالب نیست، صفحه لاگین کردن به حساب کاربری در سایت است. اگر چه این صفحه برای سایت واجب و ضروری است، اما صفحه ای نیست که بخواهید مخاطب تازه وارد به سایت شما با آن رو به رو شود.
ساخت فایل robot.txt
اگر به این نتیجه رسیدید که به یک فایل robot.txt برای مدیریت ربات های جست و جوگر در سایت خود نیاز دارید، می توانید خودتان این فایل را ایجاد کنیدبه یاد داشته باشید باید در فایل Robots.txt سایت مپ سایتتان را نیز اپلود کنید؛ اکنون بهتر است به ساخت یک فایل robot.txt بپردازیم؛ از آن جایی که robot.txt یک تکست فایل است، شما می توانید با استفاده از نوت پد ویندوز آن را ایجاد نمایید. فایل های robot.txt یک فرمت ساده دارند که باید از آن پیروی کنید. این فرمت به این شکل است:
User-agent:X
Disallow: Y
در این فرمت User-agent همان رباتی است که شما آن را خطاب قرار می دهید. یعنی به جای X باید نام رباتی را که می خواهید سرچ آن در سایت خود را هدفمند کنید قرار دهید. در مقابل disallow هم باید صفحات و یا بخش هایی را که می خواهید موتور جست و جو آن ها را جست و جو نکند قرار دهید.
به این مثال توجه کنید:
User-agent:googlebot
Disallow: /images
این دستور باعث می شود تا موتور جستجوگر گوگل پوشه عکس ها در سایت شما را سرچ نکند.
همچنین می توانید با استفاده از (*) در مقابل User-agent، به تمام ربات های جستجوگر در اينترنت دستور بدهید.
مثلا:
User-agent:*
Disallow: /images
با این دستور نه فقط موتور گوگل، بلکه هیچ موتور و ربات دیگری پوشه عکس های سایت شما را ایندکس نخواهد کرد و از گشت و گذار در آن خودداری می کند.
نکته: به یاد داشته باشید اگر از یک افزونه سئو وردپرس مانند رنک مث نیز استفاده میکنید جای نگرانی نیست چرا که با استفاده از این افزونه نیز می توانید بهینه سازی فایل روبوتس را انجام دهید.
robot.txt قوانین دیگری هم دارد که در تصویر زیر می توانید آن ها را مطالعه کنید:
محل قرارگیری فایل robot.txt در سایت
بعد از آن که فایل robot.txt خود را ساختید، حالا وقت آن است که آن را در محلی از سایت خود قرار دهید که موتورهای جست و جو به راحتی آن را پیدا کنند و از قوانین آن پیروی کنند. توجه داشته باشید که اگر فایل را به درستی نوشته باشید و آن را در جای مناسب قرار دهید، همه موتورهای جست و جو آن را شناسایی می کنند و بدون کم و کاست از قوانین آن پیروی خواهند کرد.
به طور کلی شما می توانید robot.txt در هر قسمتی از main directory سایت خود قرار دهید. اما برای آن که شانس دیده شدن آن توسط ربات های جستجوگر را افزایش دهید، توصیه می شود که robot.txt در مسیری مانند مسیر زیر بگذارید:
https://example.com/robots.txt
نکته: حتما توجه داشته باشید که robot.txt را باید با حروف کوچک تایپ کرده باشید.
تست robot.txt
این موضوع که robot.txt شما درست کار می کند یا نه بسیار مهم است. یک اشتباه کوچک کافی است تا سایت شما به طور کلی از دید موتورهای جست و جوگر مخفی بماند! خوشبختانه یک راه حل آسان و مطمئن برای تست robot.txt وجود دارد.
شما می توانید با استفاده از تست روبات گوگل فایل خود را چک کنید تا مطمئن شوید همه چیز مرتب است. به عنوان مثال در تصویر زیر یک robot.txt در معرض تست گذاشته شده است و همانطور که در بخش پایینی تصویر می بینید، هیچ خطا و هشداری برای آن ثبت نشده است.
https://www.google.com/webmasters/tools/robots-testing-tool
