در مورد Robots.txt بیشتر بدانیم



گاهی پیش می آید که موتورهای جستجو بعد از دیدن سایت و ایندکس کردن (ذخیره محتویات سایت در دیتابیس موتور جستجو) به ایندکس مطالبی که مدنظر شما نیست می پردازند مانند زمانی که مالک سایت به دلیل حساسیت روی مطالبی ویژه تمایلی به رویت آنها توسط بازدیدکنندگان سایت ندارد و یا در پروسه سئو سایت به دلیل اینکه زمان طراحی سایت صفحه ای با دو نسخه طراحی شده است (یک نسخه جهت نمایش در مرورگر و یک نسخه برای چاپ) سایت به علت محتوای تکراری در معرض خطر پنالتی و جریمه شدن قرار می گیرد .

فایل Robots.txt یکی از فرآیندهای بهینه سازی وب سایت و روشی برای مطلع کردن موتورهای جستجوست تا بدانند کدام فایل ها و پوشه ها را نادیده بگیرند.
در تشریح robots.txt در مباحث سئو داریم: فایلی متنی و نهhtml که در سایت گذاشته می شود تا به روبات ها گفته شود کدام صفحات را ایندکس نکنند. البته باید این موضوع مهم را مدنظر داشت که robots.txt روشی برای جلوگیری از خزیدن موتورهای جستجو در سایت ما نیست. نباید تصور شود که این فایل مانند یک دیواره آتش یا رمز محافظتی است بلکه مثل نوشته ای با متن (لطفا وارد نشوید) بر روی یک در قفل نشده است.
در پروسه سئو وب سایت به اهمیت محل قرارگیری این فایل تاکید شده و باید در پوشه اصلی قرار گیرد. موتورهای جستجو جهت یافتن این فایل تمام سایت را نخواهند گشت. آنها اول در پوشه اصلی به آدرس (http://mydomain.com/robots.txt) آن را جستجو می کنند و در صورتی که آن را آنجا نیابند تصور می کنند که این فایل وجود ندارد و شروع به ایندکس تمامی سایت می نمایند.
ساختار فایل robots.txt

در ساختار این فایل در طراحی وب سایت از دو دستور User-agent و Disallow، User-agent برای مشخص کردن موتورهای جستجو و Disallow برای مشخص کردن پوشه ها و فایل هایی که قرار است ایندکس نشوند، استفاده می شود. با مثال زیر نحوه استفاده از این دستورات را توضیح می دهیم.
User-agent :googlebot
یعنی تنها گوگل از ایندکس مطالبی که مشخص شده اجتناب کند و با دستور
* : User-agent
یعنی تمامی موتورهای جستجو شامل محدودیت ایندکس هستند.
/Disallow: /image
یعنی پوشه تصاویر شامل محدودیت ایندکس شود و هیچکدام از تصاویر در موتورهای جستجو نمایش داده نشود.