1394/9/4

محدود کردن موتورهای جستجو

ربات های جستجوگر که وارد سایت شما می شوند طبق برنامه یشان در ابتدا فایل robots.txt که یک فایل متنی است را میخوانند با این فایل توسط مجموعه دستوراتی دسترسی ربات ها را به قسمت های مختلف سایت کنترل می کنیم. این فایل حتما باید در دایرکتوری ریشه ی سایت تعریف شود و دقت کنید که هر سایت فقط یک فایل robots.txt لازم دارد و باید ایجاد شود نه بیشتر.
معمولا در آن، آدرس دایرکتوری ها یا فایل هایی که حاوی اطلاعاتی هستند که نمی خواهید توسط موتورهای جستجوگر index شوند نوشته شده است (مانند قسمت های کاربری سایت یا قسمت هایی که حاوی فایلهای شخصی می باشند.)
برای ایجاد این فایل می توانید از ابزار Google WebMaster Tools استفاده کنید این ابزار قسمتی برای ایجاد این فایل دارد که در آن می توانید با کمکش فایل را بسازید و نتیجه ی خروجی را مشاهده کنید و از فایل خروجی بگیرید و در سایت خودتان قرار دهید.
همان طور که گفتیم هر سایت فقط یک فایل robots.txt دارد دقت کنید که زیر دامنه ها در این بحث یک سایت جدا در نظر گرفته شده اند پس اگر سایتی دارید که چند زیر دامنه دارد (برای مثال یکی از زیر دامنه های yahoo ، آدرس mail.yahoo.com است) باید برای دایرکتوری ریشه ی هر زیر دامنه یک فایل robots.txt ایجاد کنید.

دقت کنید با ایجاد این فایل شما دسترسی شخص یا رباتی را به جایی قطع نمی کنید. برای مثال ربات هایی وجود دارند که به فایل robots.txt اهمیتی نمی دهند و در کل دایرکتوری هایی که می توانند پیدا کنند گشت میزنند یا حتی کاربران سایت شما می توانند به راحتی با استفاده از اطلاعات این فایل مسیر هایی که شما غیر مجاز می دانید را پیدا کنند. اما نگران نباشید برای جلوگیری از این اتفاقات هم راهکارهایی هست:

  • شما می توانید روی فایل ها یا دایرکتوری هایتان رمز گذاری کنید.
  • می توانید با فایل .htaccess دسترسی دیگران را به فایل ها یا دایرکتوری ها قطع کنید.

دقت کنید که در این فایل شما فقط فایل ها یا دایرکتوری های واقعی را می توانید کنترل کنید و نوشتن آدرس صفحات در این فایل ها تاثیری ندارد. اما اگر بخواهید دسترسی ربات ها به صفحه ای خاص در یک فایل را قطع کنید تا آن صفحه در موتور جستجوگر index نشود می توانید از خصوصیت noindex در کدهای آن صفحه برای این کار استفاده کنید و برای اینکه دسترسی را کلا از این صفحه قطع کنید می توانید با فایل .htaccess یا با گذاشتن پسورد روی آن دسترسی کاربران و ربات ها را به آن صفحه قطع کنید.

در نهایت ربات های جستجوگر استاندارد از این فایل به همراه نقشه سایت شما شروع به index کردن صفحات شما می کنند.

نظرات
حروف تصویر