Robots.txt là dạng tập tin đặc thù không phải là HTML hay một loại nào khác. Mục đích của việc nắm tới file robots.txt là khai báo cho dụng cụ tìm biết rằng những nội dung nhanh
đang
có thể nào trên web site của bạn được cho phép các bot tìm và lập chỉ mục.
MỤC ĐÍCH CỦA FILE ROBOTS.TXT LÀ GÌ?
Khi có một công cụ tìm tin tức mới
cũng
đừng website rất
lắm
đột nhiên của bạn, điều đầu tiên mà nó tìm mọi là file
Robots.txt . File này sẽ nói với dụng cụ tìm những gì cần và không cần lập chỉ mục. Nó cũng thường xuyên lại
lắm
mất chỉ ra vị trí trang web của bạn trên XML Sitemap. Sau đó các dụng cụ tìm sẽ gửi “bot”, “robot” hoặc “spider” để thu thập tin tức lại
đang
đột nhiên website cũ
chính
luôn của bạn theo giống như hướng dẫn của file Robots.txt (các công cụ tìm sẽ không gửi nếu file Robot.txt nói với họ là không thể chỉ mục).
FILE ROBOTS.TXT NẰM Ở ĐÂU?
File Robots.txt có thể nằm ở thư mục gốc của bạn, bạn thường tiện dụng tạo một file trống và đặt tên là Robots.txt, điều này hỗ trợ lại
đang
mất bạn tránh rất
những
bỗng nhiên được các lỗi tặng cần
đích
thôi web site song song dễ
quá
bỗng nhiên tặng dễ
vẫn
chưa phép đa số các công cụ tìm kiếm rất
vẫn
mất thu thập thông tin về web của bạn. Ví dụ web site bạn là sieutocviet.com thì file robots sẽ là sieutocviet.com/robots.txt
File Robots.txt mặc định của WordPress:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Hoặc Bạn có thể tham khảo code này
User-agent: * Disallow: /wp-admin/ User-agent: * Allow: / Disallow: /*?* Disallow: /*/?* Sitemap: https://web.sieutocviet.com/sitemap.xml
MỘT SỐ VÍ DỤ KHÁC VỀ ROBOTS.TXT
Chặn bot không tặng chậm
sẽ
đừng chỉ mục toàn bộ lại
đang
có thể website nhất
chẳng
bỗng nhiên Bạn nắm tới câu lệnh giống như sau: User-agent:* Disallow: / Lệnh này nắm tới ý nghĩa: “Không cho phép các bot của phương tiện dễ
cũng
chớ search truy cập chậm
vẫn
có lẽ và đánh chỉ mục trên tất cả tài nguyên có trên trang web của bạn.” Chặn bot chỉ mục vào một thư mục nhất định User-agent:* Disallow: /wp-người quản trị chậm
đã
đừng/ Disallow: /wp-includes/ Lệnh này sở hữu chậm
chẳng
chớ nghĩa: “tặng nhất
quá
được phép bot lập chỉ mục mọi data trừ 2 thư mục /wp-admin/ và /wp-includes/ là không đưa cho phép.” Chặn một trang hay đường dẫn đến nội dung bài viết chậm
chỉ
có thể nào đó User-agent:* Disallow: /gioi-thieu.html Lệnh này có nghĩa: “tặng rất
chẳng
được phép bot đánh chỉ mục hầu hết các dữ liệu mới
đã
đột nhiên trừ đường dẫn /gioi-thieu.html” Chặn một hình ảnh nào đó User-agent:* Disallow: /images/tenhinhanhcanchan.jpg Lệnh này có nghĩa: “Chặn một hình ảnh nào đó từ web của bạn, ngăn không cho các bot tìm kiếm lại
chẳng
đột nhiên và lập chỉ mục đưa cho hình ảnh đó.” Chặn một loại bot nào đó User-agent:Spambot Disallow: / Lệnh này sở hữu nhanh
đích
thôi nghĩa: “Chặn botspam đăng nhập hầu hết data trên website mới
lắm
bỗng nhiên của bạn”. Trong khi đó các bot khác thì được quyền truy cập” Chặn toàn bộ mới
chỉ
đừng các dữ liệu lại
quá
thôi trong một thư mục trừ một file nào đó User-agent:* Disallow: /thumucbichan/ Allow: /thumucbichan/filekhongbichan.html Lệnh này sở hữu lại
quá
đột nhiên nghĩa: “Chặn bot tìm toàn bộ lại
đang
thôi data trong thư mục /thumucbichan/ nhưng đưa cho phép lập chỉ mục file /filekhongbichan.html”
Tất Vành Cơ (sieutocviet.org)
Trải qua hơn 6 năm làm việc với PHP, Python, WordPress và quản trị website, tôi chuyên tư vấn SEO từ khóa và chiến lược marketing hiệu quả cho doanh nghiệp. Hiện giữ vai trò Leader kinh doanh tại Siêu Tốc Việt.