Tìm hiểu khái niệm Robots txt là gì sẽ giúp bạn có thêm những thông tin mới về hoạt động của công cụ tìm kiếm từ đó cải tiến hoạt động SEO tốt hơn!
Nếu bạn đang sở hữu một website được viết bằng WordPress và mong muốn cải thiện chức năng cho trình thu thập dữ liệu của những công cụ tìm kiếm điều hướng đến website thì bạn cần sử dụng file robots txt. Đây là một công cụ có thể hỗ trợ bạn khá tốt trong quá trình xây dựng trang web của mình. Trong bài viết dưới đây của Pima Digital, chúng tôi sẽ đề cập một số thông tin liên quan đến loại file này để bạn đọc cùng tham khảo.
File robots txt là gì?
Về khái niệm, chúng ta có thể hiểu đơn giản file robots txt là một tập tin văn bản đơn giản có dạng đuôi .txt. Tệp này là một phần của giao thức REP (Robots Exclusion Protocol) chứa một nhóm các tiêu chuẩn Web quy định cách Robot Web (hoặc Robot của các công cụ tìm kiếm) có nhiệm vụ truy cập và lập chỉ mục nội dung sau cùng phân phát nội dung đó cho người dùng.
Về chi tiết REP, nó cũng bao gồm các lệnh như Meta Robots, Page-Subdirectory (thư mục con của trang web), Sitewide Instructions (các trang hướng dẫn). Nó có thể hướng dẫn về cách các công cụ tìm kiếm nên xử lý các liên kết (ví dụ các Link Dofollow hay Nofollow).
Trên thực tế, tạo tệp robots txt ở nền tảng WordPress sẽ giúp các nhà quản trị web chủ động hơn trong việc cho phép hoặc không cho phép các con bot của Google Index truy cập vào một số phần nào đó thuộc trang của mình.
Tại sao nên sử dụng tệp robots txt?
Như Pima Digital đã đề cập khi sử dụng file robots.txt, website của bạn có thể dễ dàng kiểm soát được sự truy cập của các con bots thuộc công cụ tìm kiếm đến những khu vực nhất định trên website. Điều này sẽ mang lại nhiều lợi ích đến cho người xây dựng trang web, cụ thể là:
- Giúp ngăn chặn nội dung trùng lặp (Duplicate Content) xuất hiện trên website
- Kiểm soát tính bảo mật, riêng tư cho một số phần của trang
- Đảm bảo các kết quả tìm kiếm nội bộ sẽ không hiển thị trên SERP
- Chỉ định vị trí của Sitemap
- Không cho phép các công cụ tìm kiếm như Google index một số những tệp trên website của bạn
- Sử dụng lệnh Crawl-delay để cài đặt thời gian để giảm tải cho máy chủ của bạn khi các trình thu thập dữ liệu tải nhiều nội dung cùng lúc.
File robots txt hoạt động như thế nào?
Các công cụ tìm kiếm có hai nhiệm vụ chính đó là thu thập thông tin trên web để tìm hiểu nội dung và lập chỉ mục nội dung đó để có thể phục vụ những người đang có nhu cầu tìm kiếm thông tin.
Trong trường hợp cần thu thập dữ liệu các trang web, các công cụ tìm kiếm sẽ dò tìm các liên kết từ trang này sang trang khác và cuối cùng là thu thập dữ liệu qua hàng tỷ liên kết trên trang web. Hoạt động thu thập thông tin này đôi khi được gọi là “lướt”.
Sau khi đến một trang web thì tệp robots txt mới bắt đầu phát huy tác dụng. Trước khi thu thập dữ liệu, trình thu thập thông tin sẽ tìm tệp robots có đuôi txt để kiểm tra một số tính năng. Nếu tìm thấy, trình thu thập thông tin sẽ đọc tệp đó trước khi tiếp tục qua trang.
Bởi vì tệp robots.txt chứa thông tin về cách công cụ tìm kiếm thu thập dữ liệu nên chúng sẽ hướng dẫn hoạt động này trên trang web cụ thể. Nếu tệp này không chứa bất kỳ lệnh nào thì khả năng cao không cho phép hoạt động trên các điều hướng đó, lúc này tệp sẽ tiếp tục thu thập thông tin khác trên trang web.
Cách tìm tệp robots.txt trên website
Thông thường, file robots.txt trong wordpress chuẩn được lưu trữ trên máy chủ của bạn trong thư mục public_html. Để kiểm tra xem tệp này có xuất hiện trên website không, bạn chỉ cần nhập URL đầy đủ cho trang chủ và thêm “/robots.txt” vào cuối.
Lưu ý: Tệp robots txt phải luôn tồn tại ở cấp tên miền gốc. Đối với www.pimadigital.vn, tệp robots.txt nằm ở www.pimadigital.vn/robots.txt. Khi đặt nó ở bất kỳ nơi nào khác trên trang web thì trình thu thập thông tin có thể cho rằng bạn không có file này. Chính vì vậy, trước khi tìm hiểu cách tạo tệp robots.txt, hãy xem xét cẩn thận cú pháp của chúng.
Những cú pháp của file robots txt chuẩn
User-agent
Cú pháp này chỉ định các trình thu thập dữ liệu web (Googlebot, Bingbot…)
Chẳng hạn, nếu bạn muốn yêu cầu Googlebot không thu thập dữ liệu trang quản trị WordPress của bạn thì lệnh cần nhập:
User-agent: Googlebot
Disallow: /wp-admin/
Disallow
Được sử dụng để thông báo các User-agent không thu thập dữ liệu của một đường dẫn cụ thể nào đó. Chính vì vậy, mỗi URL sẽ được sử dụng một dòng Disallow riêng biệt.
Giả sử bạn muốn chặn tất cả các công cụ tìm kiếm thu thập dữ liệu trang web của bạn, câu lệnh cần nhập sẽ là:
User-agent: *
Disallow: /
Allow (chỉ áp dụng cho Google, Bing)
Câu lệnh được sử dụng để thông báo cho các công cụ tìm kiếm có thể thu thập dữ liệu một hoặc nhiều thư mục con.
Ví dụ bạn muốn cho phép tất cả các công cụ tìm kiếm thu thập dữ liệu toàn bộ trang web của bạn, câu lệnh cần nhập:
User-agent: *
Allow: /
Ngược lại, nếu bạn muốn ngăn Googlebot truy cập mọi bài đăng trên blog của mình ngoại trừ một bài đăng, thì câu lệnh sẽ như sau:
User-agent: Googlebot
Disallow: /blog
Allow: /blog/example-post
Crawl – delay
Cú pháp này nhằm đưa ra thông báo cho các Web Crawler khoảng thời gian cần phải đợi trước khi tải và thu thập dữ liệu. Lưu ý, Googlebot thường sẽ không nhận lệnh này, do đó bạn cần phải cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
Giả sử bạn muốn trình thu thập thông tin đợi 15 giây sau mỗi hành động thu thập thông tin. Đặt độ trễ thành 15, như sau:
User-agent: *
Crawl-delay: 15
Sitemap
Đây là câu lệnh cung cấp các vị trí của bất kỳ một Sitemap XML nào đến với liên kết URL này. Thông tin về lệnh này được hỗ trợ bởi Google, Ask, Bing và Yahoo nên người dùng có thể cân nhắc thêm các thuộc tính liên quan.
Một số quy tắc khi sử dụng file robots.txt
Sử dụng dòng mới cho mỗi lệnh
Mỗi lệnh nên nằm trên một dòng mới. Nếu không, công cụ tìm kiếm sẽ không thể đọc chúng và nội dung hướng dẫn của bạn sẽ bị bỏ qua.
Trường hợp viết sai
User-agent: * Disallow: /admin/
Disallow: /directory/
Trường hợp viết đúng
User-agent: *
Disallow: /admin/
Disallow: /directory/
Sử dụng mỗi User-agent một lần
Bot vẫn sẽ hoạt động bình thường nếu bạn nhập cùng một User-agent nhiều lần nhưng việc sử dụng nó 1 lần sẽ giúp mọi thứ đơn giản hơn, giảm khả năng xảy ra lỗi.
Trường hợp viết sai
User-agent: Googlebot
Disallow: /example-page
User-agent: Googlebot
Disallow: /example-page-2
Trường hợp viết đúng
User-agent: Googlebot
Disallow: /example-page
Disallow: /example-page-2
Sử dụng ký tự đại diện (*) để làm rõ điều hướng
Bạn có thể sử dụng ký tự đại diện (*) để áp dụng lệnh cho tất cả User-agent và khớp với mẫu URL. Chẳng hạn để ngăn công cụ tìm kiếm truy cập các URL có tham số hoặc thông tin nào đó, về mặt kỹ thuật, bạn có thể liệt kê từng thông tin một. Tuy nhiên điều đó không hiệu quả và bạn có thể đơn giản hóa điều hướng của mình bằng ký tự đại diện.
Trường hợp không hiệu quả
User-agent: *
Disallow: /badminton/shoes?
Disallow: /badminton/racket?
Disallow: /badminton/skin?
Trường hợp hiệu quả
User-agent: *
Disallow: /badminton/*?
Sử dụng “$” để cho biết sự kết thúc của URL
Việc thêm “$” cho biết sự kết thúc của URL. Chẳng hạn nếu bạn muốn chặn công cụ tìm kiếm thu thập dữ liệu tất cả các tệp .jpg trên trang web của mình, bạn có thể liệt kê chúng riêng lẻ nhưng điều đó sẽ hoạt động không hiệu quả.
Trường hợp viết sai
User-agent: *
Disallow: /picture-a.jpg
Disallow: /picture-b.jpg
Disallow: /picture-c.jpg
Trường hợp viết đúng
User-agent: *
Disallow: /*.jpg$
Biểu tượng “$” là một tính năng hữu ích trong các trường hợp cụ thể như trường hợp trên. Tuy nhiên hãy thận trọng khi áp dụng nó vì bạn dễ dàng bỏ qua những thông tin một cách vô tình.
Sử dụng Hash (#) để thêm nhận xét
Trình thu thập thông tin thường sẽ bỏ qua mọi thứ bắt đầu bằng Hash (#). Vì vậy, các nhà phát triển thường sử dụng Hash để thêm nhận xét vào tệp robots.txt, giúp giữ cho tập tin theo một cấu trúc và dễ đọc.
User-agent: *
#Landing Pages
Disallow: /landing/
Disallow: /lp/
#Files
Disallow: /files/
Disallow: /private-files/
#Websites
Allow: /website/*
Disallow: /website/search/*
Sử dụng các tệp robots.txt riêng biệt cho các tên miền phụ khác nhau
Để kiểm soát việc thu thập thông tin trên một tên miền phụ khác, bạn sẽ cần một tệp robots txt riêng. Vì vậy, nếu trang web chính của bạn nằm trên domain.com và blog của bạn nằm trên tên miền phụ admin.domain.com thì bạn sẽ cần hai tệp robots txt. Đơn giản một cho thư mục gốc của tên miền chính và một cho thư mục gốc của blog của bạn.
Hướng dẫn tạo file robots txt chuẩn cho WordPress
Sử dụng Yoast SEO
Người dùng có thể chỉnh sửa hoặc tạo file robots.txt cho WordPress trên chính WordPress Dashboard bằng vài bước đơn giản. Đầu tiên, tiến hành đăng nhập vào website của bạn, ở góc trái màn hình, bạn nhấn vào Yoast SEO -> Tools -> File Editor, sau đó cấu hình file robots và mục .htaccess file (nếu cần).
Tính năng File Editor sẽ không hiển thị nếu WordPress của bạn vẫn chưa được kích hoạt trình quản lý File. Do đó, bạn hãy kích hoạt thông qua File Transfer Protocol (FTP – Giao thức truyền tập tin). Lúc này, bạn sẽ thấy mục robots.txt và .htaccess file – nơi giúp bạn tạo dữ liệu khai báo cấu trúc website.
Qua bộ Plugin All in One SEO
Cách thứ 2 để tạo file Robot một cách nhanh chóng là bạn có thể sử dụng bộ Plugin All in One SEO. Theo như các SEOer đánh giá thì đây cũng được xem như một plugin tiện ích cho WordPress do tính đơn giản và dễ tiếp cận.
Để tạo file robots txt WordPress, bạn phải đến giao diện chính của Plugin All in One SEO Pack. Click chọn All in One SEO -> Features Manager -> Nhấp Active cho mục robots.txt.
Khi đó, giao diện mới xuất hiện, bạn có thể tạo lập cũng như điều chỉnh file robots.txt WordPress tại đây.
Tuy nhiên, bộ plugin này có một vài điểm khác biệt so với Yoast SEO vừa đề cập ở trên. Chẳng hạn như All in One SEO làm mờ đi thông tin của file robots txt thay vì người dùng được chỉnh sửa file như công cụ Yoast SEO. Điều này có thể khiến bạn rơi vào tình trạng bị động một chút khi chỉnh sửa trên WordPress. Tuy nhiên, yếu tố này sẽ giúp bạn hạn chế thiệt hại cho website của mình, đặc biệt một số Malware bots (các phần mềm mã độc) sẽ gây hại cho website của bạn.
Tạo và upload file robots.txt qua FTP
Nếu như chủ website không muốn sử dụng plugin thì vẫn có thể tự tạo file robots txt chuẩn bằng cách thủ công cho WordPress của mình. Thao tác này chỉ mất vài phút, bạn sẽ dùng Notepad hoặc Textedit để tạo mẫu file robots.txt WordPress sau đó upload file này qua FTP mà không cần sử dụng Plugin.
Một số lưu ý khi tạo tệp robots txt
- Để điều hướng khả năng được các con bot tìm thấy thì các file robots đuôi .txt WordPress phải được đặt trong các thư mục cấp cao nhất của trang web.
- File đuôi txt phân biệt chữ hoa và chữ thường. Do vậy, tệp phải được đặt tên là robots.txt (không đặt Robots.txt hay robots.TXT…), nếu không sẽ dễ bị sai lệnh.
- Không nên đặt /wp-content/themes/ hay /wp-content/plugins/ vào mục Disallow. Nó có khả năng gây trở ngại cho các công cụ nhìn nhận chính xác về giao diện blog hay website.
- Các tệp robots txt thường có sẵn và được công khai trên web nên người dùng chỉ cần thêm /robots.txt/ vào cuối bất kì Root Domain để xem các thông tin của trang web đó. Điều này có nghĩa là bất kì ai cũng thấy các trang hiển thị nên không nên sử dụng các tệp này để ẩn thông tin cá nhân của người dùng.
- Mỗi Subdomain trên một một Root Domain sẽ sử dụng các file robots.txt riêng biệt nên nếu cần thiết, bạn có thể chỉ ra vị trí của bất kì sitemap nào được liên kết với domain ở cuối tệp này và kiểm tra các thông tin từ đó.
Robots.txt so với Meta robots và X-robots
Robots.txt được biết đến là một tệp văn bản thực, trong khi Meta và X-robot là các Meta Directives. Cả ba đều có nhiệm vụ và chức năng khác nhau.
Robots txt kiểm soát hành vi thu thập dữ liệu trên toàn bộ trang web hoặc thư mục cụ thể.
Meta robots là các đoạn mã HTML được thêm vào phần <head> của từng trang web riêng lẻ để hướng dẫn cho trình thu thập thông tin về cách lập chỉ mục và hiển thị nội dung trang web đó.
Trong khi đó, X-robots là một phần của tiêu đề HTTP/HTTPs được gửi từ máy chủ web và không được đặt trong HTML của một trang. Nó được sử dụng để kiểm soát việc lập chỉ mục các loại tài nguyên, tệp cụ thể như: hình ảnh, video…
Hy vọng với những thông tin mà Pima Digital chia sẻ trên đây về chủ đề robots txt cũng như một số cách tạo file robots.txt chuẩn, sẽ giúp bạn có thêm kiến thức trong việc xây dựng website của mình. Nếu bạn quan tâm về các bài viết liên quan, vui lòng liên hệ chúng tôi theo thông tin:
PIMA DIGITAL – CÔNG TY SEO UY TÍN, CHUYÊN NGHIỆP
- Địa chỉ: Tầng 3, NCC Office, 139/37-39 Nguyễn Văn Lượng, Phường 10, Gò Vấp, TP.HCM
- Hotline: 0973.463.486
- Email: info@pimadigital.vn
- Website: https://pimadigital.vn/