Tác giả: Hoàng Thanh Hùng
Cập nhật lần cuối: 06-07-2024
347 Lượt xem

Tìm hiểu khái niệm Robots txt là gì sẽ giúp bạn có thêm những thông tin mới về hoạt động của công cụ tìm kiếm từ đó cải tiến hoạt động SEO tốt hơn!

Nếu bạn đang sở hữu một website được viết bằng WordPress và mong muốn cải thiện chức năng cho trình thu thập dữ liệu của những công cụ tìm kiếm điều hướng đến website thì bạn cần sử dụng file robots txt. Đây là một công cụ có thể hỗ trợ bạn khá tốt trong quá trình xây dựng trang web của mình. Trong bài viết dưới đây của Pima Digital, chúng tôi sẽ đề cập một số thông tin liên quan đến loại file này để bạn đọc cùng tham khảo.

Robots txt là gì? Cách tạo Robots.txt cho WordPress chuẩn SEO

File robots txt là gì?

Về khái niệm, chúng ta có thể hiểu đơn giản file robots txt là một tập tin văn bản đơn giản có dạng đuôi .txt. Tệp này là một phần của giao thức REP (Robots Exclusion Protocol) chứa một nhóm các tiêu chuẩn Web quy định cách Robot Web (hoặc Robot của các công cụ tìm kiếm) có nhiệm vụ truy cập và lập chỉ mục nội dung sau cùng phân phát nội dung đó cho người dùng.

Về chi tiết REP, nó cũng bao gồm các lệnh như Meta Robots, Page-Subdirectory (thư mục con của trang web), Sitewide Instructions (các trang hướng dẫn). Nó có thể hướng dẫn về cách các công cụ tìm kiếm nên xử lý các liên kết (ví dụ các Link Dofollow hay Nofollow).

Trên thực tế, tạo tệp robots txt ở nền tảng WordPress sẽ giúp các nhà quản trị web chủ động hơn trong việc cho phép hoặc không cho phép các con bot của Google Index truy cập vào một số phần nào đó thuộc trang của mình.

File robots txt là gì? Nó có vai trò gì trong SEO?

Tại sao nên sử dụng tệp robots txt?

Như Pima Digital đã đề cập khi sử dụng file robots.txt, website của bạn có thể dễ dàng kiểm soát được sự truy cập của các con bots thuộc công cụ tìm kiếm đến những khu vực nhất định trên website. Điều này sẽ mang lại nhiều lợi ích đến cho người xây dựng trang web, cụ thể là:

Giúp ngăn chặn nội dung trùng lặp (Duplicate Content) xuất hiện trên website
Kiểm soát tính bảo mật, riêng tư cho một số phần của trang
Đảm bảo các kết quả tìm kiếm nội bộ sẽ không hiển thị trên SERP
Chỉ định vị trí của Sitemap
Không cho phép các công cụ tìm kiếm như Google index một số những tệp trên website của bạn
Sử dụng lệnh Crawl-delay để cài đặt thời gian để giảm tải cho máy chủ của bạn khi các trình thu thập dữ liệu tải nhiều nội dung cùng lúc.

Tệp robots.txt kiểm soát quyền truy cập của trình thu thập thông tin trên trang web

File robots txt hoạt động như thế nào?

Các công cụ tìm kiếm có hai nhiệm vụ chính đó là thu thập thông tin trên web để tìm hiểu nội dung và lập chỉ mục nội dung đó để có thể phục vụ những người đang có nhu cầu tìm kiếm thông tin.

Trong trường hợp cần thu thập dữ liệu các trang web, các công cụ tìm kiếm sẽ dò tìm các liên kết từ trang này sang trang khác và cuối cùng là thu thập dữ liệu qua hàng tỷ liên kết trên trang web. Hoạt động thu thập thông tin này đôi khi được gọi là “lướt”.

Sau khi đến một trang web thì tệp robots txt mới bắt đầu phát huy tác dụng. Trước khi thu thập dữ liệu, trình thu thập thông tin sẽ tìm tệp robots có đuôi txt để kiểm tra một số tính năng. Nếu tìm thấy, trình thu thập thông tin sẽ đọc tệp đó trước khi tiếp tục qua trang.

Bởi vì tệp robots.txt chứa thông tin về cách công cụ tìm kiếm thu thập dữ liệu nên chúng sẽ hướng dẫn hoạt động này trên trang web cụ thể. Nếu tệp này không chứa bất kỳ lệnh nào thì khả năng cao không cho phép hoạt động trên các điều hướng đó, lúc này tệp sẽ tiếp tục thu thập thông tin khác trên trang web.

Công cụ tìm kiếm thu thập thông tin và lập chỉ mục trang web nhờ vào tệp robots

Cách tìm tệp robots.txt trên website

Thông thường, file robots.txt trong wordpress chuẩn được lưu trữ trên máy chủ của bạn trong thư mục public_html. Để kiểm tra xem tệp này có xuất hiện trên website không, bạn chỉ cần nhập URL đầy đủ cho trang chủ và thêm “/robots.txt” vào cuối.

Lưu ý: Tệp robots txt phải luôn tồn tại ở cấp tên miền gốc. Đối với www.pimadigital.vn, tệp robots.txt nằm ở www.pimadigital.vn/robots.txt. Khi đặt nó ở bất kỳ nơi nào khác trên trang web thì trình thu thập thông tin có thể cho rằng bạn không có file này. Chính vì vậy, trước khi tìm hiểu cách tạo tệp robots.txt, hãy xem xét cẩn thận cú pháp của chúng.

Cách kiểm tra tập tin robots có đuôi txt trên website Pima Digital

Những cú pháp của file robots txt chuẩn

User-agent

Cú pháp này chỉ định các trình thu thập dữ liệu web (Googlebot, Bingbot…)

Chẳng hạn, nếu bạn muốn yêu cầu Googlebot không thu thập dữ liệu trang quản trị WordPress của bạn thì lệnh cần nhập:

User-agent: Googlebot
Disallow: /wp-admin/

Disallow

Được sử dụng để thông báo các User-agent không thu thập dữ liệu của một đường dẫn cụ thể nào đó. Chính vì vậy, mỗi URL sẽ được sử dụng một dòng Disallow riêng biệt.

Giả sử bạn muốn chặn tất cả các công cụ tìm kiếm thu thập dữ liệu trang web của bạn, câu lệnh cần nhập sẽ là:

User-agent: *
Disallow: /

Allow (chỉ áp dụng cho Google, Bing)

Câu lệnh được sử dụng để thông báo cho các công cụ tìm kiếm có thể thu thập dữ liệu một hoặc nhiều thư mục con.

Ví dụ bạn muốn cho phép tất cả các công cụ tìm kiếm thu thập dữ liệu toàn bộ trang web của bạn, câu lệnh cần nhập:

User-agent: *
Allow: /

Ngược lại, nếu bạn muốn ngăn Googlebot truy cập mọi bài đăng trên blog của mình ngoại trừ một bài đăng, thì câu lệnh sẽ như sau:

User-agent: Googlebot
Disallow: /blog
Allow: /blog/example-post

Crawl – delay

Cú pháp này nhằm đưa ra thông báo cho các Web Crawler khoảng thời gian cần phải đợi trước khi tải và thu thập dữ liệu. Lưu ý, Googlebot thường sẽ không nhận lệnh này, do đó bạn cần phải cài đặt tốc độ thu thập dữ liệu trong Google Search Console.

Giả sử bạn muốn trình thu thập thông tin đợi 15 giây sau mỗi hành động thu thập thông tin. Đặt độ trễ thành 15, như sau:

User-agent: *
Crawl-delay: 15

Sitemap

Đây là câu lệnh cung cấp các vị trí của bất kỳ một Sitemap XML nào đến với liên kết URL này. Thông tin về lệnh này được hỗ trợ bởi Google, Ask, Bing và Yahoo nên người dùng có thể cân nhắc thêm các thuộc tính liên quan.

Cú pháp khai báo Sitemap trong tệp robots.txt trên website Pima Digital

Một số quy tắc khi sử dụng file robots.txt

Sử dụng dòng mới cho mỗi lệnh

Mỗi lệnh nên nằm trên một dòng mới. Nếu không, công cụ tìm kiếm sẽ không thể đọc chúng và nội dung hướng dẫn của bạn sẽ bị bỏ qua.

Trường hợp viết sai

User-agent: * Disallow: /admin/
Disallow: /directory/

Trường hợp viết đúng

User-agent: *
Disallow: /admin/
Disallow: /directory/

Sử dụng mỗi User-agent một lần

Bot vẫn sẽ hoạt động bình thường nếu bạn nhập cùng một User-agent nhiều lần nhưng việc sử dụng nó 1 lần sẽ giúp mọi thứ đơn giản hơn, giảm khả năng xảy ra lỗi.

Trường hợp viết sai

User-agent: Googlebot
Disallow: /example-page
User-agent: Googlebot
Disallow: /example-page-2

Trường hợp viết đúng

User-agent: Googlebot
Disallow: /example-page
Disallow: /example-page-2

Sử dụng ký tự đại diện (*) để làm rõ điều hướng

Bạn có thể sử dụng ký tự đại diện (*) để áp dụng lệnh cho tất cả User-agent và khớp với mẫu URL. Chẳng hạn để ngăn công cụ tìm kiếm truy cập các URL có tham số hoặc thông tin nào đó, về mặt kỹ thuật, bạn có thể liệt kê từng thông tin một. Tuy nhiên điều đó không hiệu quả và bạn có thể đơn giản hóa điều hướng của mình bằng ký tự đại diện.

Trường hợp không hiệu quả

User-agent: *
Disallow: /badminton/shoes?
Disallow: /badminton/racket?
Disallow: /badminton/skin?

Trường hợp hiệu quả

User-agent: *
Disallow: /badminton/*?

Sử dụng “$” để cho biết sự kết thúc của URL

Việc thêm “$” cho biết sự kết thúc của URL. Chẳng hạn nếu bạn muốn chặn công cụ tìm kiếm thu thập dữ liệu tất cả các tệp .jpg trên trang web của mình, bạn có thể liệt kê chúng riêng lẻ nhưng điều đó sẽ hoạt động không hiệu quả.

Trường hợp viết sai

User-agent: *
Disallow: /picture-a.jpg
Disallow: /picture-b.jpg
Disallow: /picture-c.jpg

Trường hợp viết đúng

User-agent: *
Disallow: /*.jpg$

Biểu tượng “$” là một tính năng hữu ích trong các trường hợp cụ thể như trường hợp trên. Tuy nhiên hãy thận trọng khi áp dụng nó vì bạn dễ dàng bỏ qua những thông tin một cách vô tình.

Sử dụng Hash (#) để thêm nhận xét

Trình thu thập thông tin thường sẽ bỏ qua mọi thứ bắt đầu bằng Hash (#). Vì vậy, các nhà phát triển thường sử dụng Hash để thêm nhận xét vào tệp robots.txt, giúp giữ cho tập tin theo một cấu trúc và dễ đọc.

User-agent: *
#Landing Pages
Disallow: /landing/
Disallow: /lp/
#Files
Disallow: /files/
Disallow: /private-files/
#Websites
Allow: /website/*
Disallow: /website/search/*

Sử dụng các tệp robots.txt riêng biệt cho các tên miền phụ khác nhau

Để kiểm soát việc thu thập thông tin trên một tên miền phụ khác, bạn sẽ cần một tệp robots txt riêng. Vì vậy, nếu trang web chính của bạn nằm trên domain.com và blog của bạn nằm trên tên miền phụ admin.domain.com thì bạn sẽ cần hai tệp robots txt. Đơn giản một cho thư mục gốc của tên miền chính và một cho thư mục gốc của blog của bạn.

Hướng dẫn tạo file robots txt chuẩn cho WordPress

Sử dụng Yoast SEO

Người dùng có thể chỉnh sửa hoặc tạo file robots.txt cho WordPress trên chính WordPress Dashboard bằng vài bước đơn giản. Đầu tiên, tiến hành đăng nhập vào website của bạn, ở góc trái màn hình, bạn nhấn vào Yoast SEO -> Tools -> File Editor, sau đó cấu hình file robots và mục .htaccess file (nếu cần).

Tính năng File Editor sẽ không hiển thị nếu WordPress của bạn vẫn chưa được kích hoạt trình quản lý File. Do đó, bạn hãy kích hoạt thông qua File Transfer Protocol (FTP – Giao thức truyền tập tin). Lúc này, bạn sẽ thấy mục robots.txt và .htaccess file – nơi giúp bạn tạo dữ liệu khai báo cấu trúc website.

Cách tạo bằng Plugin Yoast SEO

Cấu hình, chỉnh sửa tệp robots.txt

Qua bộ Plugin All in One SEO

Cách thứ 2 để tạo file Robot một cách nhanh chóng là bạn có thể sử dụng bộ Plugin All in One SEO. Theo như các SEOer đánh giá thì đây cũng được xem như một plugin tiện ích cho WordPress do tính đơn giản và dễ tiếp cận.

Để tạo file robots txt WordPress, bạn phải đến giao diện chính của Plugin All in One SEO Pack. Click chọn All in One SEO -> Features Manager -> Nhấp Active cho mục robots.txt.

Kích hoạt tệp robots đuôi .txt trên Plugin All in One SEO

Khi đó, giao diện mới xuất hiện, bạn có thể tạo lập cũng như điều chỉnh file robots.txt WordPress tại đây.

Thêm, chỉnh sửa file trực tiếp trên WordPress

Tuy nhiên, bộ plugin này có một vài điểm khác biệt so với Yoast SEO vừa đề cập ở trên. Chẳng hạn như All in One SEO làm mờ đi thông tin của file robots txt thay vì người dùng được chỉnh sửa file như công cụ Yoast SEO. Điều này có thể khiến bạn rơi vào tình trạng bị động một chút khi chỉnh sửa trên WordPress. Tuy nhiên, yếu tố này sẽ giúp bạn hạn chế thiệt hại cho website của mình, đặc biệt một số Malware bots (các phần mềm mã độc) sẽ gây hại cho website của bạn.

Tạo và upload file robots.txt qua FTP

Nếu như chủ website không muốn sử dụng plugin thì vẫn có thể tự tạo file robots txt chuẩn bằng cách thủ công cho WordPress của mình. Thao tác này chỉ mất vài phút, bạn sẽ dùng Notepad hoặc Textedit để tạo mẫu file robots.txt WordPress sau đó upload file này qua FTP mà không cần sử dụng Plugin.

Tạo file trên Notepad hoặc Textedit sau đó upload qua FTP

Một số lưu ý khi tạo tệp robots txt

Để điều hướng khả năng được các con bot tìm thấy thì các file robots đuôi .txt WordPress phải được đặt trong các thư mục cấp cao nhất của trang web.
File đuôi txt phân biệt chữ hoa và chữ thường. Do vậy, tệp phải được đặt tên là robots.txt (không đặt Robots.txt hay robots.TXT…), nếu không sẽ dễ bị sai lệnh.
Không nên đặt /wp-content/themes/ hay /wp-content/plugins/ vào mục Disallow. Nó có khả năng gây trở ngại cho các công cụ nhìn nhận chính xác về giao diện blog hay website.
Các tệp robots txt thường có sẵn và được công khai trên web nên người dùng chỉ cần thêm /robots.txt/ vào cuối bất kì Root Domain để xem các thông tin của trang web đó. Điều này có nghĩa là bất kì ai cũng thấy các trang hiển thị nên không nên sử dụng các tệp này để ẩn thông tin cá nhân của người dùng.
Mỗi Subdomain trên một một Root Domain sẽ sử dụng các file robots.txt riêng biệt nên nếu cần thiết, bạn có thể chỉ ra vị trí của bất kì sitemap nào được liên kết với domain ở cuối tệp này và kiểm tra các thông tin từ đó.

Lưu ý khi tạo tệp cần chuẩn cú pháp để kiểm soát được kết quả hiển thị trên website

Robots.txt so với Meta robots và X-robots

Robots.txt được biết đến là một tệp văn bản thực, trong khi Meta và X-robot là các Meta Directives. Cả ba đều có nhiệm vụ và chức năng khác nhau.

Robots txt kiểm soát hành vi thu thập dữ liệu trên toàn bộ trang web hoặc thư mục cụ thể.

Meta robots là các đoạn mã HTML được thêm vào phần <head> của từng trang web riêng lẻ để hướng dẫn cho trình thu thập thông tin về cách lập chỉ mục và hiển thị nội dung trang web đó.

Thẻ Meta robots trong mã HTML của trang web

Trong khi đó, X-robots là một phần của tiêu đề HTTP/HTTPs được gửi từ máy chủ web và không được đặt trong HTML của một trang. Nó được sử dụng để kiểm soát việc lập chỉ mục các loại tài nguyên, tệp cụ thể như: hình ảnh, video…

Thẻ X-robots-tag trong tiêu đề HTTP/HTTPs của máy chủ

Hy vọng với những thông tin mà Pima Digital chia sẻ trên đây về chủ đề robots txt cũng như một số cách tạo file robots.txt chuẩn, sẽ giúp bạn có thêm kiến thức trong việc xây dựng website của mình. Nếu bạn quan tâm về các bài viết liên quan, vui lòng liên hệ chúng tôi theo thông tin:

PIMA DIGITAL – CÔNG TY SEO UY TÍN, CHUYÊN NGHIỆP

Địa chỉ: Tầng 3, NCC Office, 139/37-39 Nguyễn Văn Lượng, Phường 10, Gò Vấp, TP.HCM
Hotline: 0973.463.486
Email: info@pimadigital.vn
Website: https://pimadigital.vn/

Hoàng Thanh Hùng

Với hơn 7 năm kinh nghiệm triển khai Marketing tổng thể từ Agency đến Inhouse, tôi hiểu rõ đâu là điểm yếu trong cách truyền thông đang gây lãng phí nguồn lực của doanh nghiệp. Vì vậy, tôi xây dựng Pima Digital với mục tiêu cùng đồng hành với SMEs, mang đến giải pháp Marketing tinh gọn nhất giúp phủ sóng thương hiệu rộng rãi và gia tăng chuyển đổi bán hàng cho doanh nghiệp.

Nguyên tắc biên tập và kiểm duyệt nội dung tại Pima Digital

Facebook Twitter Pinterest Linkedin

Bài viết này hữu ích với bạn?

5/5 - (1 bình chọn)

Bình Luận Của Bạn Hủy Bình Luận

Kết nối ngay với Pima Digital

Đội ngũ chuyên gia của chúng tôi luôn sẵn sàng lắng nghe và mang đến giải pháp tối ưu nhất cho mục tiêu kinh doanh của bạn.

Hotline0973 463 486

Emailinfo@pimadigital.vn

Robots txt là gì? Cách tạo Robots.txt cho WordPress chuẩn SEO

File robots txt là gì?

Tại sao nên sử dụng tệp robots txt?

File robots txt hoạt động như thế nào?

Cách tìm tệp robots.txt trên website

Những cú pháp của file robots txt chuẩn

User-agent

Disallow

Allow (chỉ áp dụng cho Google, Bing)

Crawl – delay

Sitemap

Một số quy tắc khi sử dụng file robots.txt

Sử dụng dòng mới cho mỗi lệnh

Sử dụng mỗi User-agent một lần

Sử dụng ký tự đại diện (*) để làm rõ điều hướng

Sử dụng “$” để cho biết sự kết thúc của URL

Sử dụng Hash (#) để thêm nhận xét

Sử dụng các tệp robots.txt riêng biệt cho các tên miền phụ khác nhau

Hướng dẫn tạo file robots txt chuẩn cho WordPress

Sử dụng Yoast SEO

Qua bộ Plugin All in One SEO

Tạo và upload file robots.txt qua FTP

Một số lưu ý khi tạo tệp robots txt

Robots.txt so với Meta robots và X-robots

HTTP là gì? Giao thức HTTP và HTTPS khác nhau như thế nào?

Textlink là gì? Cách sử dụng an toàn, hiệu quả trong SEO

Domain Authority là gì? 9 bước tăng điểm DA an toàn cho website

DDoS là gì? Cách nhận biết, ngăn chặn và xử lý tấn công DDoS

Thẻ Meta là gì? 9 loại thẻ Meta quan trọng nhất trong SEO

Kết nối ngay với Pima Digital