Robots.txt Là Gì? Cách Sử Dụng Robots.txt Cho Người Mới Bắt Đầu

Cách tạo Robots.txt đơn giản, hiệu quả

Robots.txt là một “vũ khí đắc lực” giúp bạn quản lý trang Web của bạn hiệu quả hơn. Nếu như bạn sở hữu một trang Web thì việc tạo lập tệp Robots.txt là điều vô cùng cần thiết. 

Vậy Robots.txt là gì? Làm thế nào để sử dụng nó hiệu quả cho người mới bắt đầu. Bài viết dưới đây sẽ giúp bạn giải đáp thắc mắc này và mang tới cho bạn những kiến thức bổ ích về cách thức quản lý Website hiệu quả.

Robots.txt là gì?

Robots.txt là một tệp thông báo cho trình thu thập thông tin của công cụ tìm kiếm không thu thập dữ liệu của những trang hay phần nhất định trên một Website. Hiện nay, hầu hết những công cụ tìm kiếm lớn như Google, Yahoo, Bing,… đều nhận ra và tôn trọng những yêu cầu Robots.txt.

[caption id="attachment_10459" align="aligncenter" width="700"]Robots.txt là một phần quan trọng  trong quá trình quản lý Web Robots.txt là một phần quan trọng  trong quá trình quản lý Web[/caption]

Tại sao Robots.txt quan trọng? 

Thực tế là hầu hết những trang Web đều không cần tới tệp Robots.txt. Đó là bởi vì Google thường có thể tìm và lập chỉ mục cho tất cả những trang quan trọng tồn tại trên Website của bạn. 

Đồng thời họ sẽ tự động không lập chỉ mục cho những trang không thực sự quan trọng. Hay những phiên bản trùng lặp của những trang khác trên Website của bạn.

Những điều này đã nói lên 3 lý do chính để bạn nên sử dụng tệp Robots.txt:

Chặn những trang không công khai

Trong nhiều trường hợp, bạn sẽ có những trang trên Website của mình mà bạn không mong muốn chúng được lập chỉ mục.

Ví dụ: Bạn có thể có phiên bản theo từng giai đoạn của một trang hay một trang đăng nhập bất kỳ. Những trang này bắt buộc phải tồn tại. Tuy nhiên, bạn không muốn khách hàng hoặc bất kỳ ai có thể nhìn thấy chúng.

Đây chính là lúc bạn cần tới Robots.txt để chặn những trang này khỏi trình thu thập thông tin và những chương trình của công cụ tìm kiếm.

Tối đa hóa ngân sách thu thập thông tin

Chẳng hạn: Bạn đang gặp khó khăn trong việc tiến hành lập chỉ mục cho tất cả những trang của mình, hay bạn đang gặp vấn đề liên quan tới ngân sách thu thập thông tin.

[caption id="attachment_10460" align="aligncenter" width="700"]Robots.txt  giúp nhà quản trị Web tối đa hóa nguồn ngân sách để thu thập thông tin Robots.txt  giúp nhà quản trị Web tối đa hóa nguồn ngân sách để thu thập thông tin[/caption]

Khi ấy, bằng cách chặn những trang không quan trọng thông qua Robots.txt, Googlebot có thể chi tiêu nhiều ngân sách thu thập thông tin của bạn cho trên những trang thực sự quan trọng.

Ngăn lập chỉ mục tài nguyên

Dùng chỉ thị Meta có thể hoạt động tương tự như Robots.txt để ngăn những trang được lập chỉ mục. Thế nhưng, chỉ thị Meta lại tồn tại một nhược điểm đáng chú ý đó là nó không hoạt động cho tài nguyên đa phương tiện, ví dụ như hình ảnh và PDF. Đây chính là lúc Robots.txt cho thấy giá trị hữu ích của mình.

Điểm quan trọng là gì? Mình nhắc lại: Robots.txt yêu cầu trình thu thập thông tin của công cụ tìm kiếm không thu thập dữ liệu những trang cụ thể trên Website của bạn.

Vì vậy, bạn có thể kiểm tra xem bạn đã lập được bao nhiêu chỉ mục bằng cách đơn giản là tra cứu trong Google Search Console. Nếu như thông số đó khớp với số trang mà bạn muốn lập chỉ mục thì bạn không cần phải bận tâm tới tệp Robots.txt.

Nhưng nếu như những con số đó cao hơn so với bạn mong đợi (và bạn nhận thấy những URL được lập chỉ mục đáng lẽ không nên được lập) thì hãy tạo tệp Robots.txt cho Website của bạn.

Cách sử dụng Robots.txt

Để sử dụng Robots.txt hiệu quả thì không thể thiếu những bước sau:

[caption id="attachment_10475" align="aligncenter" width="700"]Cách tạo Robots.txt đơn giản, hiệu quả Cách tạo Robots.txt đơn giản, hiệu quả[/caption]

Tạo tệp Robots.txt

Bước đầu tiên bạn cần làm khá đơn giản, hãy tạo tệp Robots.txt cho bạn. Nó là một tệp văn bản, mình nghĩ bạn có thể tạo dựng chúng bằng cách sử dụng Windows Notepad. Và cho dù cuối cùng bạn có tạo dựng tệp Robots.txt bằng cách nào thì định dạng cuối cùng sẽ hoàn toàn giống nhau như sau:

  • Tác nhân người dùng: X.
  • Không cho phép: Y.

Tác nhân người dùng ở đây chính là Bot cụ thể mà bạn đang nói chuyện. Và những thứ xuất hiện ở sau “Disallow” sẽ là những trang hay phần mềm mà bạn muốn chặn.

Để dễ hình dung, mình có một ví dụ đơn giản như sau:

  • Tác nhân người dùng: Googlebot.
  • Disallow:/ images.

Quy tắc này sẽ yêu cầu Googlebot không lập chỉ mục thư mục hình ảnh trên Website của bạn. Và bạn cũng có thể sử dụng dấu hoa thị (*) để nói chuyện với bất kỳ đối tượng này hay tất cả những Bot ghé thăm Website của bạn.

Một ví dụ khác:

  • Tác nhân người dùng: *.
  • Disallow:/ image.

Dấu (*) ở đây biểu thị cho bất kỳ và tất cả những trình thu thập thông tin không thu thập dữ liệu thư mục hình ảnh của bạn.

Đây chỉ là một trong những cách đơn giản để bạn sử dụng Robots.txt. Và hướng dẫn hữu ích này của Google còn có thêm những thông tin về những quy tắc khác nhau mà bạn có thể dùng để chặn hoặc cho phép Bot thu thập dữ liệu những trang khác nhau trên Website của bạn.

Làm cho tệp Robots.txt của bạn dễ tìm

Sau khi bạn đã có tệp Robots.txt của mình, giờ đây, điều bạn cần làm là khi nào hoạt động ổn định.

[caption id="attachment_10462" align="aligncenter" width="700"]Đặt tệp Robots.txt ở vị trí dễ tìm Đặt tệp Robots.txt ở vị trí dễ tìm[/caption]

Về mặt kỹ thuật, bạn có thể đặt tệp Robots.txt của mình vào bất kỳ thư mục chính nào trên trang Web của bạn. Nhưng để tăng khả năng tìm thấy tệp Robots.txt của bạn, mình khuyên bạn nên đặt nó tại: https://example.com/robots.txt.

Chú ý: Tệp Robots.txt của bạn cần phải phân biệt chữ hoa và chữ thường. Chính vì vậy, hãy đảm bảo sử dụng chữ thường “r” trong tên tệp.

Kiểm tra lỗi và sai lầm

Một trong những điều quan trọng nhất chính là tệp Robots.txt của bạn cần phải được thiết lập một cách chính xác. Chỉ cần một sai lầm thì toàn bộ trang Web của bạn đều có thể bị lập chỉ mục.

[caption id="attachment_10463" align="aligncenter" width="700"]Thiết lập Robots.txt chính xác nếu không tất cả những trang Web của bạn đều có thể bị lập chỉ mục Thiết lập Robots.txt chính xác nếu không tất cả những trang Web của bạn đều có thể bị lập chỉ mục[/caption]

May mắn thay, bạn không cần phải tốn quá nhiều công sức để mã của bạn được thiết lập đúng. Bởi vì Google có một công cụ kiểm tra Robot tiện lợi mà bạn có thể sử dụng để kiểm tra xem tệp Robots.txt của bạn có bất kỳ lỗi lầm nào không và nó sẽ báo cho bạn khi tìm thấy.

So sánh Robots.txt và Meta Directives

Tại sao bạn cần phải sử dụng Robots.txt trong khi bạn có thể chặn những trang ở cấp độ trang bằng những Thẻ meta “Noindex”? Tương tự như những điều mình đã từng đề cập trước đó, thẻ Noindex rất khó triển khai trên những tài nguyên đa phương tiện, như video và PDF.

Bên cạnh đó, nếu như bạn có hàng nghìn trang mà bạn muốn chặn. Đôi khi sẽ dễ dàng hơn để chặn toàn bộ những phần trên Website đó bằng Robots.txt thay vì thêm thẻ Noindex vào từng trang theo cách thủ công.

Ngoài ra, trong những trường hợp phức tạp mà bạn không muốn lãng phí bất kỳ ngân sách thu thập thông tin nào trên Google đến những trang có thẻ Noindex.  Mình khuyên bạn nên sử dụng chỉ thị Meta thay vì Robots.txt. Bởi chúng để thực hiện hơn và cũng ít gây nên những thảm họa đe dọa Website của bạn hơn.

Kết luận

Giờ đây, bạn hãy kiểm tra xem trang Web của mình đã được thiết lập Robots.txt hay chưa. Sau đó, hãy tạo lập và chỉnh sửa file Robots.txt WordPress hợp lý để hỗ trợ Bot của những công cụ tìm kiếm có thể thu thập dữ liệu trên trang Web của bạn một cách nhanh chóng. Chúc các bạn thành công!