Tin tức hoạt động và xu hướng sử dụng phần mềm, tính năng phần mềm được Bắc Việt cập nhật liên tục
Làm sao một Robot của công cụ tìm kiếm có thể phân tích một Website để Index trong SEO? Muốn Googlebot nhanh Index trang Web của bạn hay không Index một trang cụ thể thì làm thế nào? Hãy cùng BẮC VIỆT tìm hiểu File Robots.txt là gì, tại sao cần nó, làm thế nào để SEO tối ưu hóa nó và làm thế nào để kiểm tra rằng các công cụ tìm kiếm.
Robots.txt là một file văn bản dùng để khai báo cho trình thu thập dữ liệu (crawler) những nơi được thu thập những dữ liệu nào trong website.
Robot.txt là một trong những điều đầu tiên bạn cần phải kiểm tra và tối ưu hóa khi tối ưu kỹ thuật SEO. Bất kì Sự cố hoặc cấu hình sai trong File robots.txt của bạn có thể gây ra các vấn đề SEO quan trọng có thể tác động tiêu cực đến thứ hạng và lượng truy cập của bạn.
Nó được dùng để cấp quyền lập chỉ mục cho con bọ của công cụ tìm kiếm. Bất kể một trang web nào thì cũng nên sử dụng file robot.txt đặc biệt là trang web lớn hoặc đang xây dựng.
Thông thường, một website sẽ được tạo bởi nhiều thư mục khác nhau: thư mục chứa ảnh, thư mục quản lý database… Chỉ một vài thư mục là sẽ được xuất hiện cho người dùng thấy, mỗi khi họ truy cập vào website, và cũng chỉ một vài thư mục nên được Google đọc (vì khi Google đọc nhiều quá nó sẽ bị loạn, dẫn đến tình trạng quét các dữ liệu không cần thiết).
Robots.txt sinh ra có nhiệm vụ giúp bọ Google đọc dữ liệu ĐÚNG NƠI – ĐÚNG CHỖ và giúp bọ Google tập trung vào những nội dung cần thiết.
Tham khảo thêm bài viết: Index là gì? Những cách giúp Google index Website nhanh hơn
Trong quá trình thiết kế cấu trúc website thì mọi thứ còn chưa được đẹp và như ý muốn. Chính vì thế mà cần chặn bọ của Google. Để nó không index những nội dung chưa được hoàn thiện mà bạn không mong muốn.
Bạn chỉ sử dụng công dụng robots.txt trong quá trình thiết lập hệ thống. Nếu như trang web đang hoạt động ổn định, thì đừng chèn mã trên vào file robots.txt. Bởi khi đó, bài viết của bạn sẽ không thể nào xuất hiện trên trang kết quả tìm kiếm.
Sitemap giống như là một tấm bản đồ để cho Google khám phá về trang web của bạn. Nếu như số lượng bài viết được index của trang web quá lớn mà trang web không có sitemap thì Google có thể sẽ không đủ tài nguyên để index hết toàn bộ. Từ đó, một số nội dung quan trọng bạn muốn được hiển thị sẽ không xuất hiện.
Hiện tại thì có ba công cụ quét backlink phổ biến nhất. Đó chính là Ahrefs, Majestic và Moz. Mỗi phần mềm này lại được trang bị chức năng để quét backlink của bất cứ một website nào. Lúc này công dụng robots.txt sẽ ngăn chặn điều này. Để không cho đối thủ phân tích backlink của bạn.
Ngoài những phần mềm có thể kiểm tra backlink đối thủ còn một số loại phần mềm độc hại khác. Có những con bọ được thiết kế riêng để đi sao chép nội dung người khác. Hoặc những con bọ gửi quá nhiều, quá nhanh request tới máy chủ của bạn. Từ đó làm cho hao phí băng thông và tài nguyên trên hệ thống của bạn.
Những mã nguồn mở của trang web thường sẽ có thư mục cần được bảo mật. Chẳng hạn như wp-admin, wp-includes, phpinfo.php, cgi-bin, memcache….
Chắc chắn rằng những trang web này không được phép index. Bởi khi nội dung bị công khai trên internet, các hacker có thể lấy cắp thông tin hoặc tấn công vào hệ thống của bạn. Do đó công dụng robots.txt sẽ ngăn chặn việc Google index nội dung này.
Những trang web thương mại điện tử thường sẽ có một số tính năng đặc thù riêng cho người dùng. Chẳng hạn như đăng ký, đăng nhập, giỏ hàng, đánh giá sản phẩm,… Những chức năng chắc chắn không thể thiếu với người dùng. Họ sẽ thường tạo ra những nội dung bị trùng lặp trong SEO. Những nội dung này cũng không có liên quan gì để hỗ trợ cho việc SEO từ khóa. Do đó, bạn có thể chặn index các đường dẫn này bằng công dụng robots.txt.
Việc thiết lập file robots.txt đóng một vai trò quan trọng trong bảo vệ trang web. Hãy liên hệ với những người thiết kế web để tìm đúng cú pháp sử dụng file robots.txt.
Tạo và upload file robots.txt trực tiếp lên hosting.
Cách tạo file txt khá đơn giản, bạn chỉ cần mở notepad trên máy tính và lưu file với tên “robots.txt” là ok.
Sau đó, bạn nhập đoạn mã robots chuẩn, theo ý mình và lưu lại. Ở đây tôi sẽ tạo sẵn 1 file cho bạn về chỉnh sửa lại cho nhanh.
https://drive.google.com/file/d/1EE7MjymVueyZsCCTm7d2Z0jfbHyxQfny/view?usp=sharing
Mình nghĩ đa số những bạn dùng cách upload trực tiếp này, một là IT lập trình website, hai là các bạn tự mò mẫm làm website nên các bạn sẽ có quyền truy cập vào trang quản trị hosting/server. Hiện nay, các nhà cung cấp hosting đã tạo ra giao diện quản trị hosting rất trực quan nên việc chèn file vào thư mục website đơn giản đi rất nhiều.
Bạn hãy upload lên file thư mục gốc của website public_html là thành công.
Nếu bạn vẫn chưa rõ, và hosting của bạn đang sử dụng Cpanel thì hãy xem các hình sau
Khi file chuẩn robots.txt đã được tạo và upload thành công, bạn có thể dùng Google Search Console để kiểm tra thử nó xem có lỗi không.
Để sử dụng, bạn đăng nhập vào Google Search Console: https://search.google.com/search-console/about?hl=vi
Sau đó bấm vào link sau:
https://www.google.com/webmasters/tools/robots-testing-tool
Chọn trang web cần kiểm tra robots.txt
Sau đó nhập đường dẫn muốn kiểm tra vao ô như hình và bấm KIỂM TRA
Nếu báo chặn là robots.txt của bạn đã hoạt động chặn link đó.
Nếu website không có file này thì các công cụ tìm kiếm sẽ đi thu thập tất cả nội dung bên trong trang web. Tùy vào từng trường hợp mà bạn nên biết cách sử dụng robots.txt để đạt mục đích quản trị cũng như tối ưu hóa với các công cụ tìm kiếm.
Quá trình xây dựng và hoàn thiện một website có thể phải mất nhiều ngày. Thậm chí với những website phức tạp thì cần nhiều thời gian hơn nữa. Trong quá trình xây dựng này, khi bạn đưa nội dung lên để chạy thử và chỉnh sửa thì chắc chắn không muốn được công cụ tìm kiếm index. Bởi những trang đang dở dang không có lợi về mặt SEO.
Khi đó, bạn nên chặn tất cả các bot của công cụ tìm kiếm để không cho vào tất cả các nội dung của trang web. Sau đó, trang web đã hoàn thiện thì bạn sẽ sửa lại cách sử dụng robot.txt để cho phép SE vào từng phần hoặc tất cả nội dung theo ý muốn.
Khi sử dụng công cụ Search nhúng trong web của bạn thì trang kết quả sẽ có một URL riêng. Tất nhiên Google cũng có thể sẽ index những trang đó. Điều nguy hiểm nhất đó chính là đối thủ có thể lợi dụng tính năng này để cố tình search những từ khóa có nội dung xấu. Nhằm gây hại cho danh tiếng của website. Vì vậy nên chặn toàn bộ trang kết quả, không cho các SE index và đánh giá nội dung.
Những công cụ như Ahref đều có một con bọ riêng để thu thập thông tin về website. Những thông tin đó bao gồm: Backlink, Referring domains, Organic keywords, Top pages… Đối thủ sử dụng công cụ này để phân tích website của bạn. Để ngăn chặn điều này thì bạn cần biết cách sử dụng robots.txt để chặn những con bot này bằng cách đặt đoạn mã trong file robot.txt.
Bạn hãy kiểm tra xem website của mình đã có file robots.txt hay chưa nhé. Tạo lập và chỉnh sửa file robots.txt theo ý của bạn nhằm hỗ trợ các con bot của công cụ tìm kiếm thu thập dữ liệu và index trang web của bạn nhanh chóng.
Nếu sau khi đọc xong bài viết chi tiết này mà bạn vẫn cảm thấy khó hiểu, bạn để lại bình luận bên dưới bài nhé!