Google Index là gì? Liệu chúng ta đã thực sự hiểu hết về các ý nghĩa của Google Index? Có những bí kíp nào để giúp website cải thiện được tốc độ index? Đây đều là những câu hỏi mà chắc chắn Super Seo-er nào cũng gặp trong suốt quá trình làm việc của mình. Hãy cùng ‘tui’ đi giải đáp những thắc mắc đó nào!

Google Index là gì?

Google Index là cơ sở dữ liệu của tất cả các website mà công cụ tìm kiếm đã thu thập dữ liệu và lưu trữ để sử dụng trong kết quả tìm kiếm.

Mỗi trang xuất hiện trong kết quả tìm kiếm của Google phải được lập chỉ mục trước đó. 

Vì vậy, nếu trang của bạn không được lập chỉ mục, nó sẽ không hiển thị trong kết quả tìm kiếm.

Các Google thực hiện quá trình lập chỉ mục cho trang web của bạn:

  • Thu thập dữ liệu: Googlebot thu thập dữ liệu trang web và tìm kiếm các trang mới hoặc cập nhật.
  • Lập chỉ mục: Google phân tích các trang và lưu trữ chúng trong cơ sở dữ liệu khổng lồ.
  • Xếp hạng: Thuật toán của Google chọn các trang tốt nhất và có liên quan nhất từ ​​chỉ mục của nó và hiển thị chúng dưới dạng kết quả tìm kiếm.

how search engines work

Cách kiểm tra website của bạn đã được lập chỉ mục hay chưa?

Một cách dễ dàng tìm hiểu xem trang web của bạn đã được lập chỉ mục hay chưa đó là tìm kiếm theo cú pháp “site:”. 

Đây là cách kiểm tra:

  1. Search Google
  2. Trong thanh tìm kiếm, nhập toán tử tìm kiếm “site:”, theo sau là tên miền của bạn (ví dụ: site:yourdomain.com )
  3. Khi nhìn vào bên dưới thanh tìm kiếm, bạn sẽ thấy ước tính có bao nhiêu trang của bạn được Google lập chỉ mục
  • Nếu không có kết quả nào hiển thị, trang đó không được lập chỉ mục.

indexed pages no results example

  • Nếu có các trang được lập chỉ mục, Google sẽ hiển thị chúng dưới dạng kết quả tìm kiếm.

google results indexed pages

Đó là cách bạn kiểm tra nhanh chóng nhất nhưng đó chưa phải là cách mang lại hiệu quả nhất.

Chỉ cho bạn một cách khác (phức tạp hơn) để kiểm tra xem Google đã lập chỉ mục trang web của bạn hay chưa là sử dụng Google Search Console.

Google Search Console sẽ giúp website của bạn được lập chỉ mục

Nếu bạn có một trang web mới, Google có thể mất một thời gian để lập chỉ mục cho trang web đó. Quá trình thu thập dữ liệu có thể mất từ ​​vài ngày đến vài tuần . (Việc lập chỉ mục thường diễn ra ngay sau đó nhưng không được đảm bảo.)

Vì vậy, lập chỉ mục có thể mất thời gian. Tuy nhiên, bạn có thể tăng tốc quá trình. 

Cách dễ nhất là yêu cầu lập chỉ mục trong Google Search Console.

Google Search Console (GSC) là bộ công cụ miễn phí của Google cho phép bạn kiểm tra sự hiện diện của trang web trên Google và khắc phục mọi sự cố liên quan.

Tạo và gửi Sơ đồ trang web

Sơ đồ trang web XML là một tệp liệt kê tất cả các URL bạn muốn Google lập chỉ mục. 

sitemap xml example

Nó cho Google biết rằng những trang này rất quan trọng. Điều này giúp trình thu thập thông tin tìm thấy các trang chính của bạn nhanh hơn.

Bạn có thể sẽ tìm thấy sơ đồ trang web của mình trên URL này:

https://yourdomain.com/sitemap.xml

Sau khi bạn có URL của sơ đồ trang web của mình, hãy chuyển đến bảng “Sitemaps” trong GSC. Bạn sẽ tìm thấy nó trong phần “Indexing” ở menu bên trái. 

Nhập URL của sơ đồ trang web của bạn và nhấn “Submit”.

google search console sitemaps

Có thể mất vài ngày để sơ đồ trang web của bạn được xử lý. Khi hoàn tất, bạn sẽ thấy liên kết đến sơ đồ trang web của mình và trạng thái “Thành công” màu xanh lục trong báo cáo. 

google search console sitemap success

Gửi sơ đồ trang web có thể giúp Google khám phá tất cả các trang mà bạn cho là quan trọng. Và có thể tăng tốc quá trình lập chỉ mục cho chúng.

Sử dụng Công cụ kiểm tra URL

Để kiểm tra trạng thái của một URL cụ thể, hãy sử dụng công cụ kiểm tra URL trong GSC. 

Bắt đầu bằng cách nhập URL vào thanh tìm kiếm “Kiểm tra URL” ở trên cùng.

google search console url inspection tool

Nếu bạn thấy trạng thái “URL có trên Google”, điều đó có nghĩa là URL được kiểm tra đã được Google thu thập dữ liệu và lập chỉ mục. 

url inspection page indexed

Bạn có thể kiểm tra chi tiết để xem nó được thu thập thông tin lần cuối khi nào, cũng như các thông tin hữu ích khác.

google search console helpful info

Nếu trường hợp này xảy ra, thì bạn đã sẵn sàng và không phải làm gì cả. 

Nhưng nếu bạn thấy trạng thái “URL không có trên Google”/“URL is not on Google”, điều đó có nghĩa là URL được kiểm tra không được lập chỉ mục và không thể xuất hiện trong kết quả tìm kiếm của Google. 

google search console url not indexed

Có thể bạn sẽ thấy lý do tại sao trang chưa được lập chỉ mục. Và bạn sẽ cần giải quyết vấn đề (xem phần tiếp theo).

Khi đã xong, bạn có thể yêu cầu lập chỉ mục bằng cách nhấp vào liên kết “ Yêu cầu lập chỉ mục ”.

google search console request indexing button

Lưu ý : Nếu URL được kiểm tra là tương đối mới, thì có thể đơn giản là Google chưa phát hiện ra nó. Bằng cách nhấp vào “Yêu cầu lập chỉ mục”, bạn có thể tăng tốc quá trình.

Cách tìm và khắc phục sự cố lập chỉ mục

Đôi khi, có thể có vấn đề sâu hơn với SEO kỹ thuật trang web của bạn. Vì vậy, có khả năng trang web của bạn (hoặc một trang cụ thể) sẽ không được lập chỉ mục ngay cả khi bạn yêu cầu.

Điều này có thể xảy ra nếu trang web của bạn không thân thiện với thiết bị di động, trang web của bạn tải quá chậm, có vấn đề về chuyển hướng, v.v.

Thực hiện kiểm toán SEO kỹ thuật để tìm các vấn đề cơ bản có thể ngăn trang web của bạn được lập chỉ mục. 

Bạn có thể sử dụng công cụ kiểm tra như Semrush’s Site Audit:

  • 1. Tạo tài khoản Semrush miễn phí (không cần thẻ tín dụng)
  • 2. Thiết lập lần thu thập dữ liệu đầu tiên của bạn.
  • 3. Nhấp vào nút “Start Site Audit

Sau khi chạy kiểm tra, bạn sẽ có được cái nhìn chi tiết về tình trạng trang web của mình. 

Semrush site audit tool

Bạn cũng có thể xem danh sách tất cả các sự cố bằng cách nhấp vào tab “Issues”:

site audit issues report

Các vấn đề liên quan đến lập chỉ mục hầu như sẽ luôn xuất hiện ở đầu danh sách—trong phần “Errors”. 

Chúng ta hãy xem xét một số lý do phổ biến khiến trang web của bạn có thể không được lập chỉ mục và cách khắc phục chúng. 

Kiểm tra tệp Robots.txt của bạn

Tệp robots.txt của bạn đưa ra hướng dẫn để các công cụ tìm kiếm không thu thập dữ liệu các phần nhất định của trang web. Nó trông giống như thế này:

robot txt file example

Bạn sẽ tìm thấy tên miền của mình tại: https://yourdomain.com/ robots.txt

Bạn có thể muốn chặn Google thu thập dữ liệu các trang trùng lặp, trang riêng tư hoặc tài nguyên như PDF và video. 

Nhưng nếu tệp robots.txt của bạn cho Googlebot (hoặc trình thu thập dữ liệu web nói chung) biết rằng toàn bộ trang web của bạn không được thu thập dữ liệu, thì có khả năng cao là nó cũng sẽ không được lập chỉ mục.

Mỗi lệnh trong robots.txt bao gồm hai phần:

  • “User-agent” xác định trình thu thập thông tin được xử lý
  • Hướng dẫn “Cho phép” hoặc “Không cho phép” cho trình thu thập thông tin biết rằng trang web (hoặc một phần của nó) có thể hoặc không thể được thu thập thông tin

Lệnh này cho biết bất kỳ trình thu thập thông tin nào (được biểu thị bằng dấu hoa thị) không thể thu thập thông tin ( disallow: ) toàn bộ trang web (được biểu thị bằng ký hiệu gạch chéo):

Kiểm tra tệp robots.txt của bạn và đảm bảo rằng không có lệnh nào có thể ngăn Google thu thập dữ liệu trang web của bạn hoặc các trang/thư mục mà bạn muốn lập chỉ mục.

Quản lý thẻ Noindex và Canonical của bạn

Một trong những cách để yêu cầu các công cụ tìm kiếm không lập chỉ mục các trang của bạn là sử dụng các thẻ robots meta tags có thuộc tính “noindex”.

Nếu một trang chứa dòng mã này (<meta name=”robots” content=”noindex”>), bạn đang yêu cầu Google không lập chỉ mục cho trang đó. 

Bạn có thể kiểm tra những trang nào trên trang web của mình có thẻ meta ngăn lập chỉ mục trong Google Search Console:

  1. Nhấp vào báo cáo “Pages” trong phần “Lập chỉ mục” ở menu bên trái
  2. Cuộn xuống phần “Tại sao các trang không được lập chỉ mục”
  3. Tìm kiếm “Excluded by ‘noindex’ Nhấp vào nó.

excluded by noindex tag

Nếu danh sách URL chứa trang bạn muốn lập chỉ mục, chỉ cần xóa thẻ meta ngăn lập chỉ mục khỏi mã nguồn của trang đó. 

Công cụ Kiểm tra Trang web cũng sẽ cảnh báo bạn về các trang bị chặn thông qua tệp robots.txt hoặc thẻ noindex tag.

site audit pages blocked from crawling

Nó cũng sẽ thông báo cho bạn về các tài nguyên bị chặn bởi cái gọi là thẻ X-Robots, thường được sử dụng cho các tài liệu không phải HTML (chẳng hạn như tệp PDF).

x robots tag

Một lý do khác khiến trang của bạn có thể không được lập chỉ mục là nó chứa thẻ chuẩn .

Các thẻ Canonical cho trình thu thập thông tin biết nếu một phiên bản nhất định của trang được ưu tiên. Chúng ngăn chặn các sự cố do nội dung trùng lặp xuất hiện trên nhiều URL.

Nếu một trang có thẻ chuẩn trỏ đến một URL khác, Googlebot sẽ giả định rằng có một phiên bản ưa thích khác của trang đó. Và sẽ không lập chỉ mục trang có thẻ chuẩn, ngay cả khi không có phiên bản thay thế.

Chỉ cần cuộn xuống phần “Tại sao các trang không được lập chỉ mục” và nhấp vào lý do “ Trang thay thế có thẻ chuẩn thích hợp” .

Bạn sẽ thấy một danh sách các trang bị ảnh hưởng. Đi qua danh sách. 

Nếu có một trang mà bạn muốn lập chỉ mục (có nghĩa là trang chuẩn được sử dụng không chính xác), hãy xóa thẻ chuẩn khỏi trang đó. Hoặc đảm bảo rằng nó trỏ đến phiên bản của trang mà bạn muốn lập chỉ mục. 

Cải thiện liên kết nội bộ của bạn

Liên kết nội bộ giúp trình thu thập thông tin tìm thấy các trang web của bạn. Điều này có thể giúp tăng tốc quá trình lập chỉ mục. 

site audit internal linking report

Nếu bạn muốn kiểm tra các liên kết nội bộ của mình, hãy chuyển đến báo cáo chuyên đề “Liên kết nội bộ” trong Site Audit.

Báo cáo sẽ liệt kê tất cả các vấn đề liên quan đến liên kết nội bộ:

site audit internal linking issues

Tất nhiên, nó sẽ giúp khắc phục tất cả chúng. Nhưng ba vấn đề này là quan trọng nhất khi thu thập dữ liệu và lập chỉ mục:

  1. Liên kết nội bộ gửi đi chứa thuộc tính nofollow : Liên kết nofollow không vượt qua thẩm quyền . Nếu được sử dụng nội bộ, Google có thể chọn bỏ qua trang mục tiêu khi thu thập dữ liệu trang web của bạn. Đảm bảo rằng bạn không sử dụng chúng cho các trang mà bạn muốn lập chỉ mục. 
  2. Các trang cần nhiều hơn 3 lần nhấp để truy cập : Nếu các trang cần nhiều hơn 3 lần nhấp để truy cập từ trang chủ, có khả năng chúng sẽ không được thu thập dữ liệu và lập chỉ mục. Thêm nhiều liên kết nội bộ hơn vào các trang này (và xem xét kiến ​​trúc trang web của bạn ). 
  3. Các trang ‘mồ côi’ trong sơ đồ trang web : Các trang không có liên kết nội bộ trỏ đến chúng được gọi là “trang mồ côi”. Chúng hiếm khi được lập chỉ mục. Khắc phục sự cố này bằng cách liên kết tới bất kỳ trang mồ côi nào.

Để xem các trang bị ảnh hưởng bởi một sự cố cụ thể, hãy nhấp vào liên kết cho biết số lượng sự cố đã tìm thấy bên cạnh nó. 

site audit affected pages

Cuối cùng nhưng không kém phần quan trọng, đừng quên sử dụng liên kết nội bộ một cách chiến lược:

  • Liên kết đến các trang quan trọng nhất của bạn: Google nhận ra rằng các trang quan trọng đối với bạn nếu chúng có nhiều liên kết nội bộ hơn
  • Liên kết tới các trang mới của bạn: Biến liên kết nội bộ thành một phần trong quy trình tạo nội dung của bạn để tăng tốc độ lập chỉ mục cho các trang mới của bạn 

Cải thiện chất lượng tổng thể của trang web của bạn

Các vấn đề về lập chỉ mục không phải lúc nào cũng liên quan đến các vấn đề kỹ thuật. 

Ngay cả khi trang web của bạn đáp ứng tất cả các yêu cầu kỹ thuật để được lập chỉ mục, Google có thể không lập chỉ mục tất cả các trang của bạn. Đặc biệt là nếu Google không coi trang web của bạn có chất lượng cao.

Đây là một trích dẫn của John Mueller từ Google:

“If you have a smaller site and you’re seeing a significant part of your pages are not being indexed, then I would take a step back and try to reconsider the overall quality of the website and not focus so much on technical issues for those pages.”

Nếu đây là trường hợp của bạn, bạn cần bắt đầu làm những việc như sau:

  • Cải thiện chất lượng nội dung của trang web của bạn
  • Xây dựng backlinks chất lượng cho trang web của bạn
  • Cải thiện các tín hiệu về Expertise, Authoritativeness và Độ tin cậy (EAT) trên trang web của bạn

Nguồn: Semrush