Trở lại những ngày chưa có Internet, bạn cần tham khảo cuốn bách khoa toàn thư để tìm câu trả lời cho một vấn đề, tra cứu quyển danh bạ điện thoại để liên lạc với 1 ai đó.
Sự ra đời của các công cụ tìm kiếm đã làm thay đổi hoàn toàn thói quen tra cứu thông tin của con người, cách mạng hóa việc truy suất thông tin với những kết quả trả về gần như ngay lập tức.
Về cơ bản khi tìm kiếm thông tin, người dùng không tìm kiếm trên nền tảng liveweb thực mà chỉ đang tìm kiếm trong chỉ mục của các Search Engine.
Nói cách khác, người dùng đang tìm kiếm dựa trên những gì mà Search Engine lưu trữ, hiểu về thế giới.
Quá trình lưu trữ, tổng hợp thông tin này được gọi là Indexing.
Trong bài hướng dẫn này cùng tìm hiểu Indexing là gì? Toàn bộ vấn đề xoay quanh việc index trong SEO.
Index hay Indexing là quá trình các công cụ tìm kiếm (search engine) phân loại, lưu trữ nội dung vào cơ sở dữ liệu của mình.
Chỉ những trang được index mới có thể xuất hiện trên kết quả tìm kiếm.
Để hiểu rõ hơn về Indexing, cùng xem ví dụ về cách phân loại sách trong thư viện của Google:
Chỉ mục của Google tương tự như chỉ mục trong thư viện, nó liệt kê thông tin về tất cả sách mà thư viện có sẵn. Tuy nhiên, thay vì sách, chỉ mục của Google liệt kê tất cả các Web page mà Google biết.
Khi Google truy cập trang web của bạn, nó sẽ phát hiện các trang mới và cập nhật vào chỉ mục của mình.
Về cơ bản thì sau khi thu thập dữ liệu (quá trình Crawling), Google sẽ lưu trữ thông tin đã thu thập được vào 1 nơi (Google index).
Khi có ai đó tìm kiếm thông tin, Google sẽ tìm các câu trả lời bên trong kho lưu trữ của mình, kết hợp với các thuật toán để đưa ra câu trả lời nhanh nhất và liên quan nhất.
Kho chứa các webpage mà Google thu thập được có tên gọi là Google Index và sau này đổi thành Google Caffeine.
Năm 2010, Google giới thiệu hệ thống lập chỉ mục mới – Google Caffeine với khả năng cung cấp kết quả nhanh gấp 2 lần so với hệ thống cũ.
Nội dung trên web đang phát triển một cách nhanh chóng không chỉ về quy mô và số lượng mà với sự ra đời của video, hình ảnh, tin tức và cập nhật theo thời gian thực, các trang web ngày càng phong phú và phức tạp hơn. Ngoài ra, kỳ vọng của mọi người đối với tìm kiếm cũng cao hơn trước đây.
Người tìm kiếm muốn tìm nội dung có liên quan mới nhất và các nhà xuất bản mong đợi được tìm thấy ngay khi họ xuất bản.
Hệ thống google index cũ sẽ lưu trữ các Web page thành từng lớp xếp chồng lên nhau. Khi 1 lớp được cập nhật, Google sẽ phải phân tích lại toàn bộ website, gây nên sự lãng phí, chậm trễ trong quá trình đánh giá xếp hạng.
Với Caffeine, website được phân tích thành từng phần riêng biệt và tiến hành cập nhật thông tin liên tục. Khi tìm thấy các trang mới hay thông tin mới, Google có thể thêm ngay các trang này vào chỉ mục.
Người dùng có thể tìm thấy thông tin mới ngay lập tức bất kể nó được xuất bản ở đâu và khi nào.
Chỉ có những web page được các công cụ tìm kiếm lập chỉ mục mới thể xuất hiện trên các trang kết quả tìm kiếm.
Quá trình lập chỉ mục của Google được diễn ra sau khi các Crawler tìm thấy nội dung mới trên internet. Gồm 3 giai đoạn:
Trong quá trình đánh giá nội dung trên website, các Search Engine hay cụ thể ở đây là Google sẽ xác định xem 1 trang có phải là trang trùng lặp (duplicate) hay trang chính tắc (canonical).
Nếu trang đó được xác định là trùng lặp, Google sẽ ít thu thập dữ liệu trên trang đó hơn.
Các trang tương tự nhau sẽ được nhóm vào 1 tài liệu (document).
Document bao gồm 1 hoặc nhiều trang chính tắc và các trang trùng lặp có nội dung tương tự nhau.
Về khái niệm Document là gì? Google giải thích như sau:
Google sẽ sử dụng 1 lượng lớn các Document (tài liệu) làm đại diện cho 1 hoặc nhiều trang trong Website.
Document được chọn làm đại diện cho nhiều trang trong Website khi:
Google sẽ chọn ra 1 URL trong Document làm URL chính tắc (canonical) của tài liệu. URL này sẽ được Google thu thập dữ liệu và lập chỉ mục thường xuyên hơn.
Các trang còn lại được xem như trang trùng lặp (duplicate) hay trang thay thế (alternates). Các trang này sẽ ít được Google thu thập và cập nhật dữ liệu.
Công cụ kiểm tra URL trong Search console có thể giúp người dùng xác định xem URL đó là trang chính tắc hay trang thay thế.
Google có thể xác định nhầm 1 trang chính tắc (canonical) trên website làm trang thay thế bởi nhiều lý do. Qua đó gây ra nhiều hậu quả như:
Kiểm tra xem Google đã xác định chính xác trang nội dung chính trên website làm trang chính tắc hay chưa để hạn chế lỗi trong quá trình SEO.
Các Crawler sẽ ưu tiên thu thập dữ liệu trên thiết bị di động trước, điều đó càng được thể hiện rõ hơn qua bản cập nhật Mobile First-indexing.
Ngày nay, hầu hết mọi người đang tìm kiếm trên Google bằng thiết bị di động. Tuy nhiên, hệ thống xếp hạng của chúng tôi vẫn thường xem xét phiên bản dành cho máy tính để bàn của nội dung trang để đánh giá mức độ liên quan của nó với người dùng.
Điều này có thể gây ra sự cố khi trang trên thiết bị di động có ít nội dung hơn trang trên máy tính để bàn vì các thuật toán của chúng tôi không đánh giá trang thực tế mà người tìm kiếm trên thiết bị di động nhìn thấy.
Người dùng ngày nay càng có xu hướng sử dụng điện thoại thông minh để lướt web và tìm kiếm thông tin. Chính vì vậy mà Google sẽ ưu tiên thu thập dữ liệu và lập chỉ mục trên các thiết bị di động và xem xét đây là trình thu thập dữ liệu chính cho website.
Để phản hồi thông tin người dùng tra cứu 1 cách nhanh chóng, Google hay các công cụ tìm kiếm sử dụng Inverted Index (chỉ mục nghịch đảo)
Inverted index là cấu trúc dữ liệu nhằm liên kết giữa term (từ khóa) với các webpage (document) chứa từ khóa đó. Đây là kỹ thuật index theo từng đơn vị từ khóa (term) thay vì index theo từng dòng trước đây.
Inverted index giúp các công cụ tìm kiếm giảm tải lượng tài nguyên cần thiết để lưu trữ và truy xuất dữ liệu. Cách tiếp cận này nhanh hơn nhiều lần so với việc liệt kê các kết quả dựa trên ngữ nghĩa của từ khóa và ký tự có liên quan.
Lấy một ví dụ tương đối: có 3 webpage lần lượt là d1, d2, d3 và một cụm từ tìm kiếm “khá bảnh múa quạt”
Với cách tìm kiếm thông thường, các công cụ tìm kiếm sẽ dùng cụm từ “khá bảnh múa quạt” lần lượt kiểm tra trong d1 không tìm thấy, chuyển sang d2 tìm thấy, rồi lại tiếp tục tìm trong d3.
>>> Kết quả cuối cùng là d2.
Với inverted index, các webpage được lưu dưới dạng:
Công việc trở nên nhanh chóng hơn khi chỉ cần tìm kiếm webpage có chứa 4 từ {“khá”, “bảnh”, “múa”, “quạt”}
Kết quả là phép giao của của {d2,d3} với {d1,d2} kết quả là d2.
Với inverted index, tốc độ truy xuất, lưu trữ dữ liệu của các công cụ tìm kiếm hiệu quả hơn 50% so với phương pháp thông thường.
Đây chỉ là một ví dụ đơn giản mang tính chất tương đối, trong thực tế inverted index diễn ra phức tạp hơn nhiều.
Tham khảo thêm bằng sáng chế về hệ thống chỉ mục nghịch đảo và phương pháp cho các thuộc tính số của Google
Cùng với sự phát triển của thế giới, các website mới liên tục được xuất bản khiến cho việc lưu trữ, lập chỉ mục càng ngày càng trở nên khó khăn với các công cụ tìm kiếm.
Để giải quyết tình trạng này, các Crawler (trình thu thập dữ liệu) được tích hợp thuật toán đặc biệt giúp chúng có thể bỏ qua các URL không quan trọng.
Theo số liệu của Worldwidewebsize, tính đến hết tháng 3 năm 2021, Thế giới Internet có khoảng 5,27 tỷ Website, Google có gần 54 tỷ trang trong cơ sở dữ liệu (số liệu từ worldwidewebsize)
Trong đó hầu hết là các trang kém chất lượng, lừa đảo, nội dung trùng lặp, các phần mềm độc hại, không mang lại giá trị cho người dùng. Google hay các công cụ tìm kiếm cần tránh xa các website này thay vì lập chỉ mục chúng.
Các Website ngày càng trở nên đẹp hơn, nhiều hiệu ứng hơn đồng nghĩa với việc chúng ngày càng trở nên “nặng” hơn với nhiều định dạng nội dung siêu văn bản: hình ảnh, video độ phân giải cao. Điều này gây khó khăn cho các công cụ tìm kiếm trong việc truy cập, trích xuất thông tin để hiểu nội dung những website này.
Vì thế giới internet quá rộng lớn nên Google cần phải lựa chọn những trang mà nó muốn lập chỉ mục. Rõ ràng, Google sẽ tập trung vào những trang chất lượng mang lại giá trị cho người dùng.
Về cơ bản, trước khi thu thập thông tin, khi chúng tôi xem xét các URL mà chúng tôi thấy và dựa trên các dữ liệu mà chúng tôi có trong quá khứ, chúng tôi nghĩ:”chà, những URL này có thể giống nhau, sau đó chúng tôi “gấp” chúng lại với nhau.
Google có thể bỏ qua việc thu thập thông tin 1 số trang trên website và đánh giá nó là trang có nội dung kém chất lượng. Để làm điều này, Google gán cho các URL chỉ số về mức độ ưu tiên trước khi thu thập dữ liệu.
Bằng sáng chế Phương pháp và công cụ để quản lý tồn đọng các lần thu thập thông tin URL đang chờ xử lý của Google:
Do khả năng thu thập thông tin có giới hạn, các lần thu thập thông tin không hoàn chỉnh sẽ được đưa vào hàng chờ xử lý tồn đọng.
Các URL được phân loại là ít quan trọng sẽ bị bỏ qua khi tiến hành thu thập thông tin.
Google chỉ thị mức độ ưu tiên cho các URL trước khi thu thập thông tin. Các trang được coi là ít quan trọng hơn sẽ không được thu thập thông tin.
Theo bằng sáng chế của Google, mức độ ưu tiên của URL có thể được xác định bởi các yếu tố:
Quy trình lập chỉ mục của Google rất phức tạp với nhiều bước liên kết lẫn nhau. Nếu 1 trong những bước này gặp trục trặc sẽ dẫn đến các quy trình khác cũng bị ảnh hưởng.
Vào ngày 10/08/2020, cộng đồng SEO nhận thấy 1 loạt thay đổi trong kết quả tìm kiếm. Nhiều ý kiến cho rằng, Google tung ra 1 bản cập nhật thuật toán quan trọng. Nhưng hôm sau, Google đã thông báo đó là 1 lỗi liên quan đến hệ thống lập chỉ mục khiến cho thứ hạng từ khóa bị thay đổi.
On Monday we detected an issue with our indexing systems that affected Google search results. Once the issue was identified, it was promptly fixed by our Site Reliability Engineers and by now it has been mitigated.
— Google Search Central (@googlesearchc) August 11, 2020
Thank you for your patience!
Để làm sáng tỏ sự phức tạp của quá trình Indexing, Google’s Gary illyes đã giải thích quy trình lập chỉ mục của Google Caffeine
The indexing system, Caffeine, does multiple things:
— Gary 鯨理/경리 Illyes (@methode) August 11, 2020
1. ingests fetchlogs,
2. renders and converts fetched data,
3. extracts links, meta and structured data,
4. extracts and computes some signals,
5. schedules new crawls,
6. and builds the index that is pushed to serving.
Cùng với sự kiện này, Vào tháng 5 năm 2020, Google tung ra bản cập nhật thuật toán cốt lõi ảnh hưởng đến quá trình lập chỉ mục. Kể từ đó, việc lập chỉ mục trở nên khó khăn, nghiêm ngặt hơn rất nhiều so với trước đây.
Trải qua 1 quá trình phức tạp từ discovery, crawling đến indexing, Url mới được lập chỉ mục trong cơ sở dữ liệu của Google. Có bao nhiêu cách để kiểm tra việc này.
Bạn có thể sử dụng lệnh site:url để kiểm tra xem đường dẫn đã được index hay chưa. Ví dụ: site:domain
Tuy nhiên cách làm không phải lúc nào cũng chính xác, có những khi trang được index nhưng kiểm tra bằng site:URL không trả về kết quả.
Một cách đơn giản để kiểm tra index 1 trang đó chính là gõ thẳng tiêu đề bài viết hoặc sử dụng lệnh inurl:tieu-de-url vào ô tìm kiếm của Google. Nếu URL đã được lập chỉ mục, trang web của bạn sẽ hiện ra.
Kiểm tra xem URL của bạn có được lưu trong bộ nhớ đệm của Google hay không với cú pháp cache:URL.
Nếu hiển thị kết quả, chứng tỏ URL đã được index. Thời gian ghi trong URL chính lần gần nhất Google lập chỉ mục trang web. Google có thể thu thập dữ liệu về 1 trang nhưng chưa chắc đã index trang đó. Gary illyes đã giải thích về điều này qua dòng tweet
The past couple weeks a few people asked about the cache date shown on the cache pages. To be clear, that date is when the page was last indexed or reindexed, not when it was last crawled. Googlebot may crawl a page, but indexing may occasionally decide to reuse an older version. pic.twitter.com/QniOln4tZI
— Gary 鯨理/경리 Illyes (@methode) August 6, 2018
Theo Gary, thời gian ghi trong cache là khoảng thời gian trang được lập chỉ mục gần nhất, không phải thời gian trang được thu thập thông tin bởi các công cụ tìm kiếm.
Googlebot có thể thu thập thông tin một trang, nhưng nếu trang đó không có nội dung mới hoặc nội dung không khác biệt với phiên bản cũ, nó sẽ cân nhắc sử giữ nguyên chỉ mục của phiên bản cũ.
Sử dụng báo cáo về phạm vi chỉ mục trong Google search console để kiểm tra tổng thể index Website.
Báo cáo đưa ra 4 loại trạng thái:
Cách kiểm tra tình trang index của URL trên Website trong Google search console:
Nếu công cụ cho biết URL chưa được lập chỉ mục hãy nhấn vào “yêu cầu lập chỉ mục” để gửi URL vào hàng chờ ưu tiên.
Quá trình indexing là bước lớn thứ 2 tiếp ngay sau quá trình Crawling của Google hay các công cụ tìm kiếm. Google ngày càng khó tính hơn trong việc lựa chọn và lập chỉ mục các website. Vậy có những cách nào để cải thiện kết quả lập chỉ mục trên Website?
Việc Index trên Google ngày càng trở nên khó khăn và mất nhiều thời gian hơn trước. Tham khảo hướng dẫn dưới đây để chắc chắn nội dung của bạn được index trên Google:
Trước khi nghĩ tới index bạn cần chắc chắn rằng các trình thu thập dữ liệu có thể dễ dàng truy cập vào những trang quan trong.
Hãy kiểm tra lại các file robots.txt, robot-meta-tag, x-robots-tag xem bạn đã triển khai chuẩn hay chưa?
File Robot.txt nằm trong thư mục root của Website ngang cấp với thư mục index. File này hướng dẫn cho các trình thu thập dữ liệu biết nơi nào nên và không nên thu thập dữ liệu trên site.
Sử dụng file robots.txt để chỉ cho các Crawler biết nơi nào cần ưu tiên thu thập dữ liệu, bảo vệ tải website. Không nên sử dụng File Robots.txt để chặn 1 trang xuất hiện trong chỉ mục của Google.
Các trang bị chặn trong File Robots.txt vẫn có thể xuất hiện trong Google index nếu như có liên kết trỏ đến trang đó.
Thẻ Meta Robots giúp chủ website kiểm soát cách Google lập chỉ mục ở cấp độ trang riêng lẻ.
Theo như ví dụ trên, thẻ này đang chỉ thị các googlebot không lập chỉ mục trang trong kết quả tìm kiếm.
X-Robots-tag giúp kiểm soát quá trình thu thập thông tin, index của các công cụ tìm kiếm ở cấp độ toàn website. Không giống như thẻ meta Robots chỉ áp dụng cho các tài liệu HTML, thẻ X-Robots-tag có thể áp dụng cho các tài liệu non-html như PDF.
location ~* \.pdf$ {
add_header X-Robots-Tag "noindex, follow";
}
Bạn cần có quyền truy cập vào file htaccess hoặc tệp cấu hình máy chủ của tiêu đề website để điều chỉnh X-robots-tag.
X-Robots-Tag có tác động đến toàn bộ trang web chứ không phải từng trang riêng lẻ.
Với các site ecommerce, 1 số thuộc tính như size, color sẽ sinh ra các URL khác nhau nhưng nội dung gần như giống nhau hoàn toàn.
Sử dụng thẻ chính tắc (canonical) chính xác sẽ giúp các trình thu thập thông tin xác định nhanh hơn phiên bản chuẩn của nội dung. Google sẽ không lập chỉ mục các phiên bản phụ dẫn đến không sinh ra lỗi về Duplicate content.
Bạn có thể kiểm tra xem Google đã xác định đúng trang canonical của Website chưa thông qua Google search console.
Một việc đơn giản giúp URL của bạn được thêm vào hàng chờ ưu tiên là gửi URL trong Google search console.
Bước 1: Truy cập Google Search Console.
Bước 2: Chọn URL bạn muốn thúc đẩy index.
Bước 3: Nhập URL vào ô kiểm tra URL.
Bước 4: Kích vào nút yêu cầu lập chỉ mục để thêm URL vào hàng chờ ưu tiên
Những năm gần đây Google ưu tiên Google my business, việc đăng bài, share link lên Google my business sẽ thúc đẩy quá trình indexing thêm nhanh hơn.
Google đưa ra Hướng dẫn nhanh về API Lập chỉ mục nhanh cho các nội dung về sự kiện, tuyển dụng, video diễn ra trong thời gian ngắn.
Với những trang có thời gian diễn ngắn như sự kiện, tuyển dụng, video thì có thể index thông qua Api của Google. Nó khá giống với cơ chế gửi URL trong Google search console.
Tác dụng của Api chỉ mục Google:
Api chỉ mục của Google chỉ có tác dụng với 3 loại trang sự kiện, tuyển dụng, video tuy nhiên khi áp dụng với các lĩnh vực khác vẫn có tác dung.
Google cũng tán thành việc mở rộng lĩnh vực áp dụng cho Api chỉ mục. Wix và Yoast SEO là 2 công ty giúp Google chạy các thử nghiệm này.
Internal link (liên kết nội bộ) giúp Google hiểu được cấu trúc cũng như độ phân tầng của Website. Internal link biểu thị mối quan hệ của Page với Website cũng như giữa các Page khác nhau.
Sử dụng hợp lý, kết nối các bài viết, phần quan trọng lại với nhau sẽ khiến cho Google bot dễ dàng trong việc đánh giá và phân tích nội dung website.
Đảm bảo mật độ link hợp lý giữa các phần trên Website để dòng chảy sức mạnh được phân bổ đúng những trang bạn mong muốn.
Pagerank và Backlinks là cốt lõi thuật toán của Google trong xếp hạng từ khóa. Backlink giúp Google tìm kiếm, khám phá các website mới trên internet.
Backlink truyền 1 phần độ uy tín cho website được trỏ tới. Website của bạn sẽ được index nhanh hơn nếu như có các Backlink từ những trang có độ uy tín (authority) cao.
Sau khi tạo sơ đồ trang web hãy gửi sitemap này qua công cụ submit sitemap trong Google search console.
Nhớ rằng sitemap bao gồm những URL quan trọng mà bạn muốn các trình thu thập thông tin index trong cơ sở dữ liệu.
Bạn không cần trực tiếp làm điều này, các công cụ như Yoast SEO, Rank Math đều có sẵn công cụ tự động giúp bạn tạo sitemap.
Google có thể truy cập firehose của twitter hay các social phổ biến khác nên các nội dung được chia sẻ trên các mạng xã hội sẽ có tỷ lệ lập chỉ mục cao hơn các bài viết không được chia sẻ.
Mặt khác, tín hiệu mạng xã hội sẽ báo hiệu cho Google biết về độ phổ biến của nội dung đó trên internet qua đó thúc đẩy quá trình index.
Thêm #hashtag trên twitter hay các mạng xã hội khác để phân loại rõ chủ đề nội dung.
Ghi chú
Nguồn tham khảo trong bài viết:
Moz
Ahrefs
SemRush
Blog.google
Search Engine Land
Search Engine Journal
Developers.google.com
Bài viết trong chương: 3 Search Feature
Blog
Top Content
Copyright © 2022 SEO69