Google Bot là gì ?
Google Bot được hiểu nôm na đó là những con bọ tìm kiếm, ngoài ra còn được gọi là Spider (con nhện). Nhiệm vụ chính là Crawling (bò) thu thập các thông tin, thu thập dữ liệu.Mỗi một Spider có một địa chỉ IP riêng và thường được thay đổi.Google Bot hoạt động như thế nào ?
Google sử dụng một lượng lớn máy tính để thu thập dữ liệu trên trang web của bạn. Google Bot ngày nay được lập trình thông minh hơn để có thể xác định được trang web của bạn có được cập nhật thường xuyên và chu kỳ cập nhật như thế nào ?Google Bot thu thập dữ liệu từ tập hợp các URL trước đó và tăng cường thu thập thông qua sơ đồ trang web (sitemap) được người quản trị web gửi tới trong Google Webmaster Tools.
Google Bot đi ngang qua website của bạn, xác định được các liên kết (hyperlink) và thẻ meta từ đó có xác định có đi theo các liên kết đó hay không ?
Chúng ta cũng nên chú ý mỗi lần Google Bot bò qua trang web của bạn là 1 lần tải bản sao tại thời điểm đó. Và quá trình Spider Crawling là quá trình đầu tiên trong cơ chế làm việc của các Search Engine nói chung. Đôi khi Google cũng sử dụng dữ liệu của các đối tác, đại lý.
Google tìm kiếm như thế nào ?
Ở Việt nam Google là cỗ máy tìm kiếm lớn nhất cũng như hiệu quả nhất đối với người sử dụng Internet do đó thông thường chỉ cần làm SEO trên Google là đủ. Khi SEO được trên Google thì hầu như các Search Engine còn lại cũng sẽ xếp hạng cao tất nhiên không giống nhau nhưng thứ hạn cũng tương tự nhau. Cơ chế tìm kiếm của Google được chia làm 4 bước:- Crawling:
Google gửi yêu cầu tới hàng ngàn máy chủ khác nhau cùng một lúc. Để tránh việc tràn ngập các máy chủ cá nhân hoặc lấn át các yêu cầu của người dùng, Google Bot cố ý làm cho tốc độ gửi yêu cầu tới các trang chậm hơn rất nhiều so với khả năng của nó.
Google tìm các trang web theo hai cách: thông qua địa chỉ URL và qua việc tìm kiếm các link trên web.
- Index:
Sau khi Crawl xong, toàn bộ các
trang đã tìm thấy sẽ được lưu trữ trong cơ sở dữ liệu
của chỉ mục Google (Google Index). Cơ sở dữ
liệu được sắp xếp theo thứ tự bảng chữ cái abc các cụm từ tìm kiếm, mỗi mục
sẽ lưu một danh sách các tài liệu có chứa từ tìm kiếm này và vị trí nó
xuất hiện trong văn bản. Cấu trúc này cho phép truy xuất nhanh các tài liệu có chứa các truy vấn của người dùng.
Để cải thiện hiệu suất tìm kiếm, Google
sẽ bỏ qua (không index) những “stop words” (the, is, on, or,
of, how, why, as well as cũng như những chữ số 1 chữ số và một số chữ
cái đơn). Google cũng bỏ qua các dấu chấm câu và các khoảng để dấu
cách quá lớn, cũng như chuyển tất cả các chữ cái về dạng viết thường.
- Thông kê và xếp hạng:
- Hiển thị kết quả:
![]() |
| Sitemap |
Như vậy website của bạn có càng nhiều liên kết đến thì càng dễ có khả
năng được google bot ghé thăm thường xuyên hơn. đó là lý do tại sao bạn
thường nghe các webmaster nhắc nhiều đến việc tạo backlink bằng cách
trao đổi liên kết.
Vì Google Bot là phần mềm nên khả năng xử lý của nó rất máy móc, đôi khi nó lấy tất cả những liên kết trên website mà bạn không mong muốn để đưa lên kết quả tìm kiếm. Thật là tai họa nếu như những thông tin về đường dẫn trang quản trị, thông tin database, cấu trúc site được đưa tất tần tật lên kết quả tìm kiếm... Đôi khi đây chính là tác nhân giúp hacker nghiên cứu bạn và tìm ra lỗ hổng để tấn công website.
Vậy cách ngăn chặn bot để điều khiển bot lấy những kết quả phù hợp như thế nào? Thông thường ta sẽ dùng cách đơn giản nhất là dùng 1 file robot.txt chứa các câu lệnh dành riêng cho bot, đặt ở thư mục gốc của website. Mỗi khi bot ghé thăm nó sẽ biết đâu là nơi mình cần đến, đâu không được đến.
Vì Google Bot là phần mềm nên khả năng xử lý của nó rất máy móc, đôi khi nó lấy tất cả những liên kết trên website mà bạn không mong muốn để đưa lên kết quả tìm kiếm. Thật là tai họa nếu như những thông tin về đường dẫn trang quản trị, thông tin database, cấu trúc site được đưa tất tần tật lên kết quả tìm kiếm... Đôi khi đây chính là tác nhân giúp hacker nghiên cứu bạn và tìm ra lỗ hổng để tấn công website.
Vậy cách ngăn chặn bot để điều khiển bot lấy những kết quả phù hợp như thế nào? Thông thường ta sẽ dùng cách đơn giản nhất là dùng 1 file robot.txt chứa các câu lệnh dành riêng cho bot, đặt ở thư mục gốc của website. Mỗi khi bot ghé thăm nó sẽ biết đâu là nơi mình cần đến, đâu không được đến.
Một cách khác nữa đó là sử dụng công cụ Webmaster Tool của Google, và gửi yêu
cầu xóa những URL mà bot đã "trót" đưa vào kết quả tìm kiếm.
Ngoài ra để bot thuận tiện hơn và nhanh chóng đưa kết quả chính xác, các Webmaster thường khai báo 1 định dạng sitemap (bản đồ site) bằng ngôn ngữ XML. File này như 1 tấm bản đồ cho bot, giúp bot nhìn được cấu trúc website một cách chuẩn nhất.
Ngoài ra để bot thuận tiện hơn và nhanh chóng đưa kết quả chính xác, các Webmaster thường khai báo 1 định dạng sitemap (bản đồ site) bằng ngôn ngữ XML. File này như 1 tấm bản đồ cho bot, giúp bot nhìn được cấu trúc website một cách chuẩn nhất.





0 nhận xét:
Đăng nhận xét