Đó là thông tin mới nhất từ đơn vị vận hành hệ thống mạng phân phối nội dung trực tuyến (CDN) nổi tiếng, Akamai. Cụ thể hơn, 42% tổng lưu lượng truy cập internet toàn cầu là bot tự động vận hành để truy cập các tên miền. Và theo Akamai, 65% tổng lưu lượng truy cập do bot tạo ra rõ ràng là có ý đồ xấu. Chẳng hạn, hầu hết những bot truy cập internet đều để “cào dữ liệu”, những con bot được thiết kế để thu thập thông tin và nội dung trên mạng, rồi sau đó được dùng để thực hiện những cuộc tấn công mạng.
Những con bot này có thể ảnh hưởng rất mạnh với những doanh nghiệp vận hành trên nền web. Và ở thời kỳ LLM lên ngôi, chatbot AI biết lập trình, việc nhờ thuật toán viết hộ những con bot như thế này đang khiến tội phạm công nghệ cao dễ dàng thực hiện những ý đồ xấu hơn trước rất nhiều.
Nhiệm vụ của các CDN để internet toàn cầu vận hành và tồn tại khá quan trọng. Khi người dùng truy cập một trang web, dữ liệu từ máy chủ của trang web đó phải di chuyển trên mạng Internet để đến được máy tính của người dùng. Nếu người dùng ở xa máy chủ đó, thì sẽ mất nhiều thời gian để tải một tệp lớn, chẳng hạn như video hoặc hình ảnh trên trang web. Thay vào đó, nội dung trang web được lưu trữ trên các máy chủ CDN gần hơn với vị trí của người dùng theo khu vực địa lý để quá trình chuyển đến máy tính của họ được nhanh hơn nhiều.
Hiện tại, Akamai có quy mô và độ danh tiếng không hề thua kém Amazon AWS và Cloudflare. Và vì là một trong những CDN hàng đầu thế giới, chắc chắn họ hiểu internet vận hành như thế nào.
Kết luận về tình hình bot tự động truy cập internet là một phần của báo cáo về thực trạng “cào nội dung và dữ liệu” trên mạng internet trong năm 2024. Con số này có phần tương đồng với những báo cáo từ những nguồn khác, được công bố vào năm 2022 và 2023. Akamai cho biết, mảng thương mại điện tử bị ảnh hưởng nhiều nhất bởi những bot thu thập dữ liệu, và những bot chạy lưu lượng truy cập tự động, chẳng hạn như dùng tấn công từ chối dịch vụ làm quá tải máy chủ.
Những con bot này có thể ảnh hưởng rất mạnh với những doanh nghiệp vận hành trên nền web. Và ở thời kỳ LLM lên ngôi, chatbot AI biết lập trình, việc nhờ thuật toán viết hộ những con bot như thế này đang khiến tội phạm công nghệ cao dễ dàng thực hiện những ý đồ xấu hơn trước rất nhiều.
Nhiệm vụ của các CDN để internet toàn cầu vận hành và tồn tại khá quan trọng. Khi người dùng truy cập một trang web, dữ liệu từ máy chủ của trang web đó phải di chuyển trên mạng Internet để đến được máy tính của người dùng. Nếu người dùng ở xa máy chủ đó, thì sẽ mất nhiều thời gian để tải một tệp lớn, chẳng hạn như video hoặc hình ảnh trên trang web. Thay vào đó, nội dung trang web được lưu trữ trên các máy chủ CDN gần hơn với vị trí của người dùng theo khu vực địa lý để quá trình chuyển đến máy tính của họ được nhanh hơn nhiều.
Hiện tại, Akamai có quy mô và độ danh tiếng không hề thua kém Amazon AWS và Cloudflare. Và vì là một trong những CDN hàng đầu thế giới, chắc chắn họ hiểu internet vận hành như thế nào.
Kết luận về tình hình bot tự động truy cập internet là một phần của báo cáo về thực trạng “cào nội dung và dữ liệu” trên mạng internet trong năm 2024. Con số này có phần tương đồng với những báo cáo từ những nguồn khác, được công bố vào năm 2022 và 2023. Akamai cho biết, mảng thương mại điện tử bị ảnh hưởng nhiều nhất bởi những bot thu thập dữ liệu, và những bot chạy lưu lượng truy cập tự động, chẳng hạn như dùng tấn công từ chối dịch vụ làm quá tải máy chủ.
Một số loại bot có thể làm lợi cho doanh nghiệp, chẳng hạn thu thập thông tin khách hàng, hầu hết bot dạng web-scraper, suy cho cùng, cũng đều tạo ra trải nghiệm tiêu cực đối với khách hàng. Còn xét về tổng thể, bot cào dữ liệu giờ được dùng vào mọi mục đích xấu: Cạnh tranh không lành mạnh, theo dõi đối thủ, đầu cơ thu gom hàng hóa bán trực tuyến, vận hành những trang web lừa đảo, và một số hành vi phạm pháp khác.
Giám đốc kỹ thuật của Akamai, Patrick Sullivan giải thích rằng, đối mặt và truy quét bot tương đối khó, phải giải quyết vấn đề ở những tầng ứng dụng web, dịch vụ cho tới cả chủ sở hữu các API. Những bot cào nội dung trên mạng có thể dễ dàng thu gom hình ảnh, mô tả sản phẩm, thông tin giá cả và nhiều dạng dữ liệu khác. Rồi lấy ví dụ, tội phạm công nghệ cao sẽ lấy những thông tin đó để tạo những trang web giả mạo những thương hiệu lớn, phục vụ lừa đảo.
Rồi những bot cào nội dung cũng đi lấy cắp cả những bài viết và nội dung được đăng tải trên những trang web nhiều người truy cập, chỉnh sửa lại một chút, giờ làm quá dễ với công cụ tóm tắt và viết lại của chatbot AI, để đăng lại thông tin, rồi tối ưu SEO để trang web đứng ở vị trí cao hơn trên trang tổng hợp kết quả tìm kiếm của Google, thu hút người truy cập và kiếm tiền dễ dàng từ quảng cáo trực tuyến.
Nhờ những công cụ AI tạo sinh, những con bot sử dụng thuật toán AI đang ngày một khó phát hiện. Những botnet tạo ra nhờ AI thậm chí còn vận hành tốt với những dữ liệu không được phân loại, và có thể lấy luôn thông tin doanh nghiệp để tự đưa ra quyết định giúp bọn lừa đảo. Nói cách khác, nhờ AI, tội phạm công nghệ cao có thể tổng hợp, truy xuất và xử lý thông tin dễ dàng hơn xưa rất nhiều.
Rồi những con bot này sẽ được dùng để tạo những tài khoản trực tuyến giả mạo, rồi dùng chúng để nhắm tới những người thật, hoặc lừa đảo tài chính hoặc dùng những mục đích khác.
Và ngay cả khi những con bot cào nội dung và dữ liệu không có mục đích xấu, thì chúng vẫn có thể ảnh hưởng tới đánh giá trang web trong mắt Google, ảnh hưởng tới kết quả tìm kiếm trực tuyến, và tăng chi phí vận hành lưu trữ trên máy chủ.
Theo Techspot