Tại sao machine learning không phải là giải pháp cho gian lận quảng cáo di động

Với hàng triệu ứng dụng trên app store, cuộc chiến tranh giành người dùng đang nóng hơn bao giờ hết. Giờ đây, mỗi đồng đô la mà các nhà marketing chi cho chiến dịch tăng trưởng người dùng trở nên vô cùng quan trọng.

Các nhà marketing cần hết sức thận trọng khi chống lại gian lận quảng cáo, vì một số chuyên gia dự đoán rằng chi phí bỏ ra để phòng ngừa gian lận có thể lên đến 44 tỷ đô trước năm 2022. Gian lận quảng cáo không chỉ gây tổn thất ngân sách — các dữ liệu xấu còn gây ảnh hưởng đến chiến dịch về lâu dài, làm sai lệch kết quả, và gây trở ngại cho việc ra quyết định trọng yếu và việc triển khai chiến dịch tăng trưởng người dùng trong tương lai.

Trong bối cảnh đó, một giải pháp khả dĩ đã ra đời: máy học (machine learning). Nhờ áp dụng máy học, các nhà marketing đã sớm đạt được hiệu quả vượt bậc trong việc phòng ngừa gian lận. Tuy nhiên, vẫn còn rất nhiều việc phải làm trước khi máy học được xem như là một giải pháp đơn giản, dễ hiểu và hiệu quả trong mọi trường hợp. Máy học có nhiều điểm yếu mà các nhà marketing cần chú ý khi sử dụng công nghệ này trong cuộc chiến chống gian lận.
Tựu trung lại vấn đề nằm ở chỗ: dù máy học là một công nghệ tuyệt vời để phát hiện các gian lận tiềm ẩn, nhưng máy học vẫn chưa có đủ khả năng để quyết định xem truy cập nào cần được lọc bỏ. Trong bài đăng này, chúng tôi sẽ phân tích tại sao máy học vẫn chưa thực sự sẵn sàng để được dùng trong các giờ cao điểm (giờ có lượt xem cao nhất).

Vấn đề với máy học và việc phát hiện gian lận

Máy học không phải là công cụ mà các nhà marketing có thể triển khai ngay lập tức. Máy học cần thời gian để học và điều chỉnh dữ liệu. Như vậy, việc sử dụng máy học để lọc mọi hình thức giả mạo (spoofing) — thay vì chỉ một hình thức nhất định — có thể làm phát sinh vấn đề. Người dùng giả mạo phải được lọc ra khỏi dữ liệu tổng hợp về người dùng thật, và qua một loạt các edge-case không rõ ràng (edge-case là các vấn đề xảy ra khi một thông số hoạt động đạt ngưỡng cực đại hoặc cực tiểu), máy học không làm tốt trong các tình huống mơ hồ và không có quy tắc từ trước.

Ví dụ, các kẻ lừa đảo có thể lấy dữ liệu thật của thiết bị và giả mạo hành vi người dùng hợp lệ — kể cả các phân bổ được gửi bởi SDK. Khi kẻ lừa đảo sử dụng dữ liệu thiết bị của người dùng thật (như phiên bản OS, Android Device-ID và thiết lập miền địa phương), chúng khó mà bị phát hiện ra. Với những gian lận sử dụng dữ liệu lịch sử và thông tin người dùng thật, thuật toán máy học sẽ rất tốn công mới có thể phát hiện chính xác loại gian lận này.

Thêm vào đó, các hoạt động được thực hiện bởi người dùng thật lại bị tính là gian lận vì dữ liệu giả mạo bị trộn lẫn với dữ liệu thật. Khi không thể phân biệt được đâu là dữ liệu thật, đâu là dữ liệu giả, việc huấn luyện các neural network (là mạng thần kinh nhân tạo, một thuật toán của máy học, hoạt động tương tự như bộ não con người, được dùng để giải quyết các vấn đề phức tạp) sẽ gặp một vài khó khăn nhất định. Chúng ta đã thấy cách mà các kẻ lừa đảo giả mạo gần như mọi yêu cầu — kể cả hệ thống đo lường của riêng khách hàng — với các dữ liệu gần như hoàn toàn hợp lệ. Điều này khiến việc phát hiện người dùng giả mạo trở nên khó khăn hơn, dù bạn đã theo dõi hành vi của họ được một khoảng thời gian.
1*DF1P4Cg78my9MqvnIm0SIQ.jpeg

Hiểu quá trình máy học ra quyết định

Kẻ lừa đảo tất nhiên sẽ mắc sai lầm (như tạo ra các tương tác giả rất dễ bị phát hiện), nhưng, cũng giống như thuật toán, chúng sẽ không ngừng học hỏi — và trong các thương vụ tới, chúng sẽ giở những trò tinh vi hơn. Khi đối mặt với những kịch bản lừa đảo mới và lạ lẫm, máy học có thể không còn hoạt động hiệu quả. Nếu không được giám sát và lập trình đều đặn, máy học khó có thể mang lại dữ liệu đáng tin cậy.

Để giúp ích cho việc lọc bỏ gian lận, neural network cần đưa ra quyết định tại thời điểm phân bổ, thời điểm mà giá thầu cho phần lớn chiến dịch đã được chốt — lúc này neural network không có nhiều dữ liệu về người dùng. Để khắc phục vấn đề trên, và để xác định đó đúng là người dùng hợp lệ, máy học cố gắng tìm ra các mẫu chung phức tạp hơn giữa một bộ dữ liệu lớn hơn, bao gồm cả dữ liệu về các đặc điểm khó hiểu của người dùng. Cuối cùng, máy học tạo ra một bộ quy tắc cực kỳ phức tạp, xác định một tập hợp các số nhận dạng dường như không liên quan đến nhau giữa một rừng các tập hợp kỳ lạ.

Vì decision tree (cây quyết định, là một đồ thị biểu diễn các quyết định và các hậu quả có thể xảy ra khi đưa ra quyết định đó) rất phức tạp và khó hiểu, các công ty bán giải pháp phòng ngừa gian lận, trong đó sử dụng máy học là giải pháp chính cho việc lọc bỏ gian lận, có thể chọn cách làm giảm tính minh bạch của quá trình ra quyết định — họ không bao giờ giải thích việc họ làm hay tại sao họ làm vậy. Trong tương lai, việc này rất có thể sẽ gây rắc rối cho hoạt động phòng ngừa gian lận.

Tại sao minh bạch lại quan trọng

Đến cuối cùng các nhà quảng cáo vẫn phải giải quyết tranh cãi về gian lận với network, và nhìn chung, network không có đủ khẳ năng để thuyết trình hay giải thích về cơ chế loại trừ gian lận, và phải dẫn lại lời của khách hàng. Khách hàng lại dẫn lại lời của dịch vụ phân bổ mà họ sử dụng để giải thích những chênh lệch cơ bản. Với chỉ một phần nhỏ lượng truy cập, thì đây chưa thể gọi là vấn đề. Tuy nhiên, nếu bạn phải giải quyết một lượng lớn truy cập gian lận, network cần một bản giải trình chi tiết lý do họ loại trừ lượt truy cập đó.

Nếu nhà cung cấp phân bổ không thể đưa ra lời giải thích rõ ràng về việc tại sao họ lại từ chối lượt phân bổ đó, thì ý kiến của họ sẽ được quy là mang tính chủ quan. Và khi các ý kiến có sự khác biệt, không thể dựa vào các dữ liệu, vốn chỉ là các con số lạnh lùng khô khốc, để mà tranh cãi đúng sai. Nếu ngành đi theo hướng này, chúng ta sẽ rơi vào tình huống mà tại đó các network cố gắng diễn giải việc lọc bỏ gian lận như thể họ chỉ đưa ra một ý kiến khác.

Tóm lại, máy học là một công cụ tốt để phát hiện gian lận, nhưng không đủ tin cậy để được giao nhiệm vụ loại trừ gian lận, ít nhất là đến thời điểm này. Với khả năng hiện giờ của máy học, edge case có thể bị bỏ lỡ, và logic của mỗi quyết định, đến cuối cùng, sẽ tự mâu thuẫn với chính mình. Thay vào đó, các bên liên quan trong ngành cần nỗ lực hơn nữa để xây dựng nên một bộ lọc tốt, vừa chặn đứng gian lận nhưng không lọc bỏ các lượt cài đặt đến từ các nguồn hợp lệ.

Theo: Adjust