Tham dự Tech Lounge

Tham dự Tech Lounge


Làm sao Apple biết emoji nào được dùng nhiều nhất mà không đọc tin nhắn người dùng?

ND Minh Đức
8/12/2017 17:44Phản hồi: 100
Làm sao Apple biết emoji nào được dùng nhiều nhất mà không đọc tin nhắn người dùng?
Mặt vừa khóc vừa cười và trái tim là 2 biểu tượng cảm xúc emojis được dùng nhiều nhất, theo báo cáo cách đây không lâu của Apple. Vậy làm sao họ biết được thông tin thống kê này? Có phải họ đã theo dõi những gì mà người dùng chat? Câu trả là lời là bằng một kỹ thuật phân tích big data thông minh, Apple vừa có thể thu được số liệu hữu ích, vừa có thể đảm bảo quyền riêng tư của từng người dùng.

Chi tiết hơn, họ đã dùng một kỹ thuật khoa học máy tính mang tên Differential Privacy. Một cách đơn giản thì cách làm ở đây là thêm một số thông tin gây nhiễu để làm tối nghĩa dữ liệu trên một chiếc điện thoại của người dùng, nhưng sau đó, gói dự liệu đã bị gây nhiễu của người này sẽ được kết hợp với dữ liệu trải qua xử lý tương tự của người khác, từ đó khi quan sát trên cấp độ vĩ mô, Apple vẫn có thể hiểu được dữ liệu họ muốn lấy nhưng không hề đọc thông tin của từng cá nhân người dùng.

Và trường hợp của Apple chỉ là một thí dụ cho việc áp dụng Differential Privacy nhằm lấy dữ liệu thống kê một cách tinh tế.

Thí dụ như bạn muốn tiến hành một cuộc khảo sát trước khi bầu lớp trưởng nhằm xác định xem có bao nhiêu người bầu cho ứng cử viên A và B. Khi đó, bạn sẽ gọi những người đi bầu tới, yêu cầu họ bỏ biếu và ghi chép lại đầy đủ trong một cuốn sổ. Tuy nhiên, nếu bảng ghi chép này bị lộ hoặc đánh cắp thì danh sách toàn bộ những người bỏ phiếu cùng lựa chọn của họ sẽ bị lộ. Do đó, với cách làm này thì bạn dù có đạt được mục đích khảo sát nhưng đồng thời lại tạo ra nguy cơ tính riêng tư của nhiều người khác bị xâm hại.

Bây giờ, hãy nghĩ nếu như người tổ chức khảo sát gọi những người tham gia bầu chọn tới và hỏi họ một câu hỏi khác với việc hỏi thẳng là sẽ chọn ai làm lớp trước. Thí dụ như người tổ chức sẽ yêu cầu người bầu chọn tung đồng xu. Nếu mặt ngửa thì người đi bầu sẽ được yêu cầu nói thật rằng họ sẽ chọn ai làm lớp trưởng. Nếu mặt sấp, họ sẽ được yêu cầu chọn ngẫu nhiên trong số 2 ứng cử viên lớp trưởng và nói tên 1 người. Nói cách khác, đồng xu sấp đồng nghĩa với việc người bầu chọn sẽ chọn A và B theo tỷ lệ 50 - 50. Cuối cùng, cách làm này sẽ giúp người tổ chức cuộc bình chọn sẽ nghe được lựa chọn thật của người bầu chọn với tỷ lệ 75%, 25% còn lại là nghe được lời nói dối. Trong thí dụ này, việc đưa đồng xu vào chính là một cách gây nhiễu dữ liệu gốc và chính người tổ chức cũng không biết được câu trả lời họ nghe là đúng hay sai, chỉ biết được tỷ lệ phần trăm.

Do đó, cho dù bảng ghi chép kết quả sau cuộc bình chọn lớp trưởng bị lộ ra ngoài thì thông tin cá nhân của mỗi người tham gia bầu chọn vẫn được bảo vệ. Nguyên nhân là do người ta không xác định được ai bỏ phiếu cho ai, mỗi người đều có khả năng trả lời không đáng tin nên người lén đọc dữ liệu cũng không xác định được cái họ đọc chính xác hay không. Tuy nhiên, đối với người tiến hành khảo sát thì họ có thể tính được con số trung bình kết quả bầu chọn bởi chính họ mới là người biết được cách gây nhiễu dữ liệu. Nói cách khác, khi nhìn trên giác độ vĩ mô thì có thể thu được thông tin cần thiết, nhưng khi quan sát vi mô thì không khả dĩ.

Bieu_tuong_cam_xuc_Apple_Tinhte.png

Và đây cũng chính là cách mà Apple đã áp dụng để xác định được biểu tượng cảm xúc nào phổ biến nhất mà vẫn đảm bảo thông tin người dùng. Họ cho biết: “Ý tưởng này bắt nguồn từ việc xác định một cách cẩn thận quy mô của dữ liệu nhiễu để đủ bảo vệ dữ liệu người dùng. Một khi càng có nhiều người tham gia đóng góp vào khối dữ liệu chung, yếu tố nhiễu sẽ được trung bình hóa và thông tin có nghĩa bắt đầu xuất hiện.” Apple cho biết thêm rằng khi người dùng chấp nhận chia sẻ loại dữ liệu này với họ, yếu tố gây nhiễu được thêm vào dữ liệu trên điện thoại, sau đó một mẫu mã hóa ngẫu nhiên sẽ được chuyển tới máy chủ của Apple. Tuy nhiên trong đó không có chứa thông tin nhận diện thiết bị và thời gian tạo sự kiện. Còn nếu người dùng không tin vào cách làm này, họ vẫn có thể tắt nó bằng cách vào Settings -> Privacy -> Analytics, sau đó tắt mục Share iPhone Analytics là xong.

Bên cạnh việc xác định biểu tượng cảm xúc nào được dùng nhiều nhất hay bảo vệ những người bầu chọn lớp trưởng thì Differential Privacy còn là một công cụ quan trọng để giải quyết các vấn đề chuyên môn phức tạp khác. Điển hình như nó có thể được dùng để xác định tỷ lệ mắc ung thư trong một quần thể dân cư nhất định dù không xác định được cụ thể ai mắc bệnh. Nói cách khác, Differential Privacy là công cụ để thống kê được một đặc điểm của cả một tập hợp nào đó mà không phải là đặc điểm của từng phần tử.

Tham khảo Popsci, Ảnh Fortune
100 bình luận
Chia sẻ

Xu hướng

gala8x
ĐẠI BÀNG
6 năm
Bịa đặt, ai hiểu cách tung đồng xu bầu lớp trưởng k 😆
khoa471989
TÍCH CỰC
6 năm
@gala8x thứ ng-u còn tỏ ra nguy hiểm
gala8x
ĐẠI BÀNG
6 năm
@khoa471989 Khôn nhỉ :v
trucchison
TÍCH CỰC
6 năm
@GiT Bác đang nghĩ sai logic rồi.
Vấn đề là khi số mẫu thử thật nhiều, 10 triệu hay 100 triệu mẫu thử, xác suất số lần sấp và số lần ngửa sẽ gần bằng 50% với chênh lệch cực cực ít.
Mình không cần quan tâm lần nào sấp và lần nào ngửa, mình chỉ cần biết có 50% sấp và 50% ngửa.
---> Không thể biết được người nào tung đồng xu ngửa, người nào tung đồng xu sấp, nhưng có thể biết 75% số người đã bình chọn thật.
---> Có kết quả với độ chính xác chấp nhận được và không sợ lộ thông tin bầu chọn của mỗi người.

Quan trọng là không cần quan tâm lần nào sấp lần nào ngửa, chỉ biết chắc chắn là có ~50% sấp ~50% ngửa.
GiT
TÍCH CỰC
6 năm
@trucchison Bạn lấy dữ liệu ở đâu để có từ "CHẮC CHẮN"??? Nó chỉ là XÁC XUẤT, nhưng thực tế thì dù ĐÚNG 99.9% vẫn có thể SAI, và dù 0.1% là ĐÚNG thì vẫn CHÍNH XÁC.

@kkzbanana: Khi bạn nói mình bỏ học lớp 9 mình chẳng ý kiến, nhưng khi bạn viết sai chính tả thì mình chỉ muốn nói với bạn một điều: Bạn nên học lại lớp 1 đi trước khi viết bất cứ điều gì.
Cực thích Emoji này 😁
Ôi Apple thật là nhân đạo, quá vĩ đại các bác ạ =))
riết rồi ko chỉ Quảng là nổ, giờ cả Apple cũng xàm lol luôn rồi :3 quanh co chối tội.
gala8x
ĐẠI BÀNG
6 năm
Nói thẳng ra là tui thu đi còn bịa đặt, tui chỉ thu cái emoji thôi không thu nội dung đâu 😆)
buihai
CAO CẤP
6 năm
@gala8x Nói đúng ý mình Nói chốt lại là Apple chỉ theo dõi emoji, không đọc nội dung tin nhắn Còn khi nào tao đọc thì cứ chờ đấy, tao thích thì tao sẽ đọc thôi =))
Bahamutzero
ĐẠI BÀNG
6 năm
@gala8x không đọc nội dung mà vẩn biết mình dùng emoji gì thật là vi diệu😁
Nó muốn nói gì chả được
bababucon
ĐẠI BÀNG
6 năm
@Duy Thông Ngố Về cơ bản, Apple sẽ đưa dữ liệu giả mạo vào bộ dữ liệu mà họ thu thập từ tất cả người dùng của họ để làm cho nó khó xác định được một người dùng. Nó cho phép các nhà phân tích thực hiện các tác vụ truy vấn phân tích chi tiết dữ liệu, nhưng sẽ chặn mọi quyền truy cập trực tiếp vào lớp dữ liệu nhảy cảm phía dưới – biện pháp này còn gọi là “riêng tư biệt lập” (differential privacy). Sau cùng, nó vẫn là thu thập thông tin người dùng rồi mà hoá nó, mà trước mã hoá thì thông tin ngươif dùng vẫn còn đầu đủ các đặc điểm nhận dạng đã bị thu thập. Tắt mục share cho Apple là an toàn nhất.
bababucon
ĐẠI BÀNG
6 năm
@bababucon Apple bán máy cho mình thì tính phí, cớ gì ko trả phí cho việc thu thập thông tin để nghiên cứu mà mình phải share free cho nó.
chỉ là lừa gà. mọi thứ chúng nó đều biết. bất kể hãng nào
huybm
TÍCH CỰC
6 năm
@nguyenmanh287 Cũng éo biết tại sao lại có bài này, cơ bản là ko hề tin vụ nó ko hề lưu thông tin người dung, cái này còn đáng giá hơn nhiều lần thiết bị và là thứ vũ khí sống còn của công ty công nghệ
Thôi đừng chém 😆 cái ví dụ quá tối nghĩa, đồng xu úp mà ra cái 50% 50% thì có giá trị gì trong việc đưa ra kết quả không ?

Đi thẳng vào vấn đề đi, vậy Apple làm thế nào để biết người dũng gõ cái gì nếu không có 1 cơ chế nào đọc được dữ liệu gõ. Chẳng qua là khi phân tích thì họ xử lý lắt léo hơn để không lộ thông tin người dùng.
@hypous Hợp lý đấy bác, đừng chỉ cào phím, hãy đi kiện Apple và trở thành triệu phú thôi nào ;)
@lsjshdfogsjop Ủa, Apple đâu có gì sai đâu mà kiện họ @@ Mình đang khen là Apple có cách xử lý việc thu thập dữ liệu khéo mà, bạn có hiểu nhầm gì ở đây không.

Cơ mà câu hỏi lớn nhất là Apple có thu thập hay không, chứ không phải Apple phân tích thông tin thu thập thế nào, mà bài này thì đang nói về vấn đề phân tích chứ không nói về vấn đề thu thập.

À, thậm chí Apple cũng rất khéo khi đưa thông tin cho nhà báo viết cái vụ này, sử dụng ngôn từ cố gắng lắt léo cao siêu, hướng người dùng hiểu theo nghĩa Apple không thi thập dữ liệu =]]
buihai
CAO CẤP
6 năm
@hypous Nói ngắn gọn là Apple có thu thập thông tin bàn phím Còn nó thu cái gì thì nó biết, nó chỉ giả vờ xì ra 1 tí như emoji thôi. Còn phần chìm của tảng băng thì người dùng éo biết đc đâu
Thật ra nó có lấy dữ liệu của mình đọc thật hay ko thì cũng chịu.
Chỉ đau đầu mỗi lần thanh toán visa online làm thế nào để bảo mật nhất, hiện tại ngân hàng có cung cấp dịch vụ xác thực 2 bước (verified for visa) nhưng vẫn cảm thấy chưa yên tâm lắm. Bác nào có kinh nghiệm vụ này chỉ em với.
@hung_technology_92 khoá thẻ và ra đường tiêu tiền giấy nha. đã vào thẻ thì ít nhất là chính phủ và ngân hàng biết ông làm gì với cái thẻ đấy
buihai
CAO CẤP
6 năm
@hung_technology_92 Dùng các cổng thanh toán không dùng số thẻ như paypal sẽ không sợ lộ số thẻ Hoặc đơn giản dùng visa debit xài bao nhiêu chuyển vô bấy nhiêu, lộ cũng không có tiền mà hack
Khổ thân Seeder, đói quá xương cũng ko tha!
Vì Apple bị giảm doanh số 😁
Nó thẳng 1 cách vòng vo là đọc trộm.ok
Thời này thằng sx lấy trộm 1 lần xong là đến bên thứ 3 thích gì lấy đó còn lại là phần của nhà mạng. Hết.
Ko lấy 3 lần như thế thì lấy thông tin đâu mà bán cho tin nhắn rác với qc
bao biện hộ làm gì
Tại sao HK phone lại cháy hàng tại tất cả các điểm bán lẻ ?

Bà có biết tại sao dạo này tôi khỏe thế không? vì có sâm nhung bổ thận =)) á hự á hự
nit50000
ĐẠI BÀNG
6 năm
Đó là một cách nói thôi. Thực sự thì để kết quả khảo sát chính xác và khách quan thì phải đánh đổi sự riêng tư quan trọng là đánh đổi bao nhiêu. Như trong ví dụ trên: có đến 50% người phải trả lời thật (do xác suất tung đồng xu), như vậy bốc đại 1 lá phiếu thì có đến 50% lá phiếu đó nói thật. Thí nghiệm cho kết quả tương đương là nhờ 50% số cử tri bỏ phiếu thành thật, 50% kia không cần bỏ, máy tính tự gen ra. Ở thí nghiệm này tập mẫu giảm 50% nhưng vẫn cho kết quả tương đương (=> rõ ràng là kém chính xác hơn việc bỏ phiếu thành thật 100%). Túm lại, thuật toán này thực sự vẫn cần dữ liệu thật, nó chỉ hạn chế việc xác minh danh tín của nguồn dữ liệu thôi. Và càng có nhiều dữ liệu thật thì kết quả càng chính xác.
GiT
TÍCH CỰC
6 năm
@nit50000 Bạn lấy dữ liệu ở đâu mà nói 50% người trả lời thật? Xác xuất tung đồng xu chỉ đúng 50-50 cho mỗi lần thôi nhé. Nếu bạn tính liên tiếp 2 lần thì độ chính xác chỉ còn 25%. Giả sử mình đưa ra điều kiện là tổng có 100 lần tung đồng xu, trong đó có 10 lần là mặt sấp (nói thật) và 90 lần mặt ngửa (nói dối) thì kết quả bạn thu được dựa trên cơ sở đó có bao nhiêu % là nói thật?
nit50000
ĐẠI BÀNG
6 năm
@GiT Ơ hay. Có phải tính xác suất tất cả các đồng xu đều sấp hay đều ngửa đâu mà tính xác suất phụ thuôc. Đọc lại cái ví dụ lớp trưởng và cái comment đi rồi phán nha. Còn lái sang cái bài khác mới ghê (cơ bản là viết cái đề cũng thấy sai rồi mà đố làm gì, hông ai trả lời được đâu). Đi chỗ khác chơi đi.
xuankienbui
ĐẠI BÀNG
6 năm
dịch mà chả hiểu cái mẹ gì
nói that chứ thông cảm là Tinh Tế phải có bài đăng thì mới dc, nhưng ko phải bài nào đọc cũng nên tin nha bà con.

Apple/Google/Microsoft/Facebook, 4 thằng này mà ko đọc thông tin ngời dung thì chó nó tin
legiondark
TÍCH CỰC
6 năm
@hoangnguyen85 Thông tin là mỏ dầu của thời đại kỹ thuật số, và Apple, Google, Facebook,... đang nằm trên những mỏ dầu cực kỳ khổng lồ đến mức không thể tưởng tượng đc.
Không có công ty công nghệ nào mà ko thu thập thông tin người dùng. Chỉ có ít hay nhiều, lộ hay kín mà thôi. Ngay cả chính phủ còn nói dối thì tin mấy ông bán hàng có ngày chết ko kịp ngáp.
@minhhai1278 Nói thẳng ra thì không phải thu thập ít hay nhiều mà mấy ổng có xem hay không
Vịt 2019
TÍCH CỰC
6 năm
Ngon. Mấy anh Khựa nên học hỏi. Chứ ăn cắp thông tin người nghèo tùm lum hà 😁

Xu hướng

Bài mới









  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019