Dữ liệu lớn & quyền riêng tư: Rủi ro riêng tư là gì? | VPNOverview

Trong vài thập kỷ qua, thế giới đã thay đổi rất nhiều về nhiều mặt, đặc biệt là khi nói đến CNTT. Số lượng người chúng ta có thể liên lạc hàng ngày đã tăng lên rất nhiều, giống như lượng thông tin chúng ta có quyền truy cập. Tuy nhiên, điều tương tự cũng đúng với lượng thông tin mà các công ty lớn thu thập về chúng tôi. Các thuật ngữ như dữ liệu lớn được sử dụng thường xuyên hơn khi thời gian trôi qua. Nhưng điều này có nghĩa là gì, chính xác? Dữ liệu lớn là gì? Có nguy hiểm không? Nó ảnh hưởng đến sự riêng tư của chúng ta như thế nào, nếu có? Đó là một số câu hỏi mà chúng tôi sẽ đề cập trong bài viết này.


Dữ liệu lớn là gì?

Danh sách với kính lúpThuật ngữ dữ liệu lớn, dữ liệu mô tả số lượng lớn dữ liệu (cá nhân) liên tục được thu thập bởi các tác nhân khác nhau. Một ví dụ sẽ là tất cả các thông tin Google tập hợp về người dùng của nó Truy vấn tìm kiếm. Hiện tượng dữ liệu lớn là một sự phát triển tương đối bắt đầu bởi vì các công ty và tổ chức (lớn), như Facebook, Google và hầu hết các chính phủ, bắt đầu thu thập dữ liệu về người dùng, khách hàng và công dân của mình nhiều hơn trước. Các công nghệ mới, một thế giới số hóa và internet đã hỗ trợ cho sự phát triển này.

Bộ sưu tập dữ liệu lớn thường rất lớn đến nỗi không thể phân tích chúng bằng phân tích dữ liệu truyền thống. Tuy nhiên, nếu người ta phân tích dữ liệu lớn đúng cách, các mẫu và kết luận thú vị có thể được tạo ra. Chẳng hạn, dữ liệu lớn thường được sử dụng cho nghiên cứu thị trường quy mô lớn: sản phẩm nào có khả năng được mua nhiều nhất? Loại quảng cáo nào hiệu quả nhất khi bạn muốn tiếp cận và thuyết phục khách hàng?

Để một tập dữ liệu được coi là dữ liệu lớn, nó thường phải đáp ứng ba tiêu chí sau, còn được gọi là 3 v:

  • Âm lượng: Dữ liệu lớn là bất cứ điều gì ngoại trừ một mẫu nhỏ. Nó liên quan đến các bộ sưu tập dữ liệu khổng lồ, kết quả từ việc quan sát lâu dài, liên tục.
  • Vận tốc: Điều này có liên quan đến tốc độ ấn tượng mà dữ liệu lớn được thu thập. Hơn nữa, dữ liệu lớn thường có thể truy cập trong thời gian thực (vì nó đang được thu thập).
  • Đa dạng: Các bộ dữ liệu lớn thường chứa nhiều loại thông tin khác nhau. Dữ liệu trong các tập dữ liệu lớn thậm chí có thể được kết hợp để điền vào bất kỳ khoảng trống nào và làm cho tập dữ liệu hoàn chỉnh hơn nữa.

Ngoài 3 v V này, dữ liệu lớn còn có một số đặc điểm khác. Ví dụ, dữ liệu lớn là tuyệt vời cho máy học. Điều này có nghĩa là nó có thể được sử dụng một cách hiệu quả để dạy cho máy tính và máy một số tác vụ nhất định. Hơn nữa, khi chúng tôi đã chạm vào một thời gian ngắn, dữ liệu lớn có thể được sử dụng để phát hiện các mẫu. Điều này chủ yếu xảy ra theo một cách rất hiệu quả, bằng các máy tính làm việc trên dữ liệu. Cuối cùng, dữ liệu lớn là sự phản ánh của người dùng dấu vân tay kỹ thuật số. Điều này có nghĩa là nó là một sản phẩm phụ của mọi người Các hoạt động trực tuyến và kỹ thuật số và có thể được sử dụng để xây dựng hồ sơ cá nhân.

Các loại dữ liệu lớn khác nhau

Có nhiều cách khác nhau để phân loại dữ liệu lớn. Cách đầu tiên, được sử dụng thường xuyên nhất, phân biệt dữ liệu lớn dựa trên loại dữ liệu đang được thu thập. Ba loại có thể được sử dụng cho loại phân loại này là: dữ liệu lớn có cấu trúc, dữ liệu lớn không cấu trúc và dữ liệu lớn bán cấu trúc.

  1. Cấu trúc: Khi dữ liệu lớn được cấu trúc, nó có thể được lưu và trình bày một cách có tổ chức và hợp lý, làm cho dữ liệu dễ truy cập hơn và dễ hiểu hơn. Một ví dụ sẽ là một danh sách các địa chỉ khách hàng được tạo bởi một công ty. Trong danh sách này, người ta có thể sẽ tìm thấy khách hàng tên, địa chỉ và có thể các chi tiết khác như số điện thoại, tất cả đều được cấu trúc rõ ràng, ví dụ như biểu đồ hoặc bảng.
  2. Không cấu trúc: Dữ liệu lớn không có cấu trúc hoàn toàn không được tổ chức. Nó thiếu một bài thuyết trình hợp lý sẽ có ý nghĩa với người bình thường. Chẳng hạn, dữ liệu lớn không có cấu trúc không có cấu trúc, ví dụ, một bảng biểu thị sự kết hợp nhất định giữa các yếu tố khác nhau của tập dữ liệu. Do đó loại dữ liệu này khá khó khăn để điều hướng và hiểu. Nhiều bộ dữ liệu ban đầu bắt đầu dưới dạng dữ liệu lớn không có cấu trúc.
  3. Bán cấu trúc: Dữ liệu lớn có cấu trúc bán, như bạn có thể đoán, có các đặc điểm của cả dữ liệu lớn có cấu trúc và không cấu trúc. Bản chất và cách thể hiện của loại dữ liệu này aren Hoàn toàn tùy ý. Tuy nhiên, nó cũng có cấu trúc và tổ chức đủ để được sử dụng cho một phân tích có ý nghĩa. Một ví dụ sẽ là một trang web chứa các thẻ dữ liệu meta cụ thể (thông tin bổ sung có thể hiển thị trực tiếp trong văn bản), ví dụ vì nó chứa các từ khóa nhất định. Các thẻ này hiển thị hiệu quả các bit thông tin cụ thể, chẳng hạn như tác giả của một trang hoặc thời điểm nó được đặt trực tuyến. Bản thân văn bản về cơ bản không có cấu trúc, tuy nhiên các từ khóa và dữ liệu meta khác mà nó chứa giúp làm cho nó trở thành một cơ sở phù hợp để phân tích.

Phân loại dựa trên nguồn dữ liệu lớn

Một cách phổ biến khác để phân biệt giữa các loại dữ liệu lớn khác nhau là bằng cách xem nguồn gốc của dữ liệu. Ai hoặc cái gì đã tạo ra thông tin? Giống như phân chia trước, phương pháp phân loại này cũng bao gồm 3 loại khác nhau.

  1. Mọi người: Thể loại này liên quan đến dữ liệu lớn được tạo ra bởi mọi người. Ví dụ sẽ là sách, hình ảnh, video cũng như thông tin và dữ liệu (cá nhân) trên các trang web và phương tiện truyền thông xã hội, chẳng hạn như Facebook, Twitter, Instagram, v.v..
  2. Quy trình đăng ký: Danh mục này bao gồm loại dữ liệu lớn truyền thống hơn, được thu thập và phân tích bởi các công ty (lớn) để cải thiện các quy trình nhất định trong doanh nghiệp.
  3. Máy móc: Đây là loại kết quả dữ liệu lớn từ số lượng cảm biến ngày càng tăng được đặt trong máy. Một ví dụ sẽ là cảm biến nhiệt thường được tích hợp trong bộ xử lý máy tính. Dữ liệu được tạo bởi các máy thường có thể rất phức tạp, nhưng ít nhất loại dữ liệu lớn này thường có cấu trúc tốt và đầy đủ.

Dữ liệu lớn có thể được sử dụng để làm gì?

facebook LogoTất cả mọi thứ thảo luận cho đến nay vẫn có thể nghe hơi trừu tượng. Hãy cùng làm cho mọi thứ cụ thể hơn một chút và thảo luận về một số ứng dụng thực tế của dữ liệu lớn. Rốt cuộc, có rất nhiều, rất nhiều cách mà các công ty và tổ chức sử dụng dữ liệu lớn. Một trong những điều đầu tiên xuất hiện trong đầu là số lượng lớn các công ty dữ liệu thu thập về chúng tôi. Facebook thu thập dữ liệu về tất cả người dùng và phân tích điều này để quyết định những gì sẽ hiển thị cho bạn trên dòng thời gian của bạn. Tất nhiên, điều này được thực hiện để phục vụ cho mong muốn và sở thích cá nhân của bạn. Facebook hy vọng điều này sẽ giúp bạn ở lại trang web của họ trong thời gian dài hơn. Đổi lại, Amazon tập hợp thông tin về khách hàng và các sản phẩm họ mua. Bằng cách đó, Amazon có thể đề xuất các sản phẩm mà họ nghĩ rằng bạn sẽ quan tâm và tăng thu nhập theo cách này.

Tuy nhiên, dữ liệu lớn cũng được sử dụng theo những cách hoàn toàn khác với các chiến lược thương mại được mô tả ở trên. Chẳng hạn, các công ty vận tải công cộng có thể thu thập dữ liệu về mức độ bận rộn của các tuyến đường. Sau đó, họ có thể phân tích dữ liệu này để quyết định, ví dụ, tuyến đường nào cần thêm xe buýt hoặc tàu hỏa. Một trường hợp nổi tiếng khác về việc sử dụng hiệu quả dữ liệu lớn liên quan đến công ty phân phối quốc tế khổng lồ UPS. UPS sử dụng phần mềm đặc biệt được phát triển sau khi phân tích dữ liệu lớn. Phần mềm này giúp người lái xe UPS tránh rẽ trái, tốn kém hơn, lãng phí và nguy hiểm hơn so với rẽ phải. Giả sử, hệ thống này đã tiết kiệm được hàng triệu gallon nhiên liệu, tất cả là nhờ vào dữ liệu lớn.

Một ví dụ thú vị khác về thu thập dữ liệu lớn là các xét nghiệm DNA và các trang web như MyHeritage DNA. Trang web này tuyên bố nó có thể giúp bạn khám phá nguồn gốc dân tộc của mình và tìm người thân mới với một xét nghiệm DNA đơn giản. Không cần phải nói, quá trình này bao gồm rất nhiều thu thập dữ liệu và tham chiếu chéo, làm cho nó trở thành một người chơi chính khác trong việc thu thập và sử dụng dữ liệu lớn. Truyền thống, các xét nghiệm DNA vật lý cũng liên quan đến một lượng lớn dữ liệu lớn, vì các công ty thực hiện các thử nghiệm này sẽ thu được các tập dữ liệu cực lớn về nhiều, rất nhiều người. Tất nhiên, điều quan trọng là phải nhận thức được những rủi ro có thể xảy ra với các quy trình thu thập dữ liệu lớn này. Những rủi ro này sẽ được nêu rõ trong phần tiếp theo của bài viết này.

Dữ liệu lớn có nguy hiểm không?

Như đã trình bày ở trên, dữ liệu lớn có thể cực kỳ hữu ích trong nhiều trường hợp. Nó cung cấp cho chúng tôi rất nhiều thông tin mà chúng tôi có thể sử dụng để hợp lý hóa các quy trình và làm cho các công ty hiệu quả hơn và có lợi hơn. Tuy nhiên, điều này không có nghĩa là thu thập và sử dụng dữ liệu lớn là hoàn toàn không có rủi ro. Có năm rủi ro quan trọng đi kèm với dữ liệu lớn. Chúng tôi sẽ thảo luận về tất cả năm ở đây.

Tin tặc và kẻ trộm

Với tất cả mọi thứ chúng tôi làm trực tuyến, có một rủi ro cố hữu là dữ liệu và thông tin cá nhân của chúng tôi về các hoạt động trên internet của chúng tôi có thể bị đánh cắp. Mỗi người dùng internet phải nhận thức được điều này. Số lượng rò rỉ dữ liệu và trộm cắp đã tăng mạnh trong vài năm qua. Thường có những câu chuyện trong tin tức về tội phạm bán bộ dữ liệu có chứa mật khẩu và thông tin khác trên các địa điểm như web tối. Thông thường, các bộ dữ liệu này bị đánh cắp từ các trang web, công ty và tổ chức chính thức. Những bộ dữ liệu này càng lớn thì càng thú vị hơn khi những tên trộm cố gắng lấy chúng. Nếu họ nhúng tay vào các bộ dữ liệu này, chúng có thể gây ra nhiều vấn đề. Không cần phải nói, điều này cũng có thể làm tổn hại rất nhiều đến quyền riêng tư của bạn.

Riêng tư

Việc thực hành thu thập dữ liệu cá nhân ngày càng trở nên phổ biến. Tuy nhiên, các quy định về quyền riêng tư hiện tại có thể giúp theo kịp sự phát triển nhanh chóng của công nghệ giúp thực hành này có thể thực hiện được. Điều này để lại không gian cho các khu vực màu xám và những điều không chắc chắn có thể được giải quyết bằng cách xem xét luật. Những lo ngại về quyền riêng tư quan trọng phát sinh bao gồm: Loại dữ liệu nào được phép thu thập? Về ai cơ? Ai nên có quyền truy cập vào dữ liệu này?

Khi thu thập lượng lớn dữ liệu, khả năng thông tin cá nhân nhạy cảm được đưa vào các bộ dữ liệu đó rất cao. Đây là một vấn đề, ngay cả khi tin tặc và kẻ trộm không chơi được. Rốt cuộc, dữ liệu nhạy cảm về quyền riêng tư có thể bị lạm dụng bởi bất kỳ ai có ý định xấu. Điều này bao gồm các công ty và tổ chức (độc hại).

Phân tích dữ liệu kém

Nhiều công ty và tổ chức thu thập dữ liệu lớn, bởi vì họ có thể sử dụng nó cho các phân tích thú vị. Điều này có thể cung cấp cho họ những hiểu biết mới quan trọng về bất cứ điều gì họ đang nghiên cứu (ví dụ như thói quen của người tiêu dùng). Đổi lại, những hiểu biết và kết luận này có thể chuyển thành những thay đổi trong công ty dẫn đến tỷ suất lợi nhuận cao hơn và lợi nhuận cao hơn. Tuy nhiên, giống như với bất kỳ tập dữ liệu bình thường khác, một phân tích không chính xác về dữ liệu lớn có thể gây ra hậu quả nghiêm trọng. Rốt cuộc, một phân tích không phù hợp có thể dễ dàng dẫn đến kết luận sai. Chúng có thể lần lượt chuyển thành các biện pháp không hiệu quả hoặc thậm chí phản tác dụng.

Thu thập dữ liệu của Sai

Dữ liệu lớn đang ngày càng trở nên phổ biến và các tổ chức ngày càng sẵn sàng thu thập tất cả các loại dữ liệu. Điều này có nghĩa là lượng dữ liệu khổng lồ đang được thu thập mà không có lý do rõ ràng để phân tích chúng. Nói cách khác, nó tạo ra một cơ sở dữ liệu khổng lồ về thông tin thô đã được thu thập chỉ trong trường hợp. Các công ty có thể nghĩ rằng nó đủ dễ để thu thập tất cả dữ liệu đó, vì vậy họ cũng có thể làm điều đó. Không cần phải nói, điều này rất tốt cho bất cứ ai về quyền riêng tư của bạn. Nó thậm chí có thể dẫn đến việc dữ liệu sai không liên quan hoặc bị lỗi được thu thập và phân tích. Nếu kết luận rút ra từ phân tích này được sử dụng trong quản lý, nó có thể dẫn đến các biện pháp không hiệu quả tương tự được đề cập trong đoạn trước.

Thu thập và lưu dữ liệu lớn với mục đích xấu

Việc thu thập dữ liệu lớn được sử dụng ngày càng thường xuyên bởi các công ty, tổ chức và chính phủ để họ có thể tạo hồ sơ cá nhân chính xác về con người. Người dùng hoặc công dân hầu như không bao giờ được thông báo về dữ liệu cá nhân nào của họ đang được đăng ký, chứ chưa nói tại sao và như thế nào. Không cần phải nói, điều này có ý nghĩa nghiêm trọng đối với quyền riêng tư trực tuyến của họ. Tất cả mọi thứ họ làm trực tuyến, có thể được lưu và xem sau. Hơn nữa, những người thu thập dữ liệu lớn có thể dễ dàng tác động và thao túng mọi người ra quyết định bằng cách phân tích và sử dụng dữ liệu thu thập được.

Dữ liệu lớn và quyền riêng tư

Điện thoại thông minh có hình taiNhư bạn có thể hiểu bây giờ, dữ liệu lớn đi kèm với rất nhiều bất lợi và rủi ro. Tuy nhiên, nhiều công ty và tổ chức vẫn thu thập dữ liệu trên quy mô lớn, chủ yếu là do cách nó có thể giúp họ phát triển và thăng tiến. Thu thập dữ liệu lớn dễ dàng hơn bao giờ hết. Điều này có hậu quả rất lớn cho sự riêng tư của chúng tôi. Chúng tôi đã thảo luận ngắn gọn về những nguy cơ riêng tư có thể có của các bên độc hại thu thập dữ liệu xấu. Vì quyền riêng tư của chúng tôi gắn chặt với việc thu thập dữ liệu cá nhân hàng loạt, chúng tôi muốn sử dụng phần này để thảo luận về các mối quan tâm riêng tư khác nhau đi kèm với dữ liệu lớn.

Thu thập dữ liệu quy mô lớn

Rất nhiều công ty, bao gồm Google, Facebook và Twitter, phụ thuộc rất nhiều vào quảng cáo để duy trì bản thân và kiếm lợi nhuận. Để làm cho những quảng cáo này hiệu quả nhất có thể, các công ty này tạo hồ sơ chi tiết về người dùng của họ, đặc biệt là tính đến sở thích và sở thích của họ. Đây là một dạng dữ liệu lớn. Tương tự như vậy, chính phủ và các dịch vụ bí mật cũng phụ thuộc vào dữ liệu lớn. Họ sử dụng lượng thông tin khổng lồ này để theo dõi và điều tra những người mà họ cho là đáng ngờ. Tất nhiên, điều này cũng có nghĩa là có rất nhiều dữ liệu lớn cho tội phạm mạng để có được và thậm chí có thể thao túng và lạm dụng. Điều này có thể tạo ra tất cả các loại vấn đề riêng tư và liên quan đến danh tính. Một trong những ý tưởng, là trộm danh tính.

Tuy nhiên, các khả năng đi kèm với bộ sưu tập trong cơ sở dữ liệu rộng hơn nhiều so với điều này. Ngày nay, công nghệ đã trở nên tiên tiến và thông minh, có thể kết hợp các bộ dữ liệu. Điều này có thể được thực hiện theo một cách thông minh và xảo quyệt như vậy, rằng các tập đoàn và tổ chức lớn có thể biết nhiều về bạn hơn bạn! Bạn là ai, bạn sống ở đâu, sở thích của bạn là gì, bạn bè của bạn là ai: không có thông tin này sẽ được giữ kín nữa. Không phải là một suy nghĩ rất an ủi, bạn có thể nghĩ. May mắn thay, có một số cách để bảo vệ bạn khỏi sự xâm phạm quyền riêng tư quy mô lớn mà dữ liệu lớn có thể gây ra.

Luật về quyền riêng tư

Bánh quy trên màn hìnhLuật và quy định về quyền riêng tư có thể bảo vệ chúng tôi chống lại sự xâm phạm quyền riêng tư, nhưng chỉ ở một mức độ nhất định. Để làm cho vấn đề phức tạp hơn, luật riêng tư thường khác nhau rất lớn giữa các quốc gia và khu vực khác nhau. Ví dụ, ở châu Âu, một luật bảo mật người tiêu dùng tương đối nghiêm ngặt được gọi là Quy định bảo vệ dữ liệu chung (GDPR) có hiệu lực. Luật này áp dụng cho tất cả các quốc gia thành viên EU, mặc dù chi tiết có thể khác nhau ở mỗi quốc gia. Nhiều công ty quốc tế đã quyết định tuân thủ tất cả các hoạt động kinh doanh của họ với GDPR. Đây là lý do tại sao Google, ví dụ, hiện cho phép người dùng yêu cầu xóa thông tin cá nhân. Tuy nhiên, luật riêng tư ở Hoa Kỳ khác nhau giữa các tiểu bang và don bảo vệ người tiêu dùng cũng như EU. Thật không may, điều này thậm chí đúng với luật riêng tư cứng rắn nhất ở Mỹ, Đạo luật bảo mật người tiêu dùng California.

Nói tóm lại, không có điều gì giống như luật bảo mật toàn cầu mạnh mẽ của thế giới, áp dụng cho tất cả những người thu thập dữ liệu lớn và bảo vệ tất cả người dùng. Điều này có nghĩa là quyền riêng tư của chúng tôi không chỉ bị tổn hại bởi những người thu thập dữ liệu lớn bất hợp pháp, mà ngay cả theo những cách hoàn toàn hợp pháp, nghịch lý như điều này có thể nghe. May mắn thay, các hành vi xâm phạm quyền riêng tư quy mô lớn bị phơi bày bởi những người thổi còi như Edward Snowden và Chelsea Manning đã giúp tăng cường nhận thức về những rủi ro của dữ liệu lớn. Tất nhiên, đây chỉ là bước đầu tiên để cải thiện luật riêng tư hiện hành.

Nhiều người dùng internet không sẵn sàng chờ đợi một sự cải thiện trong luật riêng tư – và đúng như vậy. Thay vào đó, họ muốn tự mình hành động bằng cách làm bất cứ điều gì có thể để bảo vệ sự riêng tư của họ. Bạn có muốn tránh trở thành một phần của vô số bộ dữ liệu lớn không? Có một số mẹo và thủ thuật để giúp bạn trên đường.

Làm cách nào để giữ dữ liệu của bạn khỏi bị lưu trong các tập dữ liệu lớn

Bộ dữ liệu lớn ảnh hưởng nghiêm trọng đến quyền riêng tư và bảo mật của bạn. Các bộ dữ liệu này có thể chứa tất cả các loại thông tin (cá nhân), có thể bị lạm dụng bởi các công ty lớn hoặc thậm chí là tội phạm mạng. Đó là lý do tại sao bạn phải luôn đảm bảo để lại ít dấu vết trực tuyến nhất có thể. Các mẹo sau đây có thể giúp bạn thực hiện điều này:

  • Cố gắng giảm thiểu việc sử dụng thông tin cá nhân của bạn khi tạo mật khẩu hoặc nói chung trên web. Ví dụ: tránh sử dụng tên, địa chỉ, số điện thoại, ngày sinh, v.v..
  • Luôn nhớ những điều sau: mọi thứ bạn xuất bản trên internet, sẽ ở đó mãi mãi. Điều này có thể không phải lúc nào cũng hoàn toàn đúng, nhưng mức độ thận trọng này sẽ giúp bảo vệ sự riêng tư của bạn. Bạn sẽ tự động xử lý dữ liệu riêng tư của mình một cách cẩn thận hơn khi bạn nhận thức được thực tế này.
  • Đảm bảo kết nối internet của bạn an toàn và được ẩn danh, ví dụ: bằng cách sử dụng trình duyệt Tor hoặc VPN chẳng hạn.
  • Sử dụng một hoặc một số trình chặn quảng cáo trong trình duyệt của bạn.
  • Sử dụng trên hoặc nhiều trình cắm trình duyệt chặn trình theo dõi và cookie.
  • Thường xuyên xóa bộ nhớ cache của bạn và xóa lịch sử duyệt web và cookie của bạn.
  • Đăng xuất khỏi trang web khi bạn không tích cực sử dụng chúng.

Thực hiện các bước này là một khởi đầu tốt khi bảo vệ sự riêng tư và bảo mật trực tuyến của bạn. Tuy nhiên, hãy nhớ rằng dữ liệu lớn được thu thập theo nhiều cách khác nhau – không chỉ trực tuyến. Nói tóm lại, dù bạn ở đâu và bất cứ điều gì bạn làm, bạn nên luôn cảnh giác và cố gắng bảo vệ dữ liệu (cá nhân) của bạn khỏi những người thu thập dữ liệu lớn.

Kim Martin
Kim Martin Administrator
Sorry! The Author has not filled his profile.
follow me