CNQP&KT - Dữ liệu lớn (Big Data) là một tập hợp dữ liệu kỹ thuật số rất lớn và phức tạp mà các công cụ và ứng dụng xử lý truyền thống không thể thực hiện được. Đây là một trong những sản phẩm tiêu biểu của cuộc Cách mạng công nghiệp lần thứ tư (cách mạng 4.0), có tác động sâu sắc đến nhiều lĩnh vực của đời sống xã hội.

ĐẶC TRƯNG CỦA DỮ LIỆU LỚN

Hiểu một cách đơn giản, Dữ liệu lớn là một tập hợp dữ liệu khổng lồ, có quy mô lớn đến mức khó có thể đo đếm chính xác, bởi nó liên tục phát triển. Dữ liệu lớn được mô tả bởi các đặc trưng: Dung lượng (Volume); Tốc độ (Velocity); Tính đa dạng (Variety); Tính xác thực (Veracity) và Giá trị (Value). Theo thống kê, cứ sau 11 giây thì có 1 PetaByte (PB, 1 PB = 1 triệu tỷ Byte) dữ liệu được tạo ra, và cứ sau 2 năm thì tăng gấp đôi; tuy nhiên, trên thực tế, con số này có thể lớn hơn rất nhiều. Theo một đánh giá khác, chỉ khoảng 5% dữ liệu ở dạng có cấu trúc, đã được xử lý, 95% còn lại ở dạng phi cấu trúc và chưa được thu thập, xử lý (nguồn dữ liệu từ các trang mạng, các bộ phim, hình ảnh, thông tin cá nhân, tổ chức, quảng cáo...). Các dữ liệu này đang nằm ngoài các hệ thống quản lý dữ liệu truyền thống, là nguồn tài nguyên vô cùng phong phú, có thể mang lại giá trị kinh tế và sự cạnh tranh rất lớn giữa các công ty công nghệ toàn cầu.

Ngày nay, Dữ liệu lớn được hình thành và phát triển cao hơn, trên nền tảng công nghệ hiện đại, đặc biệt là Internet kết nối vạn vật (Internet of Things - IoT), các hệ thống kết nối Internet (Internet of Systems - IoS). Cùng với việc phát triển nhanh chóng của các thiết bị điện tử cá nhân; việc tạo lập, chia sẻ dữ liệu trở nên đơn giản; việc kết nối được cải thiện, khả năng lưu giữ, xử lý thông tin ngày càng nhanh, nên hệ thống Dữ liệu lớn ngày càng lớn. Các chuyên gia đã thống kê về khối lượng, tốc độ, sự đa dạng của Dữ liệu lớn trên các trang mạng xã hội nổi tiếng, như: Google xử lý hơn 1015 byte dữ liệu mỗi ngày; Facebook nhận được 10 triệu lượt tải ảnh mỗi giờ và 3 tỷ lượt nhấn nút “Like” (Thích) mỗi ngày; YouTube có khoảng 800 triệu lượt tải video mỗi giây; số lượng các lượt tải trên Twitter tăng 200% hằng năm.

Jack Ma - nhà tỷ phú Trung Quốc, người sở hữu Hãng công nghệ Alibaba cho rằng, nền kinh tế thế giới sẽ phụ thuộc vào Dữ liệu lớn, cuộc cạnh tranh nguồn dữ liệu sẽ trở nên khốc liệt hơn và tương lai sẽ được quyết định bởi người nắm giữ nguồn dữ liệu. Thế giới có thể sẽ được chứng kiến các công ty công nghệ lớn như Facebook, Google, Apple... trở thành “đế chế” được xây dựng trên nền tảng mạng xã hội, lượng thành viên tham gia ngày càng gắn kết chặt chẽ hơn trong thế giới số và dữ liệu tạo ra từ các hoạt động tương tác, được lưu trữ trong rất nhiều máy chủ. Việc sở hữu lượng dữ liệu khổng lồ như vậy giúp cho các công ty công nghệ không những hiểu rõ mọi chuyện, mọi người, mọi nơi, mọi lúc, mà còn nắm bắt được xu hướng, nghiên cứu và đưa ra các dự báo quan trọng ở nhiều lĩnh vực.

Dữ liệu lớn là một tập hợp dữ liệu rất lớn được tạo ra từ tất cả các thiết bị, hệ thống, cấu trúc, tổ chức chứa thông tin, mang thông tin được kết nối, truyền tải bởi sự liên kết vật lý, được phản ánh và tồn tại khách quan trong thế giới vật chất và thế giới số.

Hiện, Google là công ty tiên phong trong việc lưu trữ và quản lý dữ liệu lớn khi xây dựng hàng loạt trung tâm dữ liệu trên khắp thế giới. Microsoft cũng xây dựng nhiều cụm máy chủ với kiến trúc mô-đun hóa; Amazon xây dựng 20 trung tâm dữ liệu, được đặt chủ yếu ở khu vực Đông Nam nước Mỹ; Facebook xây dựng Trung tâm dữ liệu tại bang Ô-rê-gân; Apple đầu tư 1 tỷ USD để xây dựng các trung tâm điện toán đám mây tại các bang Ca-li-pho-ni-a, Ô-rê-gân, Nê-va-đa, 2 trung tâm bên ngoài lãnh thổ nước Mỹ tại Ai-xơ-len và Đan Mạch. Mới đây nhất, sau khi Trung Quốc công bố Luật An ninh mạng, nước này bắt buộc tất cả các công ty công nghệ khi đầu tư tại Trung Quốc phải đặt máy chủ dữ liệu tại lãnh thổ Trung Quốc và Apple đã xây dựng thêm một trung tâm dữ liệu tại tỉnh Quý Châu.

 

CÁC LĨNH VỰC PHÁT TRIỂN

Lĩnh vực y tế: Cách đây vài năm, Google triển khai một hệ thống dự báo sự lây lan của dịch cúm H1N1 qua việc xử lý 450 triệu mô hình toán học để phân tích 50 triệu cụm từ tìm kiếm; sau đó, so sánh chúng với các dữ liệu mà Trung tâm Kiểm soát và phòng chống dịch bệnh Mỹ công bố từ năm 2003 đến 2008. Đến năm 2009, Google đã có thể dự báo chính xác sự lây lan của dịch cúm H1N1 theo thời gian thực. Một ví dụ khác là Trường Đại học Ontario (Mỹ) và các chuyên gia công nghệ của Hãng IBM đã nghiên cứu mô hình xử lý Dữ liệu lớn theo thời gian thực áp dụng trong điều trị tích cực, tập trung vào việc thu thập, lưu trữ, xử lý tất cả dữ liệu trong quá trình điều trị như điện tâm đồ, điện não đồ, chỉ số máu, chỉ số thân nhiệt, nhịp tim, nhịp thở, huyết áp, nồng độ oxy (khoảng 1.260 dữ liệu mỗi giây) của các bệnh nhân... Hệ thống đã đo đạc, tính toán và đưa ra cảnh báo giúp các bác sỹ theo dõi tình trạng sức khỏe của bệnh nhân một cách liên tục; các dấu hiệu thay đổi nhỏ nhất được hiển thị trên màn hình máy tính giúp bác sỹ tiên lượng được các biến chứng, tình trạng và sự tiến triển; qua đó, nâng cao hiệu quả điều trị bệnh, tăng khả năng sống sót của các bệnh nhân, đặc biệt đối với các bệnh nhân nặng. Qua nghiên cứu, công trình này đưa ra một kết luận rất quan trọng, đó là: Việc xử lý Dữ liệu lớn không dựa vào các giải thuật theo định hướng “nguyên nhân - kết quả” để trả lời câu hỏi “tại sao” mà phải dựa vào việc phân tích các mối tương quan, tập trung trả lời cho câu hỏi “cái gì đang diễn ra”. Kết luận này có giá trị vô cùng lớn, mở ra giai đoạn mới của Dữ liệu lớn trong việc dự báo sự vận động, phát triển không chỉ trong lĩnh vực y tế mà ở tất cả các lĩnh vực của đời sống xã hội.


Dữ liệu lớn góp phần nâng cao hiệu quả điều trị bệnh trong lĩnh vực y tế.     Ảnh: Internet

Lĩnh vực thương mại: Các chuyên gia nhận định, trong nền kinh tế hiện đại, Dữ liệu lớn đã và sẽ mang lại giá trị gia tăng rất lớn như cách mà nó được tạo ra. Khi phân tích dữ liệu người dùng ở khu vực Bắc Mỹ trên mạng xã hội Twitter, một chuyên gia về Dữ liệu lớn đã dự đoán chính xác về doanh thu phòng vé của một bộ phim Holywood chuẩn bị ra rạp. Nhà bán lẻ Amazon sử dụng phần mềm phân tích và lưu trữ dữ liệu về giới thiệu sản phẩm, thông tin khách hàng trên website của hãng. Trước đây, công ty này chuyên bán lẻ sách và phải sử dụng đội ngũ đông đảo các biên tập viên để viết giới thiệu sách trên website. Tuy nhiên, sau khi so sánh về doanh thu, họ đã giải thể đội ngũ này và thay bằng phần mềm kể trên, sử dụng kỹ thuật lọc cộng tác “item to item” (từ mục đến mục) để liên kết, chỉ dẫn, tạo ra sự lựa chọn bằng những cú nhấp chuột. Còn Công ty Walmart lại liên kết với Hãng công nghệ TeraData để xây dựng hệ thống Liên kết bán lẻ (Retail Link) với nền tảng công nghệ Dữ liệu lớn và thương mại điện tử để phân tích, giám sát toàn bộ hoạt động bán hàng. Kết quả là đã thay đổi căn bản cách thức, phương pháp quản lý, kinh doanh, hạn chế rủi ro trước khi thực hiện giao dịch thương mại, giảm thiểu chi phí. Công ty thẻ tín dụng VISA sử dụng công cụ Hadoop (dùng mã nguồn mở để xử lý đồng loạt các loại dữ liệu) để xử lý khoảng 73 tỷ giao dịch trong 13 phút, thay vì mất 1 tháng theo phương pháp truyền thống. Hơn nữa, giá trị không chỉ dừng lại ở việc giải quyết các giao dịch mà đây còn là “mỏ vàng” thông tin về khách hàng liên quan đến các hoạt động chi tiêu, mua sắm, xu hướng trong từng giai đoạn; các thông tin này sẽ được tái sử dụng cho các chuỗi giá trị thương mại, hàng hóa khác.

Lĩnh vực công nghệ thông tin: Dữ liệu lớn được Tập đoàn Microsoft áp dụng để phát triển chức năng kiểm tra ngữ pháp trong công cụ soạn thảo văn bản Microsoft Word, theo hai hướng: Một là tối ưu hóa thuật toán hoặc xây dựng thuật toán mới với lượng dữ liệu là các ngữ điệu khống chế trong khoảng 1 triệu từ; hai là tiếp tục sử dụng các thuật toán hiện có của máy tính nhưng cung cấp thêm rất nhiều dữ liệu ở các cấp độ 10 triệu từ, 100 triệu từ và 1 tỷ từ. Kết quả cho thấy, độ chính xác của chức năng này đã tăng từ 75% lên 95%. Trên cơ sở đó, các nhà nghiên cứu khuyến nghị Microsoft nên tập trung đầu tư cho phát triển thuật toán xử lý. Theo các chuyên gia về trí tuệ nhân tạo, Dữ liệu lớn sẽ tạo ra những giá trị theo cách có thể làm thay đổi các thị trường, tổ chức và mối quan hệ... Nắm lấy cơ hội được mở ra từ Dữ liệu lớn, Google đã nhanh chóng phát triển và nâng cấp chức năng kiểm tra ngữ pháp thành công cụ dịch thuật tự động qua việc xây dựng ngân hàng dữ liệu từ vựng với hàng nghìn tỷ từ. Theo đó, hàng nghìn tỷ từ đã được Google chuyển thành 95 tỷ câu tiếng Anh, mặc dù chất lượng dịch thuật chưa cao nhưng đang dần được cải thiện. Hiện nay, Google cũng phát triển công nghệ này bằng việc tích hợp kỹ thuật nhận dạng giọng nói (14 thứ tiếng), tự động chuyển thành văn bản và dịch thuật đa ngôn ngữ (60 ngôn ngữ) và tiếp tục mở rộng trong tương lai.

Lĩnh vực nông nghiệp: Khi làm thí nghiệm về mẫu thử trong công nghệ xử lý Dữ liệu lớn bằng cách đo độ ẩm trong vườn nho để cung cấp dữ liệu phục vụ chế độ tưới tiêu, người ta đã sử dụng phương pháp so sánh giữa một thiết bị đo độ ẩm chính xác và nhiều thiết bị đo độ ẩm đơn giản (số thiết bị đúng bằng số gốc nho). Kết quả, dữ liệu của máy đo là rất đáng tin cậy, nhưng chỉ đúng tại một khu vực được khống chế, trong một thời gian xác định; không phản ánh được thông tin về nhu cầu độ ẩm cho quá trình sinh trưởng của toàn bộ vườn nho. Do đó, năng suất và sản lượng vườn nho không tăng như kỳ vọng. Ngược lại, khi tăng số lần đo của các thiết bị đơn giản trong cùng một đơn vị thời gian thì nó phản ánh được những giá trị tập trung, diễn biến, xu hướng của độ ẩm ở từng thời điểm cụ thể. Trên cơ sở đó, nhà sản xuất quyết định chế độ tưới tiêu phù hợp với quá trình sinh trưởng và phát triển của cây trồng. Theo đánh giá, kết quả của thí nghiệm này không chỉ hỗ trợ trực tiếp cho phát triển nền nông nghiệp hiện đại, mà còn khẳng định khi phân tích mẫu thử trong Dữ liệu lớn, càng nhiều mẫu thử thì giá trị thật của nó càng cao, giúp dự báo được xu hướng của đối tượng trong điều kiện nhất định.

Có thể thấy, Dữ liệu lớn đã và đang chi phối sự phát triển của nhiều lĩnh vực của đời sống xã hội, bởi nó có khả năng đưa ra các dự báo cụ thể và chiến lược, dự báo gần và trong tương lai xa. Đây sẽ là cơ sở quan trọng để các quốc gia, tổ chức và doanh nghiệp hoạch định chính sách, chiến lược phù hợp.

ĐOÀN HÙNG

Bình luận


Họ và tên:*

Đơn vị:     

Điện thoại:*               

Email:*                       

Nội dung: