
Khai phá tập phổ biến đóng
Thông tin tài liệu
Ngôn ngữ | Vietnamese |
Định dạng | |
Dung lượng | 2.07 MB |
Chuyên ngành | Khoa học máy tính (hoặc một chuyên ngành liên quan) |
Loại tài liệu | Đồ án tốt nghiệp (hoặc luận văn) |
Tóm tắt
I.Chương 2 Phương pháp Khai phá Tập Phổ biến
Chương này trình bày phương pháp khai phá tập phổ biến (data mining) để xử lý các tập dữ liệu lớn (big data analytics), đặc biệt là tập dữ liệu có kích thước tera-byte và độ nhiễu cao. Phương pháp tập trung vào việc tìm kiếm các tập mục phổ biến (frequent itemsets) bằng cách xác định các 1-itemsets
, 2-itemsets
, và tiếp tục cho đến khi không còn tìm thấy thêm các tập phổ biến. Các tập mục phổ biến này, đáp ứng ngưỡng hỗ trợ (min_sup
) và ngưỡng độ tin cậy (min_conf
), sẽ được sử dụng để tạo ra các luật kết hợp mạnh (strong association rules). Đây là một kỹ thuật quan trọng trong khoa học dữ liệu (data science) và phân tích dữ liệu lớn.
2.1 Giới thiệu về Phương pháp Khai phá Tập Phổ biến
Phần này giới thiệu về phương pháp khai phá tập phổ biến trong bối cảnh dữ liệu ngày càng khổng lồ. Hiện nay, các cơ sở dữ liệu có kích thước cực lớn, thường ở mức tera-byte, gây khó khăn cho các phương pháp thống kê truyền thống. Dữ liệu thô chứa nhiều thông tin tiềm ẩn, đòi hỏi các thuật toán khai phá dữ liệu (data mining algorithms) tự động để trích xuất kiến thức hữu ích. Khai phá dữ liệu (data mining) nổi lên như một hướng tiếp cận hiệu quả giúp các công ty khai thác thông tin giá trị từ các tập dữ liệu lớn. Phân tích dữ liệu lớn (big data analytics) trở nên cần thiết do tốc độ tăng trưởng dữ liệu quá nhanh. Khai phá dữ liệu được định nghĩa là một bước trong quá trình khám phá tri thức, sử dụng các thuật toán chuyên dụng để tìm kiếm các mẫu hoặc mô hình ẩn trong khối lượng lớn dữ liệu. Mục tiêu chính là tìm kiếm các mẫu và mô hình tồn tại nhưng bị che khuất trong dữ liệu. Mô tả dữ liệu và dự đoán là hai nhiệm vụ quan trọng trong quá trình này, mô tả dữ liệu tổng kết các đặc điểm chung của dữ liệu, còn dự đoán dựa trên dữ liệu hiện tại để dự đoán các giá trị tương lai.
2.2 Tìm kiếm Tập Mục Phổ biến và Luật Kết hợp Mạnh
Phần này trình bày quy trình tìm kiếm tập mục phổ biến (frequent itemsets) trong khai phá dữ liệu. Quy trình bắt đầu bằng việc tìm kiếm các 1-itemsets
(ký hiệu là L1), sau đó sử dụng L1 để tìm các 2-itemsets
(L2), và cứ tiếp tục như vậy cho đến khi không còn tìm thấy thêm các tập phổ biến k-itemsets. Một tập mục được coi là phổ biến khi độ hỗ trợ (support) của nó ít nhất bằng một ngưỡng min_sup
được xác định trước. Sau khi tìm được tất cả các tập phổ biến, bước tiếp theo là tạo ra các luật kết hợp mạnh (strong association rules). Những luật này phải thỏa mãn cả hai ngưỡng min_sup
và min_conf
(confidence). Luật kết hợp (association rules) là dạng luật biểu diễn tri thức đơn giản, ví dụ: "60% nam giới mua bia thì có 80% sẽ mua thêm thịt bò khô". Các luật kết hợp được ứng dụng rộng rãi trong nhiều lĩnh vực như kinh doanh, y học, và tài chính.
II.Chương 3 Khai phá Tập Phổ biến Đóng trong Không gian
Chương này tập trung vào khai phá tập phổ biến đóng (mining frequent closed itemsets - FCPs) trong không gian 2 chiều và 3 chiều. Đối với dữ liệu 2 chiều, được giới thiệu các thuật toán hiệu quả như C-Miner
và B-Miner
, sử dụng phương pháp phân vùng không gian để cải thiện hiệu suất. Đối với dữ liệu 3 chiều, được đề xuất hai thuật toán: RSM
(Representative Slice Mining), chuyển đổi dữ liệu 3D thành nhiều tập dữ liệu 2D để áp dụng các thuật toán khai phá FCP 2D hiện có, và CubeMiner
, khai phá trực tiếp trên dữ liệu 3D. Cả hai thuật toán đều được thiết kế để hỗ trợ khai phá dữ liệu song song nhằm tăng tốc độ xử lý. Các thuật toán này có ứng dụng rộng rãi trong nhiều lĩnh vực, bao gồm phân tích thị trường và phân tích sinh học.
3.1 Khai phá Tập Phổ biến Đóng FCPs trong Không gian 2 Chiều
Phần này tập trung vào khai phá tập phổ biến đóng (mining frequent closed itemsets - FCPs) trong không gian hai chiều. Được nhấn mạnh rằng số lượng FCPs nhỏ hơn đáng kể so với số lượng tập phổ biến thông thường, dẫn đến hiệu quả cao hơn. Một số thuật toán khai phá FCP hiệu quả được đề cập, bao gồm: A-Close
(sử dụng tìm kiếm breadth-first), Closet
và Closet++
(sử dụng cây tập mẫu phổ biến để nén dữ liệu), cũng như các thuật toán khác như MAFIA
, CHARM
, và D-Miner
. Một khung khai phá FCP mới được đề xuất, có hai lợi thế chính: khả năng khai phá các không gian con độc lập, cho phép người dùng nhận được kết quả nhanh chóng, và khả năng xử lý song song mà không cần đồng bộ hóa. Khung khai phá FCP này được chia thành hai phần: phân chia không gian khai thác thành các không gian con nhỏ hơn, và khai thác độc lập từng không gian con. Việc khai phá dữ liệu (data mining) được tối ưu hóa bằng cách chia nhỏ vấn đề thành các vấn đề con, và sử dụng thuật toán phù hợp. Hiệu quả của thuật toán khai phá dữ liệu phụ thuộc vào việc lựa chọn thuật toán và chiến lược phân vùng.
3.2 Khai phá Tập Phổ biến Đóng trong Không gian 3 Chiều
Phần này mở rộng khai phá tập phổ biến đóng (mining frequent closed itemsets) vào không gian ba chiều. Các thuật toán trước đây chủ yếu tập trung vào dữ liệu hai chiều, nhưng sự phát triển của công nghệ microarray dẫn đến dữ liệu ba chiều (ví dụ: mẫu-gen-thời gian). Khai phá tập phổ biến đóng ba chiều (3D frequent closed itemset mining) được gọi là khai phá khối lập phương phổ biến đóng (FCC). Hai thuật toán được đề xuất: RSM
(Representative Slice Mining) và CubeMiner
. RSM
chuyển đổi dữ liệu 3D thành nhiều tập dữ liệu 2D, áp dụng thuật toán khai phá FCP 2D, và sau đó loại bỏ các khối không đóng. CubeMiner
, trái lại, khai phá FCC trực tiếp từ dữ liệu 3D bằng cách sử dụng các ràng buộc và chia nhỏ không gian tìm kiếm. Cả hai đều hướng đến việc tối ưu hóa tốc độ xử lý bằng cách áp dụng các chiến lược khai phá dữ liệu song song (parallel data mining). CubeMiner
được xây dựng dựa trên các ràng buộc ngưỡng hỗ trợ đơn điệu trên ba chiều, nhằm mục đích rút gọn không gian tìm kiếm và tăng hiệu quả. Phân tích dữ liệu lớn (big data analytics) trong không gian 3 chiều đòi hỏi các thuật toán tiên tiến hơn để xử lý lượng thông tin khổng lồ.
3.3 Tóm tắt Chương 3
Chương này đã giới thiệu một khung khai phá FCP mới cho dữ liệu dày đặc, dựa trên việc phân vùng dữ liệu ban đầu thành các không gian con nhỏ hơn. Việc khai phá các không gian con này sẽ cho ra kết quả tương tự như khai phá toàn bộ không gian ban đầu. Hai thuật toán C-Miner
và B-Miner
được đề xuất cho dữ liệu 2 chiều, trong khi RSM
và CubeMiner
được dùng cho dữ liệu 3 chiều. Các thuật toán này được thiết kế để tận dụng khả năng khai phá dữ liệu song song nhằm tăng tốc độ xử lý. Hiệu quả của các thuật toán được đánh giá dựa trên độ phức tạp thời gian và khả năng loại bỏ các kết quả dư thừa hoặc sai sót. Chương này đóng góp vào việc nâng cao hiệu quả của khai phá dữ liệu (data mining) và mở rộng khả năng ứng dụng của khai phá tập phổ biến đóng (mining frequent closed itemsets) trong không gian nhiều chiều, đặc biệt là trong phân tích dữ liệu lớn (big data analytics).
III.Kết luận
Luận án đã tổng quan về khai phá tri thức (KPTT) và khai phá dữ liệu (KPDL), các phương pháp tiếp cận chính trong KPTT, và các ứng dụng thực tiễn. Đặc biệt, luận án tập trung vào các thuật toán khai phá tập phổ biến đóng (FCPs) hiệu quả cho cả dữ liệu 2 chiều (C-Miner
, B-Miner
) và 3 chiều (RSM
, CubeMiner
). Các thuật toán này có tiềm năng ứng dụng lớn trong nhiều lĩnh vực như phân tích thị trường và phân tích sinh học, đóng góp vào sự phát triển của khoa học dữ liệu và phân tích dữ liệu lớn.
1. Tổng quan về Khai phá Tri thức và Khai phá Dữ liệu
Kết luận tổng kết luận văn nêu bật tầm quan trọng của khai phá dữ liệu (data mining) trong thời đại dữ liệu khổng lồ. Sự phát triển của công nghệ thông tin đã dẫn đến việc tích lũy một lượng dữ liệu khổng lồ, đòi hỏi các phương pháp khai phá dữ liệu hiệu quả để trích xuất thông tin hữu ích. Khai phá dữ liệu được xem như một công cụ thiết thực giúp con người thu nhận kiến thức từ các cơ sở dữ liệu lớn. Luận án đã đề cập đến các khái niệm và vấn đề cơ bản trong khai phá tri thức (KPTT) và khai phá dữ liệu (KPDL), tập trung vào các phương pháp khai phá dữ liệu dạng đóng, ứng dụng rộng rãi trong thực tiễn. Khai phá dữ liệu (data mining) được định nghĩa lại như một bước trong quá trình khám phá tri thức, tìm kiếm các mẫu hoặc mô hình ẩn trong dữ liệu, bao gồm các nhiệm vụ như mô tả dữ liệu và dự đoán.
2. Phương pháp Khai phá Tập Phổ biến Đóng FCPs 2D và 3D
Kết luận nhấn mạnh vào việc nghiên cứu các thuật toán khai phá tập phổ biến đóng (mining frequent closed itemsets - FCPs) cho cả dữ liệu hai chiều và ba chiều. Đối với dữ liệu hai chiều, đã được giới thiệu các thuật toán C-Miner
và B-Miner
, tập trung vào hiệu quả và khả năng xử lý song song. Đối với dữ liệu ba chiều, đã được trình bày hai thuật toán: RSM
(Representative Slice Mining) và CubeMiner
, mỗi thuật toán có ưu điểm riêng trong việc xử lý dữ liệu ba chiều. RSM
tận dụng các thuật toán khai phá FCP hai chiều hiện có, còn CubeMiner
khai phá trực tiếp trên dữ liệu ba chiều. Tất cả các thuật toán đều hướng tới mục tiêu nâng cao hiệu quả khai phá dữ liệu (data mining) bằng cách phân vùng không gian tìm kiếm và sử dụng khai phá dữ liệu song song (parallel data mining). Các thuật toán này có ứng dụng quan trọng trong nhiều lĩnh vực, bao gồm phân tích thị trường và phân tích sinh học.
3. Ứng dụng và Hướng Phát Triển Tương Lai
Kết luận khẳng định luận án đã giới thiệu tổng quan về khai phá tri thức (KPTT) và khai phá dữ liệu (KPDL), các phương pháp tiếp cận chính, và các lĩnh vực ứng dụng trong thực tế. Đặc biệt, đã trình bày các phương pháp khai phá dữ liệu dạng đóng (mining frequent closed itemsets) và các thuật toán cụ thể cho dữ liệu hai chiều (C-Miner
, B-Miner
) và ba chiều (RSM
, CubeMiner
). Những phương pháp này có tiềm năng ứng dụng rộng rãi trong phân tích thị trường, phân tích sinh học, và nhiều lĩnh vực khác liên quan đến phân tích dữ liệu lớn (big data analytics). Việc nghiên cứu và phát triển các thuật toán khai phá dữ liệu (data mining algorithms) hiệu quả hơn nữa, đặc biệt là cho dữ liệu đa chiều và dữ liệu có độ nhiễu cao, vẫn là một hướng nghiên cứu quan trọng trong khoa học dữ liệu (data science).