
Các yếu tố cơ bản của kho dữ liệu
Thông tin tài liệu
Trường học | Trường Đại Học Dân Lập Hải Phòng |
Chuyên ngành | Công Nghệ Thông Tin |
Loại tài liệu | Tài liệu tốt nghiệp |
Ngôn ngữ | Vietnamese |
Số trang | 58 |
Định dạng | |
Dung lượng | 918.64 KB |
Tóm tắt
I.Giới thiệu về kho dữ liệu
Kho dữ liệu là một cơ sở dữ liệu hướng đối tượng được thiết kế với mục đích tiếp cận thông tin trong mọi lĩnh vực, đặc biệt là trong lĩnh vực kinh doanh. Nó cung cấp các công cụ để đáp ứng nhu cầu thông tin cho các nhà quản lý kinh doanh ở mọi cấp độ tổ chức, không chỉ đáp ứng các yêu cầu dữ liệu phức tạp mà còn tạo điều kiện tối ưu để có được thông tin nhanh chóng và chính xác.
1.2.Kho dữ liệu là gì What is the data warehouse
Kho dữ liệu (data warehouse), gọi một cách chính xác hơn là kho thông tin (information warehouse), là một cơ sở dữ liệu hướng đối tượng được thiết kế với việc tiếp cận các ý kiến trong mọi lĩnh vực đặc biệt là trong lĩnh vực kinh doanh. Nó cung cấp các công cụ để đáp ứng thông tin cần thiết cho các nhà quản trị kinh doanh tại mọi cấp độ tổ chức - không những là những yêu cầu dữ liệu phức hợp, mà còn là điều kiện thuận tiện nhất để đạt được việc lấy thông tin nhanh, chính xác. Một kho dữ liệu được thiết kế để người sử dụng có thể nhận ra thông tin mà họ muốn có và truy cập đến bằng những công cụ đơn giản.
1.10.Kiến trúc của một hệ thống kho dữ liệu
Kiến trúc kho dữ liệu mô tả các cấu kiện, công cụ và dịch vụ của kho dữ liệu, cũng như quan hệ và sự phát triển của chúng. Mục đích của việc chuẩn hoá kiến trúc kho dữ liệu là tích hợp các hệ thông tin cấp dưới để phục vụ các hệ thông tin cấp trên và ngược lại. Kiến trúc này cung cấp một cơ chế tổ chức dữ liệu, cải thiện việc chia sẻ thông tin giữa các cơ quan và về lâu dài có khả năng tái sử dụng dữ liệu cũng như phát triển các dự án kho dữ liệu tiếp theo được nhanh hơn.
2.1.4. Dữ liệu vượt quá phạm vi của kho dữ liệu Data beyond the scope of the Data Warehouse
2.1.4.1.Dữ liệu giống như một sản phẩm(Data as a product) Một số sưu tầm nhóm, thao tác, hoặc thông tin sản xuất dưới dạng điện tử đang tăng lên nhanh chóng về tầm quan trọng và giá trị nhưng không thuộc phạm vi của kho dữ liệu như đã được định nghĩa, và thực sự nó nằm bên ngoài phạm vi của hệ thống xử lý dữ liệu truyền thống. Dữ liệu là một sản phẩm được tạo ra và được lưu trữ, nó không phải là một phương tiện chạy hoặc quản lý một doanh nghiệp. Nó là một sản phẩm của một hoạt động doanh nghiệp, có thể được mua và bán, và phải được quản lý và kiểm soát như bất kỳ một sản phẩm vật lý.
2.2.2. Kiến trúc đơn lớp dữ liệu The single layer data architecture
Nguyên tắc cơ bản quan trọng trong kiến trúc đơn lớp là bất kỳ yếu tố dữ liệu nào chỉ được lưu trữ một lần và một lần duy nhất. Trong khi mục tiêu này có khó khăn hoặc không thể đạt được, cấu trúc của kiến trúc này cho phép có thể đạt được mục tiêu này. Trong một kiến trúc đơn lớp, không phân biệt sự tạo ra giữa bất kỳ các loại dữ liệu được mô tả trước, tất cả dữ liệu được coi như nhau.
3.2.1 Các nhu cầu dữ liệu đặc biệt Special data needs
- Các sửa chữa (Corrections): Khi người dùng cuối cùng phát hiện ra sai sót của thực tế trong kho thông tin công việc, họ thường sử dụng dữ liệu riêng của họ và mong muốn các sửa chữa này có kết quả trở lại vào dữ liệu nguồn để đảm bảo một cái nhìn nhất quán của công việc. Các sửa chữa là cần thiết trong các hệ thống vận hành, kho dữ liệu công việc, và các kho dữ liệu thông tin công việc.
4.4.2. Chiều Dimension
Các chiều là cách mô tả chủng loại mà theo đó các dữ liệu số trong khối được phân chia để phân tích. Khi xác định một chiều, chọn một hoặc nhiều cột của một trong các bảng liên kết (bảng chiều). Nếu ta chọn các cột phức tạp thì tất cả cần có quan hệ với nhau, chẳng hạn các giá trị của chúng có thể được tổ chức theo hệ thống phân cấp đơn. Để xác định hệ thống phân cấp, sắp xếp các cột từ chung nhất tới cụ thể nhất. Ví dụ: một chiều thời gian (Time) được tạo ra từ các cột Năm, Qúy, Tháng, Ngày (Year, Quarter, Month và Day).
4.4.5. Một ví dụ vè tổ chức kho dữ liệu trong hệ thống giáo dục
Trong phần này trình bày về . Theo truyền thống, các tổ chức, cơ quan giáo dục không tập trung vào tổng thu nhập và lợi ích, nhưng lại quan tâm nhiều đến giá trị gia tăng và mối quan hệ cạnh tranh về chất lượng giáo dục trong sự thu hút và duy trì chất lượng sinh viên. Trên thực tế, mối quan tâm mạnh mẽ đến sự hiểu biết và mối quan hệ không thuộc phạm vi giáo dục.
II.Phân tích về kho dữ liệu
Phân tích về mặt lý thuyết và việc thực hiện của kho dữ liệu đã phát triển mạnh mẽ từ những năm 2000 trở về đây. Tuy nhiên, những bí quyết kinh doanh được hỗ trợ bởi những chỉ dẫn kỹ thuật vẫn có thể được xem như là những chỉ dẫn quan trọng ngày nay.
1.Phân tích về kho dữ liệu
Kho dữ liệu là một kho lưu trữ thông tin được thiết kế để hỗ trợ các quyết định kinh doanh. Nó cung cấp một cái nhìn thống nhất về dữ liệu của một tổ chức, cho phép người dùng dễ dàng truy cập và phân tích dữ liệu để đưa ra quyết định sáng suốt hơn. Kho dữ liệu khác với các hệ thống xử lý giao dịch truyền thống ở chỗ chúng được thiết kế để xử lý các truy vấn phức tạp và lưu trữ một lượng lớn dữ liệu.
III.Kiến trúc của kho dữ liệu
Kiến trúc kho dữ liệu mô tả các cấu kiện, công cụ và dịch vụ của kho dữ liệu, cũng như quan hệ và sự phát triển của chúng. Mục đích của việc chuẩn hoá kiến trúc kho dữ liệu là tích hợp các hệ thống thông tin cấp dưới để phục vụ các hệ thống thông tin cấp trên và ngược lại. Kiến trúc này cung cấp một cơ chế tổ chức dữ liệu, cải thiện việc chia sẻ thông tin giữa các cơ quan và về lâu dài có khả năng tái sử dụng dữ liệu cũng như phát triển các dự án kho dữ liệu tiếp theo được nhanh hơn.
1.10. Kiến trúc của một hệ thống kho dữ liệu
Kiến trúc kho dữ liệu mô tả các cấu kiện, công cụ và dịch vụ của kho dữ liệu, cũng như quan hệ và sự phát triển của chúng. Mục đích của việc chuẩn hoá kiến trúc kho dữ liệu là tích hợp các hệ thông tin cấp dưới để phục vụ các hệ thông tin cấp trên và ngược lại. Kiến trúc này cung cấp một cơ chế tổ chức dữ liệu, cải thiện việc chia sẻ thông tin giữa các cơ quan và về lâu dài có khả năng tái sử dụng dữ liệu cũng như phát triển các dự án kho dữ liệu tiếp theo được nhanh hơn.
2.1.4. Dữ liệu giống như một sản phẩm Data as a product
Một số sưu tầm nhóm, thao tác, hoặc thông tin sản xuất dưới dạng điện tử đang tăng lên nhanh chóng về tầm quan trọng và giá trị nhưng không thuộc phạm vi của kho dữ liệu như đã được định nghĩa, và thực sự nó nằm bên ngoài phạm vi của hệ thống xử lý dữ liệu truyền thống. Dữ liệu là một sản phẩm được tạo ra và được lưu trữ, nó không phải là một phương tiện chạy hoặc quản lý một doanh nghiệp. Nó là một sản phẩm của một hoạt động doanh nghiệp, có thể được mua và bán, và phải được quản lý và kiểm soát như bất kỳ một sản phẩm vật lý.
2.1.5. Dữ liệu bên trong và bên ngoài Internal and external data
- Trước đây, phần lớn các dữ liệu có ích cho một tổ chức đều có nguồn gốc trong tổ chức đó.
- Ở đây xem xét ba kiến trúc dữ liệu cho dữ liệu công việc. Mỗi kiến trúc đều có lợi thế và bất lợi riêng của nó. Có các tiêu chí quan trọng để đánh giá chúng như: sự linh hoạt mà dữ liệu có thể được truy cập và sử dụng cho người dùng cuối; quản lý chất lượng dữ liệu cho hệ thống thông tin cá nhân và một số yếu tố khác trong các tình huống cụ thể. Tuy nhiên, không có kiến trúc duy nhất đó là phù hợp nhất với mọi tình huống, một tiếp cận riêng có thể sẽ thành công trong phần lớn các trường hợp.
2.2. Kiến trúc dữ liệu
Theo truyền thống, việc thiết kế các hệ thống hoạt động bắt đầu với kiến trúc ứng dụng. Kết quả từ nơi các ứng dụng hoạt động với các chức năng mà người dùng yêu cầu. Cách tiếp cận này được hỗ trợ bởi các phạm vi dữ liệu tương đối hẹp như địa chỉ các ứng dụng. Tuy nhiên, do tầm quan trọng trọng của sự gắn kết dữ liệu trong kho dữ liệu, cả dữ liệu công việc và siêu dữ liệu phải là điểm khởi đầu trong kiến trúc của kho.
2.2.2. Kiến trúc đơn lớp dữ liệu The single layer data architecture
Nguyên tắc cơ bản quan trọng trong kiến trúc đơn lớp là bất kỳ yếu tố dữ liệu nào chỉ được lưu trữ một lần và một lần duy nhất. Trong khi mục tiêu này có khó khăn hoặc không thể đạt được, cấu trúc của kiến trúc này cho phép có thể đạt được mục tiêu này. Trong một kiến trúc đơn lớp, không phân biệt sự tạo ra giữa bất kỳ các loại dữ liệu được mô tả trước, tất cả dữ liệu được coi như nhau.
2.2.3. Kiến trúc hai lớp dữ liệu The two layer data architecture
Đây là một cải tiến cho kiến trúc lớp đơn với hai cách sử dụng dữ liệu khác nhau - hoạt động và thông tin, và phân để chia dữ liệu thành hai lớp (trong hình vẽ). Lớp thấp hơn, được sử dụng bởi các ứng dụng vận hành ở chế độ đọc/ghi, đây là dữ liệu thời gian thực. Lớp trên, sử dụng bởi các ứng dụng thông tin, là dữ liệu nguồn. Dữ liệu nguồn có thể đơn giản như một bản sao trực tiếp của các dữ liệu thời gian thực, hoặc nó có thể được bắt nguồn từ dữ liệu thời gian thực bằng một số tính toán.
3.2.1 Các nhu cầu dữ liệu đặc biệt Special data needs
- Các sửa chữa (Corrections): Khi người dùng cuối cùng phát hiện ra sai sót của thực tế trong kho thông tin công việc, họ thường sử dụng dữ liệu riêng của họ và mong muốn các sửa chữa này có kết quả trở lại vào dữ liệu nguồn để đảm bảo một cái nhìn nhất quán của công việc. Các sửa chữa là cần thiết trong các hệ thống vận hành, kho dữ liệu công việc, và các kho dữ liệu thông tin công việc.
IV.Siêu dữ liệu trong kho dữ liệu
Siêu dữ liệu được yêu cầu có kiến trúc 3 lớp. Tuy nhiên không phải tất cả các kho dữ liệu đều yêu cầu tất cả các lớp này. Sự mở rộng thứ hai của các chức năng cung cấp cho việc truy cập và sử dụng các dữ liệu công việc và siêu dữ liệu trong kho.
1. Kiến trúc 3 lớp của siêu dữ liệu
Định nghĩa 3 lớp để giải thích mối quan hệ giữa kiến trúc 3 lớp: siêu dữ liệu thời gian sản xuất, siêu dữ liệu thời gian thực và siêu dữ liệu trong biên độ của kho dữ liệu.
2. Mô hình siêu dữ liệu trong kiến trúc 3 lớp
Biểu đồ mô hình mối quan hệ giữa siêu dữ liệu thời gian sản xuất, siêu dữ liệu thời gian thực và siêu dữ liệu trong biên độ của kho dữ liệu.
V.Minh họa cho việc tổ chức kho dữ liệu trong hệ thống giáo dục
Trong phần này trình bày về kho dữ liệu trong hệ thống giáo dục. Theo truyền thống, các tổ chức, cơ quan giáo dục không tập trung vào tổng thu nhập và lợi ích, nhưng lại quan tâm nhiều đến giá trị gia tăng và mối quan hệ cạnh tranh về chất lượng giáo dục trong sự thu hút và duy trì chất lượng sinh viên.
1. Minh họa cho việc tổ chức kho dữ liệu trong hệ thống giáo dục
Việc theo dõi đơn xin việc của sinh viên là một ví dụ điển hình về cách tổ chức một kho dữ liệu trong hệ thống giáo dục với mục đích theo dõi trạng thái ứng tuyển. Các chiều thời gian được sử dụng để nắm bắt các giai đoạn xử lý đơn xin việc, cho phép các bên liên quan phân tích tiến độ và xác định các điểm tắc nghẽn trong quy trình.