
Tích hợp CSDL phân tán trên môi trường Internet
Thông tin tài liệu
Ngôn ngữ | Vietnamese |
Số trang | 46 |
Định dạng | |
Dung lượng | 833.09 KB |
Loại tài liệu | graduation project |
Tóm tắt
I.Giới thiệu
Bài viết trình bày về tầm quan trọng của việc tích hợp dữ liệu từ các nguồn khác nhau để tối ưu hóa việc sử dụng thông tin và dữ liệu cần thiết, đặc biệt là trong các hệ thống thông tin.
1.2 Tổng quan về tích hợp dữ liệu
Tích hợp dữ liệu là quá trình kết hợp dữ liệu từ nhiều nguồn khác nhau để cung cấp cho người dùng cái nhìn toàn diện và duy nhất về các dữ liệu này. Để tích hợp dữ liệu, cần dựa vào một số tiêu chí chính như xây dựng kho lưu trữ thông tin.
1.2.1 Khái niệm về tích hợp dữ liệu
Tích hợp dữ liệu là quá trình kết hợp dữ liệu từ nhiều nguồn thông tin khác nhau nhằm cung cấp cho người dùng một cái nhìn tổng quan và duy nhất về các dữ liệu này.
1.2.2 Các phương pháp tích hợp dữ liệu
Có nhiều phương pháp tích hợp dữ liệu khác nhau, mỗi phương pháp phù hợp với một dạng hệ thống (và các nguồn dữ liệu) cụ thể nào đó.
1.2.3 Tích hợp dữ liệu tự động dựa trên ontology
Phương pháp tích hợp dữ liệu dựa trên ontology sử dụng một cấu trúc phân lớp các khái niệm, thuật ngữ và các mối quan hệ giữa các khái niệm đó gọi là ontology để biểu diễn các nguồn dữ liệu cần tích hợp (cả nội dung và ngữ nghĩa thông tin dữ liệu).
II.Tổng quan về tích hợp dữ liệu
Đưa ra khái niệm về tích hợp dữ liệu, các cấp độ tích hợp dữ liệu và các phương pháp tích hợp dữ liệu khác nhau, bao gồm: tích hợp dữ liệu dựa trên sự giống nhau về dữ liệu, dựa trên các ràng buộc dữ liệu và dựa trên ontology.
1.2.1 Khái niệm về tích hợp dữ liệu
Tích hợp dữ liệu là một khái niệm khá trừu tượng thậm chí là hơi mơ hồ khiến nhiều ngƣời không thể định nghĩa đƣợc chính xác và cụ thể, thông thƣờng tích hợp dữ liệu có thể đƣợc hiểu là quá trình kết hợp dữ liệu từ các nguồn thông tin khác nhau nhằm cung cấp cho ngƣời dùng một cái nhìn tổng quan và duy nhất về các dữ liệu này.
1.2.2 Các dạng tích hợp dữ liệu
Theo Khaled Bashir Shaban, tích hợp dữ liệu đƣợc chia thành ba mức dựa trên đặc điểm đầu vào và đầu ra của quá trình tích hợp nhƣ sau: Mức 1: Tích hợp dữ liệu (Data Fusion). Đây là mức thấp nhất. Trong mức này, đầu vào là các bản ghi dữ liệu. Đầu ra cũng có dạng các bản ghi hoặc một dạng cao hơn nhƣng vẫn đóng vai trò là dữ liệu cung cấp cho một ứng dụng nào đó. Mức 2: Tích hợp dữ liệu (Data Mediation). Đây là mức trung gian. Trong mức này, các nguồn dữ liệu cục bộ đƣợc đưa về dạng các lược đồ dữ liệu (Schema) cục bộ. Nhiệm vụ của hệ thống tích hợp là phát triển một lược đồ dữ liệu toàn cục dùng cho toàn hệ thống vậy là khi bất ký một yêu cầu dữ liệu nào đƣợc đƣa ra ta chuyển nó sang dạng cục bộ của nguồn dữ liệu để xử lý, sau khi xử lý kết quả sẽ đƣợc trả về lược đồ dữ liệu cục bộ và cuối cùng là lược đồ dữ liệu toàn cục. Mức 3: Tích hợp dữ liệu (Data Warehousing). Đây là mức cao nhất. Trong mức này, dữ liệu từ các nguồn dữ liệu đƣợc chuyển sang kho dữ liệu tập trung, tối ưu hóa cho các truy vấn dữ liệu phức tạp hoặc theo tập. Bởi vậy, mỗi khi có một yêu cầu dữ liệu thì thay vì đi lấy trực tiếp từ các nguồn dữ liệu thì đầu tiên ta đi lấy từ kho dữ liệu và nếu không có thì ta mới đi lấy từ các nguồn dữ liệu.
1.2.3 Các phƣơng pháp tích hợp dữ liệu
Nhu cầu tích hợp dữ liệu trong các hệ thống, nhất là trên môi trƣờng Internet rất lớn. Nhiều nghiên cứu về tích hợp dữ liệu đã đƣợc tiến hành. Các nghiên cứu này đƣa ra một loạt các phƣơng pháp tích hợp dữ liệu, mỗi phƣơng pháp lại phù hợp với một dạng hệ thống (và các nguồn dữ liệu) cụ thể nào đó. Trong phần này sẽ trình bày một số phƣơng pháp tích hợp dữ liệu theo cách phân loại dựa trên kỹ thuật tích hợp.
III.Một số công nghệ xử lý CSDL trên môi trường mạng
Giới thiệu về các công nghệ có thể sử dụng để xử lý và trao đổi thông tin giữa các hệ thống cơ sở dữ liệu trên môi trường mạng, bao gồm: Java Socket, Java Servlet, CORBA và Web Service.
1.2.3 Các phƣơng pháp tích hợp dữ liệu
Các phƣơng pháp tích hợp dữ liệu được phân loại theo kỹ thuật tích hợp như sau:
Tích hợp dữ liệu dựa trên các ràng buộc dữ liệu: Mã nguồn mở chuyên dụng cho việc tạo và biên tập mã lệnh cho các IDE (Integrated Development Environment) phổ biến khác nhau. Nó còn có nhiều chức năng khác nhƣ tìm, thay thế và thậm chí nhắc lỗi trong thời gian thực, chỉnh sửa tệp tin cục bộ, thậm chí chỉnh sửa từ xa thông qua tệp tin FTP (File Transfer Protocol).
Tích hợp dữ liệu tự động dựa trên ontology: Một số nghiên cứu cho thấy rằng phƣơng pháp tích hợp dựa trên ontology cao hơn nhiều so với hai dạng phƣơng pháp còn lại.
2.1.1 Phƣơng pháp Servlet Java
- Phƣơng pháp Servlet thƣờng dùng để tạo các trang Web động, tất cả thao tác xử lý theo yêu cầu của máy khách đƣợc thực hiện tại server nhƣ viết mã lệnh để tạo ra trang Web, truy nhập cơ sở dữ liệu. Giải pháp này mang lại nhiều ưu điểm vượt trội so với các giải pháp truyền thống khác khi giúp giảm tải mạng, do không cần phải duy trì một kết nối mạng thƣờng xuyên giữa máy khách và máy chủ trong quá trình máy khách truy cập cơ sở dữ liệu.
2.1.1.2 Phƣơng pháp Servlets Java
Phƣơng pháp Servlets thƣờng đƣợc dùng để tạo ra các trang Web động, mọi thao tác xử lý theo yêu cầu của máy khách đƣợc thực hiện tại server nhƣ viết mã lệnh để tạo ra trang Web, truy nhập cơ sở dữ liệu... điều này rất có ý nghĩa trong trƣờng hợp các máy khách có năng lực xử lý hạn chế. Một ƣu điểm nổi bật của phƣơng pháp Servlet là giúp giảm tải mạng, do không cần phải duy trì một kết nối mạng thƣờng xuyên giữa máy khách và máy chủ trong quá trình máy khách truy cập cơ sở dữ liệu.
2.1.2 Phƣơng pháp khai thác dữ liệu dựa trên Web service
Web service là phƣơng pháp cho phép trao đổi thông tin giữa các hệ thống dựa trên giao thức HTTP và SOAP, hoàn toàn độc lập với hệ điều hành hoặc ngôn ngữ lập trình đƣợc sử dụng trên máy chủ và máy khách.
Không nhƣ các công nghệ trƣớc kia, Web service không nhất thiết bắt buộc hai đầu kết nối phải cùng hệ điều hành hoặc cùng ngôn ngữ lập trình.
2.1.2.1 HTTP Hypertext Transfer Protocol
HTTP là giao thức nằm ở tầng trên cùng của TCP/IP, đƣợc dùng để các máy chủ Web và trình duyệt Internet khả năng liên lạc đƣợc với nhau. Trình duyệt của máy khách gửi một HTTP request cho máy chủ Web, yêu cầu này đƣợc xử lý, sau đó gửi kết quả đã xử lý về cho trình duyệt của máy khách. Trong trƣờng hợp Web service, dữ liệu đƣợc trả về là một thông điệp SOAP chứa thông tin kết quả của việc thực thi một lời gọi hàm Web service. HTTP request sẽ trao cặp Name/Value gửi đi một yêu cầu tới máy chủ. Yêu cầu có thể là HTTP-GET hoặc HTTP-POST.
IV.Giải pháp tích hợp các CSDL
Đề xuất hướng xây dựng các ứng dụng sử dụng Web Service để trao đổi thông tin và tích hợp dữ liệu, phục vụ cho công tác quản lý, đồng thời trình bày cách sử dụng Web Service để truy cập và lấy thông tin từ máy chủ cơ sở dữ liệu.
2.1. MỘT SỐ CÔNG NGHỆ XỬ LÝ CSDL TRÊN MÔI TRƢỜNG MẠNG
Đoạn 2.1 giới thiệu một số công nghệ xử lý CSDL trên môi trường mạng, bao gồm Phƣơng pháp Servlets Java, Phƣơng pháp khai thác dữ liệu dựa trên Web service, Phƣơng pháp truy cập CSDL Web bằng Java CORBA, các kiểu dữ liệu trong lược đồ XML, Discovery.
2.2. Các kiến trúc dữ liệu nghiệp vụ
Đoạn 2.2 trình bày các kiến trúc dữ liệu nghiệp vụ, trong đó có: Kiến trúc dữ liệu 3 tầng, Lập mô hình tổ chức, Phạm vi dữ liệu, Dữ liệu lịch sử.
2.3. WEB SERVICES
Đoạn 2.3 thảo luận về Web service, bao gồm các khái niệm cơ bản, các đặc điểm, lợi ích và các loại hình Web service.