1.2 Tra cứu thông tin thị giác ... 1

Tra cứu ảnh dựa trên kết cấu

Thông tin tài liệu

instructor Ngô Trường Giang
Trường học

Trường Đại học Kỹ thuật Hải Phòng

Chuyên ngành Công nghệ thông tin (dựa trên nội dung bài viết)
Địa điểm Hà Nội
Loại tài liệu Đồ án tốt nghiệp (dựa trên nội dung bài viết)
Ngôn ngữ Vietnamese
Định dạng | PDF
Dung lượng 659.20 KB

Tóm tắt

I.Chương 1 Tổng quan về Tra cứu ảnh dựa trên nội dung CBIR

Chương này giới thiệu vấn đề tra cứu ảnh trong kỷ nguyên dữ liệu hình ảnh khổng lồ. Nhu cầu tìm kiếm ảnh hiệu quả vượt xa khả năng của con người, dẫn đến sự phát triển mạnh mẽ của CBIR. Chương trình trình bày các phương pháp tra cứu thông tin thị giác, bao gồm phương pháp dựa trên thuộc tính (cần metadata, tốn thời gian) và phương pháp dựa trên đặc trưng ảnh (màu sắc, kết cấu, hình dạng). Các hệ thống tra cứu ảnh nổi bật như QBIC, VIR Image, Engine được đề cập. Khó khăn trong việc đo lường độ tương tự giữa các ảnh cũng được phân tích.

1.1 Giới thiệu về Tra cứu Ảnh dựa trên Nội dung CBIR

Phần mở đầu nhấn mạnh sự bùng nổ dữ liệu hình ảnh trong thời đại đa phương tiện và sự cần thiết của các công cụ tra cứu ảnh hiệu quả. Việc tìm kiếm thủ công trong các cơ sở dữ liệu khổng lồ là không khả thi. Do đó, tra cứu ảnh dựa trên nội dung (CBIR - Content-Based Image Retrieval) trở nên rất cần thiết để giải quyết bài toán này. CBIR hứa hẹn sẽ mang lại khả năng tìm kiếm hình ảnh nhanh chóng và chính xác hơn so với các phương pháp truyền thống, đáp ứng nhu cầu ngày càng tăng của nhiều lĩnh vực, từ nghệ thuật, y học đến điều tra tội phạm. Sự phát triển của công nghệ kỹ thuật số càng làm gia tăng khối lượng dữ liệu ảnh, thúc đẩy nhu cầu về các giải pháp CBIR tiên tiến hơn nữa. Tóm lại, phần này đặt nền tảng cho sự cần thiết và tính cấp thiết của nghiên cứu về CBIR.

1.2 Tra cứu Thông tin Thị giác

Phần này định nghĩa khái niệm tra cứu thông tin, bắt đầu từ năm 1952 và được chú trọng nghiên cứu từ năm 1961. Một hệ thống tra cứu thông tin được mô tả như một hệ thống gồm các thành phần tương tác để tìm kiếm thông tin. Tra cứu ảnh dựa trên nội dung, chính thức xuất hiện năm 1992, được định nghĩa là quá trình tìm kiếm trong cơ sở dữ liệu ảnh những ảnh đáp ứng yêu cầu cụ thể. Một số hệ thống CBIR tiêu biểu được đề cập, bao gồm QBIC, VIR Image, Engine, VisualSEEK, NeTrA, MARS, và Viper. Hai phương pháp chính để giải quyết bài toán tra cứu thông tin thị giác được trình bày: phương pháp dựa trên thuộc tính (sử dụng metadata và chú thích, tốn nhiều thời gian và công sức, mang tính chủ quan) và phương pháp dựa trên đặc điểm (sử dụng đặc trưng thị giác như màu sắc, kết cấu, hình dạng, được đánh chỉ số dựa trên các đặc điểm này). Nhấn mạnh rằng không có một đặc điểm nào là tối ưu, kết hợp nhiều đặc điểm thường cần thiết để đạt hiệu quả cao trong CBIR.

1.2.3 Giao diện Truy vấn Người dùng

Phần này tập trung vào cách thức lấy yêu cầu truy vấn từ người dùng trong hệ thống CBIR. Việc thu thập truy vấn chính xác và dễ dàng là rất quan trọng. Trong khi tra cứu dựa trên văn bản sử dụng từ khóa, CBIR thường sử dụng hình ảnh mẫu (query by example). Tuy nhiên, không phải lúc nào người dùng cũng có thể cung cấp hình ảnh mẫu. Do đó, các hệ thống CBIR hiện đại cung cấp giao diện để người dùng chỉ định hoặc lựa chọn một số đặc điểm cơ bản, giúp người dùng dễ dàng hơn trong việc đưa ra yêu cầu tìm kiếm, kể cả khi không có sẵn ảnh mẫu. Hệ thống QBIC được đề cập như một ví dụ điển hình.

1.2.4 Phương pháp So sánh Độ Tương tự giữa các Ảnh

Phần này thảo luận về phương pháp so sánh độ tương tự giữa ảnh mẫu và các ảnh trong cơ sở dữ liệu trong hệ thống CBIR. Việc xác định độ tương tự không phải lúc nào cũng đơn giản và phụ thuộc vào yêu cầu truy vấn. Độ tương tự giữa hai ảnh có thể thay đổi tùy thuộc vào đối tượng quan tâm. Ví dụ, hai bức ảnh có cùng cảnh mặt trời mọc, một trên biển, một trên núi, sẽ có độ tương tự cao nếu tập trung vào mặt trời, nhưng thấp nếu tập trung vào biển. Mỗi phương pháp CBIR có giới hạn riêng. Phương pháp dựa trên màu sắc, ví dụ, khó phân biệt bầu trời xanh và biển xanh. Do đó, hiệu quả của một công nghệ CBIR phụ thuộc vào kiểu yêu cầu truy vấn của người dùng. Để đạt được kết quả chính xác, việc lựa chọn phương pháp và kết hợp các đặc trưng là rất quan trọng.

1.3 Đặc điểm của Tra cứu Ảnh

Phần này phân tích các kiểu truy vấn người dùng và nhu cầu tìm kiếm ảnh. Ảnh tĩnh được sử dụng vì nhiều lý do. Mức 1 truy vấn tập trung vào đặc điểm nguyên thủy như màu sắc, kết cấu, hình dạng, và vị trí các phần tử trong ảnh. Ví dụ: tìm ảnh có đối tượng màu xám dài ở góc trên bên trái, tìm ảnh có các ngôi sao vàng xếp thành hàng. Mức này sử dụng đặc điểm trực tiếp từ ảnh mà không cần kiến thức bên ngoài, thường áp dụng trong lĩnh vực chuyên gia như đăng ký thương hiệu. Nhiều thư viện ảnh sử dụng từ khóa làm phương pháp tra cứu chính. Sơ đồ chỉ số phản ánh đặc điểm của tập ảnh. Getty Images (với hơn 10.000 từ khóa) và AAT (Art and Architecture Thesaurus, với 120.000 thuật ngữ) được đưa ra làm ví dụ về các hệ thống sử dụng từ khóa và phân loại để hỗ trợ tra cứu ảnh.

1.5 Phương pháp Quản lý Dữ liệu Ảnh Truyền thống và CBIR

Phần này so sánh các phương pháp quản lý dữ liệu ảnh truyền thống với CBIR. Các phương pháp truyền thống như sử dụng từ khóa, tiêu đề, hoặc mã phân loại để mô tả ảnh và tìm kiếm là hiệu quả với tập ảnh nhỏ, nhưng không phù hợp với tập ảnh lớn. CBIR khắc phục hạn chế này bằng cách sử dụng các đặc điểm nội dung (màu sắc, kết cấu, hình dạng, ngữ nghĩa) để tìm kiếm. Tuy nhiên, việc đánh chỉ số thủ công rất tốn thời gian (7-40 phút/ảnh). Một hệ thống CBIR hiệu quả cần xử lý nhiều loại dữ liệu (văn bản, ảnh, video) và đáp ứng nhu cầu người dùng. Các chức năng chính của hệ thống bao gồm: xử lý ảnh trong cơ sở dữ liệu, phân tích truy vấn người dùng, và điều chỉnh hệ thống dựa trên phản hồi. Truy vấn dựa trên thuộc tính (nhanh nhưng chủ quan) và truy vấn dựa trên đặc trưng (QBF - Query By Feature - phức tạp hơn nhưng chính xác hơn) được so sánh.

1.5.3 Đặc trưng Ảnh Màu sắc Kết cấu và Đặc điểm Mức Cao

Phần này tập trung vào các đặc trưng ảnh được sử dụng trong CBIR. Màu sắc là đặc trưng trực quan dễ sử dụng nhất, được biểu diễn qua không gian màu và biểu đồ màu. Kết cấu, mặc dù trực quan nhưng khó định nghĩa chính xác, được mô tả qua các phương pháp thống kê như tần số không gian, ma trận đồng hiện (co-occurrence matrix), và các thuộc tính như năng lượng, entropy, độ tương phản. Các phương pháp mô tả kết cấu khác nhau được đề cập. Đặc điểm mức cao, bao gồm nhận dạng cảnh và nhận dạng đối tượng, được xem xét. Hệ thống IRIS (Hermes-1995) được đề cập như một ví dụ sử dụng màu sắc, kết cấu, vùng và thông tin không gian để tạo ra mô tả văn bản cho tra cứu. Nhận dạng đối tượng, đặc biệt là nhận dạng khuôn mặt, là một lĩnh vực nghiên cứu đang phát triển trong CBIR.

1.6 Yêu cầu Hệ thống Tra cứu Ảnh dựa trên Nội dung

Phần này nêu ra các yêu cầu quan trọng đối với một hệ thống CBIR hiệu quả. Khả năng biến đổi: hệ thống phải hoạt động tốt với cơ sở dữ liệu lớn (hàng triệu ảnh), có thể sử dụng công nghệ đánh chỉ số đa chiều để giảm độ phức tạp. Hiệu quả: tính toán nhanh để đáp ứng yêu cầu phản hồi nhanh. Sự mạnh mẽ: hệ thống cần không bị ảnh hưởng nhiều bởi các điều kiện chụp ảnh khác nhau (ánh sáng, màu sắc). Các phương pháp tra cứu dựa trên màu sắc (biểu đồ màu, color auto-correlogram) và kết cấu (so sánh các số liệu thống kê, bộ lọc Gabor, từ điển kết cấu) được đề cập.

II. Đặc điểm của Tra cứu ảnh

Phần này thảo luận về các kiểu truy vấn người dùng trong tra cứu ảnh. Mức 1 tập trung vào đặc trưng nguyên thủy như màu sắc, kết cấu, hình dạng. Mức cao hơn sử dụng từ khóa và phân loại (ví dụ hệ thống Getty Images với hơn 10.000 từ khóa). Các thư viện ảnh lớn thường sử dụng phương pháp đánh chỉ số thủ công, tuy nhiên, điều này tốn nhiều thời gian (7-40 phút/ảnh).

1.3.1 Kiểu truy vấn và nhu cầu người dùng

Phần này đặt ra câu hỏi về kiểu truy vấn phù hợp nhất cho người dùng trong hệ thống tra cứu ảnh. Để trả lời, cần hiểu rõ nhu cầu của người dùng: lý do tìm kiếm, mục đích sử dụng, và cách đánh giá kết quả. Người dùng tìm kiếm ảnh vì nhiều lý do khác nhau. Văn bản đề cập đến hai cấp độ truy vấn chính. Cấp độ 1 tập trung vào các đặc điểm nguyên thủy của ảnh, bao gồm màu sắc, kết cấu, hình dạng, và vị trí của các phần tử. Các ví dụ được đưa ra như “Tìm một bức tranh với một đối tượng dài, màu xám ở góc trên bên trái”, hay “Tìm ảnh chứa ngôi sao màu vàng xếp thành một dãy”. Cấp độ này sử dụng thông tin trực tiếp từ ảnh mà không cần tham khảo bất kỳ kiến thức bên ngoài nào, và thường được dùng trong các lĩnh vực chuyên môn như đăng ký bản quyền hay nhận dạng thiết kế. Cấp độ truy vấn cao hơn thường sử dụng từ khóa, được nhiều thư viện ảnh áp dụng. Hệ thống Getty Images, với hơn 10.000 từ khóa được phân loại thành chín nhóm ý nghĩa (địa lý, con người, hoạt động, khái niệm...), và hệ thống AAT (Art and Architecture Thesaurus) với 120.000 thuật ngữ cho việc mô tả các đối tượng nghệ thuật, kiến trúc, và di sản văn hóa, được đưa ra làm ví dụ. Việc đánh chỉ số thủ công, dù cho phép mô tả chi tiết, lại rất tốn thời gian, khoảng 7-40 phút cho một ảnh, theo nghiên cứu của Eakins and Graham (1999).

1.3.2 Phương pháp truy vấn Thuộc tính và Đặc điểm

Tiếp theo, phần này phân tích sâu hơn về hai phương pháp truy vấn chính: truy vấn dựa trên thuộc tính và truy vấn dựa trên đặc điểm. Truy vấn dựa trên thuộc tính sử dụng các chú giải và metadata do con người cung cấp làm khóa tra cứu. Phương pháp này đòi hỏi mức độ trừu tượng cao và khó tự động hóa hoàn toàn do lượng thông tin khổng lồ trong một bức ảnh. Mặc dù nhanh hơn và dễ thực hiện, nhưng phương pháp này mang tính chủ quan và mơ hồ cao. Ngược lại, truy vấn dựa trên đặc điểm (QBF - Query By Feature) cho phép người dùng chỉ định trực tiếp các đặc điểm quan tâm trong tìm kiếm, ví dụ như “Đưa ra tất cả những ảnh có góc trên bên trái chứa 25% điểm màu vàng”. Kiểu truy vấn này thường được thực hiện thông qua giao diện đồ họa, dễ sử dụng với người dùng chuyên nghiệp nhưng khó khăn hơn với người dùng không chuyên. Hệ thống QBIC được đề cập là một ví dụ về hệ thống sử dụng phương pháp truy vấn dựa trên đặc điểm.

III. Phương pháp quản lý dữ liệu ảnh và CBIR

Chương trình bày sự khác biệt giữa các phương pháp tra cứu ảnh truyền thống (dựa trên từ khóa, phân loại) và CBIR. CBIR tập trung vào đặc trưng như màu sắc, kết cấu, hình dạng, ngữ nghĩa để tìm kiếm ảnh. Hạn chế của phương pháp truyền thống là tốn thời gian và mang tính chủ quan. Một hệ thống CBIR hiệu quả cần xử lý nhiều nguồn dữ liệu (văn bản, ảnh, video) và đáp ứng nhu cầu người dùng. Các phương pháp truy vấn như truy vấn dựa trên thuộc tính và truy vấn dựa trên đặc trưng (QBF) được so sánh.

1.5.1 Phương pháp quản lý dữ liệu ảnh truyền thống

Phần này thảo luận về các phương pháp quản lý dữ liệu ảnh truyền thống, được sử dụng rộng rãi trước sự xuất hiện của CBIR. Với các tập ảnh nhỏ, việc tìm kiếm ảnh đơn giản bằng cách duyệt qua từng ảnh là khả thi. Tuy nhiên, đối với các tập ảnh lớn gồm hàng ngàn ảnh, phương pháp này trở nên không hiệu quả. Các công nghệ truyền thống thường sử dụng việc gán mô tả dữ liệu cho mỗi ảnh bằng từ khóa, tiêu đề, hoặc mã phân loại. Những mô tả này sau đó được dùng làm khóa để tìm kiếm. Tuy nhiên, phương pháp này có những hạn chế rõ ràng, đặc biệt là trong việc mô tả chính xác nội dung ảnh và khả năng tìm kiếm với các yêu cầu phức tạp hơn. Thời gian cần thiết để đánh chỉ số thủ công cho mỗi ảnh cũng khá lớn, khoảng 7-40 phút/ảnh (Eakins and Graham, 1999), làm giảm hiệu quả của phương pháp này trong việc quản lý và tìm kiếm dữ liệu hình ảnh quy mô lớn.

1.5.2 CBIR và sự khác biệt với các phương pháp truyền thống

Phần này làm rõ sự khác biệt giữa CBIR (Content-Based Image Retrieval) và các phương pháp quản lý dữ liệu ảnh truyền thống. CBIR sử dụng các đặc điểm nội dung của ảnh (màu sắc, kết cấu, hình dạng, ngữ nghĩa) để tìm kiếm, khác với phương pháp truyền thống chỉ dựa trên các từ khóa hay mã phân loại do con người gán. CBIR được xem là một tập con của xử lý ảnh và đồ họa máy tính, nhưng nó nhấn mạnh vào việc tìm kiếm ảnh có các đặc điểm mong muốn từ một tập ảnh lớn. Các vấn đề nghiên cứu và phát triển trong CBIR tập trung vào các đặc điểm chính: màu sắc, kết cấu, hình dạng, và ngữ nghĩa. CBIR mang lại khả năng mô tả nội dung ảnh ở mức độ chi tiết và phức tạp hơn nhiều so với phương pháp truyền thống. Mặc dù có nhiều phần mềm tra cứu văn bản tự động hóa quá trình tìm kiếm, nhưng đánh chỉ số thủ công vẫn gặp hạn chế về thời gian và tính chủ quan.

1.5.3 Chức năng chính của một hệ thống CBIR

Phần này mô tả chức năng chính của một hệ thống CBIR điển hình. Hệ thống không chỉ liên quan đến các nguồn thông tin khác nhau (văn bản, ảnh, video) mà còn đáp ứng nhu cầu người dùng. Nó phân tích cả nội dung của nguồn thông tin và truy vấn của người dùng, rồi so sánh chúng để tìm ra các tiêu chí phù hợp. Các chức năng chính bao gồm: (1) Xử lý thông tin nguồn (ảnh) trong cơ sở dữ liệu (thường mất nhiều thời gian nhưng chỉ cần làm một lần); (2) Phân tích truy vấn của người dùng và chuyển đổi chúng thành dạng phù hợp để so sánh với cơ sở dữ liệu; (3) Điều chỉnh hệ thống dựa trên phản hồi của người dùng hoặc kết quả tìm kiếm. Hệ thống CBIR kết nối các nguồn thông tin trực quan với yêu cầu của người dùng qua một loạt các công việc. Phương pháp truy vấn dựa trên thuộc tính, mặc dù tự nhiên hơn đối với người dùng, lại khó tự động hóa hoàn toàn do khả năng nhận dạng đối tượng của máy tính vẫn còn hạn chế. Các phương pháp QBE (Query By Example) được nhiều hệ thống thương mại sử dụng.

IV.

Phần này tập trung vào các đặc trưng ảnh quan trọng trong CBIR. Màu sắc được miêu tả qua không gian màu và biểu đồ màu. Kết cấu được định nghĩa và phân tích qua nhiều phương pháp, bao gồm ma trận đồng hiện mức xám (GLCM) và LBP (Local Binary Pattern). Đặc điểm mức cao bao gồm nhận dạng cảnh và nhận dạng đối tượng, những lĩnh vực nghiên cứu đang phát triển.

1.5.3.1 Đặc trưng Màu sắc trong CBIR

Màu sắc là một trong những đặc trưng trực quan dễ nhận biết và được sử dụng phổ biến nhất trong CBIR. Một ảnh màu thường có ba kênh màu (RGB), mỗi điểm ảnh được biểu diễn bởi một vector ba chiều trong không gian màu. Các điểm ảnh có cùng giá trị (ví dụ: (1,1,1)) có thể đại diện cho các màu khác nhau tùy thuộc vào hệ màu sử dụng. Mô tả đầy đủ của một ảnh màu bao gồm thông tin không gian hai chiều (vị trí điểm ảnh) và thông tin màu ba chiều. Tuy nhiên, trong nhiều trường hợp, thông tin không gian có thể được bỏ qua, và thông tin màu được xem như một tín hiệu ba chiều đơn giản. Việc sử dụng màu sắc trong CBIR cho phép tìm kiếm ảnh dựa trên sự phân bố màu sắc, tỷ lệ các màu, hoặc sự tương đồng màu sắc giữa ảnh mẫu và ảnh trong cơ sở dữ liệu. Các kỹ thuật như biểu đồ màu (histogram) được sử dụng rộng rãi, nhưng bị hạn chế vì không chứa thông tin không gian. Các kỹ thuật cải tiến, như color auto-correlogram, được đề xuất để khắc phục hạn chế này.

1.5.3.2 Đặc trưng Kết cấu trong CBIR

Kết cấu là một đặc trưng trực quan quan trọng khác được sử dụng trong CBIR, tuy nhiên, nó không có một định nghĩa chính xác do tính đa dạng và biến thiên rộng. Nhiều phương pháp thống kê được sử dụng để mô tả kết cấu, bao gồm tần số không gian, ma trận đồng hiện (co-occurrence matrix), và tần số biên. Các thuộc tính kết cấu như năng lượng, entropy, độ tương phản, độ thô, tính đồng nhất, tính tương quan, đẳng hướng, pha, và độ ráp được sử dụng để phân tích và so sánh kết cấu giữa các ảnh. Các phương pháp này phù hợp khi kích thước của kết cấu gốc tương đương với kích thước điểm ảnh. Ngoài ra, các phương pháp khác như biến đổi Fourier, phân tích đường viền hình học (độ cong, chiều dài biên), và đặc điểm vùng (số chu kỳ, độ lệch tâm) cũng được sử dụng để mô tả kết cấu. Việc lựa chọn phương pháp thích hợp phụ thuộc vào loại kết cấu và yêu cầu của bài toán.

1.5.3.4 Đặc trưng Mức Cao trong CBIR

Hầu hết các nghiên cứu CBIR tập trung vào các đặc trưng mức thấp (màu sắc, kết cấu). Tuy nhiên, một số nghiên cứu hướng đến việc thu hẹp khoảng cách giữa đặc trưng mức thấp và mức cao. Hai hướng nghiên cứu chính là nhận dạng cảnh và nhận dạng đối tượng. Nhận dạng cảnh tập trung vào xác định loại cảnh miêu tả trong ảnh, giúp tìm kiếm và xác định đối tượng rõ ràng hơn. Hệ thống IRIS (Hermes-1995) là một ví dụ sử dụng màu sắc, kết cấu, vùng và thông tin không gian để tạo mô tả văn bản cho tra cứu. Các kỹ thuật đơn giản hơn sử dụng thành phần tần số thấp của ảnh hoặc thông tin màu lân cận từ ảnh độ phân giải thấp. Hướng nghiên cứu thứ hai là nhận dạng đối tượng, tập trung vào việc phát triển công nghệ nhận dạng và phân loại đối tượng trong cơ sở dữ liệu hình ảnh. Nhận dạng người trong ảnh là một lĩnh vực đã có những tiến bộ đáng kể, dựa trên việc phát triển mẫu cho mỗi lớp đối tượng và xác định các vùng ảnh chứa các mẫu này.

V. Yêu cầu của hệ thống Tra cứu ảnh dựa trên nội dung

Phần này nhấn mạnh các yêu cầu của một hệ thống CBIR hiệu quả: khả năng biến đổi (tức là hoạt động tốt với cơ sở dữ liệu lớn), hiệu quả (tính toán nhanh), sự mạnh mẽ (không bị ảnh hưởng bởi điều kiện chụp ảnh). Các phương pháp tra cứu ảnh dựa trên màu sắc và kết cấu được phân tích, đề cập đến các kỹ thuật như biểu đồ màu giao nhau và các bộ lọc Gabor.

1.5.3.1 Đặc trưng Màu sắc

Màu sắc được coi là đặc trưng trực quan dễ nhận biết nhất và được sử dụng rộng rãi trong tra cứu ảnh dựa trên nội dung. Một ảnh màu điển hình, lấy từ camera kỹ thuật số hoặc tải từ internet, thường có ba kênh màu (RGB), ngoại trừ ảnh xám chỉ có một kênh. Dữ liệu ba chiều này cho biết vị trí của các điểm ảnh trong không gian màu. Ví dụ, giá trị (1, 1, 1) đại diện cho các màu khác nhau trong các không gian màu khác nhau. Mô tả đầy đủ của một ảnh màu bao gồm thông tin không gian hai chiều (vị trí điểm ảnh) và dữ liệu màu ba chiều. Nếu giả sử không gian màu là cố định, bỏ qua thông tin không gian, thông tin màu trong ảnh có thể được xem như một tín hiệu ba chiều đơn giản. Phương pháp biểu đồ màu (histogram) thường được sử dụng để mô tả phân bố màu sắc trong ảnh, nhưng bị hạn chế vì thiếu thông tin không gian. Các kỹ thuật cải tiến, ví dụ như color auto-correlogram, được đề xuất để bổ sung thông tin không gian vào biểu đồ màu.

1.5.3.2 Đặc trưng Kết cấu

Kết cấu là một đặc trưng trực quan quan trọng khác, được sử dụng rộng rãi nhưng không có định nghĩa chính xác do tính chất đa dạng và biến thiên của nó. Có nhiều cách để mô tả kết cấu, chủ yếu dựa trên các phương pháp thống kê như phân tích tần số không gian, ma trận đồng hiện (co-occurrence matrix), và tần số biên. Từ đó, các thuộc tính kết cấu như năng lượng, entropy, độ tương phản, độ thô, tính đồng nhất, tính tương quan, đẳng hướng, pha, và độ ráp có thể được tính toán. Các phương pháp này hoạt động hiệu quả khi kích thước kết cấu gốc tương đương với kích thước điểm ảnh. Ngoài các phương pháp thống kê, người ta còn sử dụng biến đổi Fourier, phân tích đường viền hình học (độ cong, chiều dài biên), và đặc điểm vùng (số chu kỳ, độ lệch tâm) để mô tả kết cấu. Tuy nhiên, không có một phương pháp nào là tối ưu cho tất cả các loại kết cấu, việc lựa chọn phương pháp phù hợp phụ thuộc vào đặc điểm của kết cấu và yêu cầu của bài toán.

1.5.3.4 Đặc trưng Mức Cao

Phần lớn nghiên cứu CBIR tập trung vào các đặc trưng mức thấp như màu sắc và kết cấu. Tuy nhiên, một số nghiên cứu đã cố gắng kết nối đặc trưng mức thấp với đặc trưng mức cao hơn. Hai hướng nghiên cứu chính được đề cập là nhận dạng cảnh và nhận dạng đối tượng. Nhận dạng cảnh tập trung vào việc xác định loại cảnh trong ảnh, giúp tìm kiếm và xác định đối tượng chính xác hơn. Hệ thống IRIS (Hermes-1995) được đề cập như một ví dụ sử dụng màu sắc, kết cấu, vùng, và thông tin không gian để tạo ra mô tả văn bản có thể dùng trong các hệ thống tra cứu dựa trên văn bản. Các kỹ thuật đơn giản hơn sử dụng thành phần tần số thấp của ảnh hoặc thông tin màu lân cận từ ảnh độ phân giải thấp. Hướng nghiên cứu thứ hai là nhận dạng đối tượng, tập trung vào việc phát triển công nghệ nhận dạng và phân loại các đối tượng trong cơ sở dữ liệu hình ảnh. Nhận dạng khuôn mặt được đề cập là một kỹ thuật tiên tiến trong lĩnh vực này, dựa trên việc xây dựng mẫu cho từng lớp đối tượng và xác định các vùng ảnh chứa các mẫu đó.

VI.Chương 2 Tra cứu ảnh dựa trên kết cấu

Chương này đi sâu vào vấn đề kết cấu ảnh. Khái niệm kết cấu được thảo luận từ góc độ nhận thức của con người và các mô hình toán học. Các mô hình kết cấu gồm mô hình hàm mật độ xác suất (PDF), mô hình hình dạng chung (GS), và mô hình bộ phận. Các phương pháp trích xuất đặc trưng kết cấu như GLCM và LBP được trình bày chi tiết. Các thuộc tính kết cấu như hướng, độ thô, độ đều đặn cũng được phân tích.

2.1 Giới thiệu về Tra cứu Ảnh dựa trên Kết cấu

Chương này giới thiệu về tra cứu ảnh dựa trên kết cấu, một khía cạnh quan trọng trong nhận thức thị giác của con người. Kết cấu, dù trực quan, lại khó định nghĩa chính xác do sự đa dạng và biến thiên. Mặc dù không có định nghĩa thống nhất, nhưng các nhà nghiên cứu đều đồng ý về hai điểm chính: kết cấu là một đặc trưng trực quan quan trọng cần xem xét khi truy vấn cơ sở dữ liệu ảnh và việc xác định chính xác kết cấu là một thách thức. Chương này sẽ tập trung vào việc phân tích các khái niệm về kết cấu, từ góc độ nhận thức của con người đến các mô hình toán học được sử dụng để biểu diễn và phân tích kết cấu trong ảnh nhằm phục vụ cho việc tra cứu ảnh hiệu quả. Sự khó khăn trong việc định nghĩa chính xác kết cấu ảnh hưởng trực tiếp đến việc thiết kế các thuật toán phân tích và trích xuất đặc trưng kết cấu, đòi hỏi sự nghiên cứu kỹ lưỡng và đa chiều.

2.2 Kết cấu theo Nhận thức của Con người

Phần này khảo sát khái niệm kết cấu từ góc độ nhận thức của con người. Nghiên cứu của Julez về sự phân biệt kết cấu đặt ra câu hỏi: khi nào hai kết cấu được phân biệt, giả sử chúng có cùng độ sáng, độ tương phản và màu sắc? Phương pháp của Julez là so sánh từng cặp kết cấu, xem xét sự tương tác giữa các phần tử. Nếu phần tử của một kết cấu không giống với kết cấu lân cận, thì hai kết cấu được coi là khác nhau. Julez sử dụng số liệu thống kê bậc nhất và bậc hai để phân tích. Tuy nhiên, một số nhà nghiên cứu khác định nghĩa kết cấu dựa trên ứng dụng, dẫn đến nhiều cách tiếp cận khác nhau trong việc trích xuất đặc trưng kết cấu. Định nghĩa dựa trên nhận thức phù hợp cho nghiên cứu về bản chất của kết cấu, nhưng lại gặp khó khăn khi áp dụng vào thuật toán phân tích kết cấu do sự phức tạp và đa dạng trong cách con người cảm nhận kết cấu.

2.3 Mô hình Kết cấu

Phần này trình bày các mô hình toán học được sử dụng để biểu diễn kết cấu. Mô hình hàm mật độ xác suất (PDF) mô tả sự phân bố không gian của cường độ trong kết cấu, thường đo tương tác của một số lượng nhỏ điểm ảnh (ví dụ: mô hình ngẫu nhiên Gauss-Markov, phương pháp đồng hiện mức xám - GLCM). Mô hình hình dạng chung (GS) mô tả kết cấu như một bề mặt, đo các đặc điểm trực quan như biên, đường cường độ cực trị, dạng sóng và hướng. Mô hình bộ phận tập trung vào các phần riêng lẻ của kết cấu. Mỗi mô hình có ưu điểm và nhược điểm riêng. PDF phù hợp với sự phân bố không gian cường độ, nhưng nhạy cảm với nhiễu. GS đo tương tác của nhiều điểm ảnh trên phạm vi rộng, nhưng khó áp dụng cho kết cấu phức tạp. Việc lựa chọn mô hình phù hợp phụ thuộc vào loại kết cấu và mục đích sử dụng. Một số thuộc tính cảm nhận của kết cấu như không đồng dạng, mật độ, độ thô, độ gồ ghề, tính đều đặn, hướng, và tần số được đề cập. Sự phụ thuộc giữa các thuộc tính này và sự đa dạng trong cách cảm nhận kết cấu là những thách thức trong việc tìm kiếm một phương pháp biểu diễn kết cấu hoàn hảo.

VII.Chương 3 Phương pháp Tra cứu ảnh

Chương này trình bày các phương pháp cụ thể để thực hiện tra cứu ảnh. Nó bao gồm định nghĩa các đặc trưng và các thuộc tính để so sánh ảnh, sử dụng các hàm khoảng cách thích hợp. Ma trận đồng hiện mức xám (Co-occurrence Matrix) được đề cập như một công cụ để trích xuất đặc trưng kết cấu và giảm kích thước không gian đặc trưng.

3.1 Đặc trưng và Thước Đo Khoảng Cách

Chương này trình bày các phương pháp cụ thể dùng để thực hiện tra cứu ảnh. Độ tương tự giữa hai ảnh được xác định bằng sự khác biệt giữa các đặc trưng của chúng. Các đặc trưng thường được biểu diễn dưới dạng vector, và sự khác biệt giữa hai ảnh được tính toán bằng khoảng cách giữa hai vector này. Khoảng cách Euclid được đề cập, nhưng khoảng cách tuyệt đối không phù hợp vì nó không phản ánh chính xác mức độ khác biệt giữa các đặc trưng. Ví dụ, sự khác biệt giữa f(a)=1000 và f(a')=1050 là nhỏ hơn so với sự khác biệt giữa f(b)=100 và f(b')=150, mặc dù khoảng cách tuyệt đối trong cả hai trường hợp là như nhau. Do đó, cần phải sử dụng các thước đo khoảng cách phù hợp để phản ánh chính xác sự tương đồng giữa các đặc trưng của ảnh. Việc lựa chọn thước đo khoảng cách phụ thuộc vào loại đặc trưng được sử dụng và mục tiêu của quá trình tra cứu.

3.2 Phương pháp Ma trận Đồng Hiện Mức Xám Co occurrence Matrix

Phần này tập trung vào phương pháp sử dụng ma trận đồng hiện mức xám (Co-occurrence Matrix) trong tra cứu ảnh. Các đặc trưng có thể được trích xuất từ ma trận này để giảm kích thước không gian đặc trưng, giúp giảm độ phức tạp tính toán trong quá trình tra cứu. Ma trận đồng hiện mức xám mô tả sự đồng hiện của các cặp điểm ảnh với một khoảng cách nhất định (offset). Các đặc trưng được tính toán từ ma trận này phản ánh các thuộc tính về sự phân bố không gian của cường độ xám trong kết cấu ảnh. Ví dụ, nếu các giá trị trong ma trận tập trung theo đường chéo, kết cấu sẽ thô. Haralick đã đề xuất một số đặc trưng kết cấu có thể được tính toán từ ma trận này, bao gồm phương sai và tương quan. Việc sử dụng ma trận đồng hiện mức xám là một phương pháp hiệu quả trong việc trích xuất đặc trưng kết cấu ảnh và cải thiện hiệu suất của hệ thống tra cứu ảnh.