
Phân loại quan điểm bằng Maximum Entropy
Thông tin tài liệu
Tác giả | Phạm Thị Hà |
instructor | Ths. Nguyễn Thị Xuân Hương |
Trường học | Trường Đại học Dân lập Hải Phòng |
Chuyên ngành | Công nghệ Thông tin |
Loại tài liệu | Đồ án tốt nghiệp đại học hệ chính quy |
Ngôn ngữ | Vietnamese |
Định dạng | |
Dung lượng | 1.39 MB |
Tóm tắt
I.Bài toán Phân loại Quan điểm trong Đánh giá Phim
Luận văn nghiên cứu phân tích cảm xúc (sentiment analysis) trong đánh giá phim (movie reviews), tập trung vào việc xây dựng mô hình phân loại quan điểm (opinion classification) tự động. Nghiên cứu sử dụng dữ liệu từ Internet Movie Database (IMDB) gồm 700 nhận xét tích cực và 700 nhận xét tiêu cực. Mục tiêu là phân loại chính xác các nhận xét này thành hai lớp: tích cực và tiêu cực.
1. Nhu cầu về thông tin quan điểm và nhận xét
Phần này nhấn mạnh tầm quan trọng của thông tin quan điểm và nhận xét trong nhiều lĩnh vực, đặc biệt là trong kinh doanh và tiếp thị. Trước đây, việc thu thập thông tin này phụ thuộc vào các nguồn truyền thống như bạn bè, người thân hay chuyên gia. Tuy nhiên, sự phát triển mạnh mẽ của Internet và Web đã tạo ra một lượng thông tin khổng lồ, bao gồm cả những đánh giá tích cực và tiêu cực từ người tiêu dùng. Các công ty ngày càng nhận thức được sức mạnh của những phản hồi này trong việc định hình nhận thức, lòng trung thành thương hiệu, và quyết định mua hàng của khách hàng. Việc giám sát thông tin trên các phương tiện truyền thông trở nên cần thiết cho các hoạt động quan hệ công chúng, phát hiện gian lận, và thu thập thông tin cạnh tranh. Tuy nhiên, sự đa dạng và phân mảnh của các phương tiện truyền thông cũng đặt ra thách thức trong việc phân loại và xử lý thông tin một cách hiệu quả. Do đó, nhu cầu về các phương pháp tự động phân loại quan điểm từ dữ liệu văn bản, như đánh giá phim, trở nên cấp thiết.
2. Thách thức của bài toán phân loại quan điểm
Phân loại tài liệu theo định hướng quan điểm là một vấn đề phức tạp trong lĩnh vực xử lý ngôn ngữ tự nhiên. Bản chất đa nghĩa và nhập nhằng của ngôn ngữ người tạo ra khó khăn trong việc xác định chính xác quan điểm của người viết. Khác với việc phân loại chủ đề truyền thống, dựa trên các từ khóa đơn lẻ, quan điểm thường được thể hiện một cách tinh tế hơn, đòi hỏi sự hiểu biết ngữ cảnh sâu sắc hơn. Ví dụ, câu hỏi "Làm thế nào để ai đó có thể ngồi xem hết bộ phim này?" không trực tiếp thể hiện quan điểm nhưng lại mang hàm ý tiêu cực. Do đó, việc phân biệt quan điểm với chủ đề truyền thống là một thách thức lớn. Độ chính xác của hệ thống phân loại sẽ bị ảnh hưởng bởi sự nhập nhằng này. Để giải quyết vấn đề này, cần có những phương pháp xử lý ngôn ngữ tự nhiên tiên tiến và các thuật toán học máy hiệu quả.
3. Nhiệm vụ của bài toán phân loại quan điểm
Bài toán phân loại quan điểm, hay phân loại tài liệu theo định hướng quan điểm, có mục tiêu chính là phân loại các tài liệu dựa trên quan điểm tích cực hoặc tiêu cực được thể hiện trong đó. Có nhiều cách tiếp cận khác nhau để giải quyết bài toán này, nhưng về cơ bản bao gồm hai nhiệm vụ chính: trích xuất đặc trưng và xây dựng mô hình phân loại. Trong trích xuất đặc trưng, hệ thống tập trung vào các từ chỉ nội dung câu như danh từ, động từ, tính từ và phó từ. Các kỹ thuật xử lý ngôn ngữ tự nhiên khác như loại bỏ stop-word và stemming cũng được sử dụng để làm sạch và chuẩn hóa dữ liệu. Việc trích chọn các từ và cụm từ thể hiện quan điểm là bước quan trọng, vì chúng là chìa khóa để phân loại tài liệu. Nhiệm vụ thứ hai là xây dựng mô hình phân loại, sử dụng các phương pháp học máy thống kê như Naive Bayes, Maximum Entropy, SVM, và cây quyết định. Chọn thuật toán phù hợp và tối ưu hóa mô hình là rất quan trọng để đạt được độ chính xác cao trong phân loại quan điểm.
II.Trích xuất Đặc trưng và Phương pháp Học máy
Để thực hiện phân loại quan điểm, luận văn áp dụng kỹ thuật trích xuất đặc trưng N-gram, cụ thể là uni-gram và bi-gram. Các đặc trưng này được sử dụng để huấn luyện mô hình học máy (machine learning). Maximum Entropy (MaxEnt) được chọn làm thuật toán chính, dựa trên nguyên lý cực đại hóa entropy để tìm phân phối xác suất tối ưu cho việc phân loại. Quá trình này bao gồm các bước tiền xử lý như loại bỏ stop-word để nâng cao hiệu quả.
1. Trích xuất đặc trưng N gram
Để xây dựng mô hình phân loại quan điểm, phương pháp trích xuất đặc trưng N-gram được sử dụng. Cụ thể, luận văn tập trung vào uni-gram (1-gram) và bi-gram (2-gram) làm các đặc trưng chính. Việc lựa chọn này dựa trên giả thuyết rằng các từ đơn lẻ và cặp từ liền kề sẽ mang nhiều thông tin về quan điểm của người viết. Quá trình trích xuất đặc trưng bao gồm việc xác định và tách các uni-gram và bi-gram từ văn bản. Ngoài ra, các kỹ thuật xử lý ngôn ngữ tự nhiên như loại bỏ stop-word (các từ thường xuyên xuất hiện nhưng không mang nhiều ý nghĩa, ví dụ như 'là', 'của', 'trong'…) được áp dụng để loại bỏ nhiễu và tăng cường hiệu quả của đặc trưng. Mục tiêu của bước này là tạo ra một tập hợp các đặc trưng đại diện cho văn bản đầu vào, sao cho các đặc trưng này có khả năng phản ánh chính xác quan điểm tích cực hoặc tiêu cực của người viết. Việc lựa chọn uni-gram và bi-gram là một sự cân bằng giữa độ phức tạp của mô hình và khả năng nắm bắt thông tin ngữ cảnh. Một N-gram nhỏ hơn (như uni-gram) đơn giản nhưng có thể bỏ sót thông tin ngữ cảnh, trong khi một N-gram lớn hơn lại phức tạp hơn và dễ dẫn đến overfitting.
2. Phương pháp học máy Maximum Entropy
Sau khi trích xuất đặc trưng, luận văn áp dụng phương pháp học máy Maximum Entropy (MaxEnt) để xây dựng mô hình phân loại. MaxEnt là một thuật toán dựa trên xác suất có điều kiện, cho phép tích hợp nhiều thuộc tính đa dạng từ dữ liệu huấn luyện để nâng cao độ chính xác. MaxEnt ước tính xác suất P(c|d), trong đó 'c' là lớp (tích cực hoặc tiêu cực) và 'd' là văn bản đầu vào, dưới dạng một hàm mũ. Một trong những ưu điểm của MaxEnt so với Naive Bayes là nó không giả định tính độc lập giữa các đặc trưng, giúp xử lý tốt hơn các mối quan hệ phức tạp giữa các từ và cụm từ trong văn bản. Đây là một lợi thế quan trọng trong bài toán phân loại quan điểm, nơi mà sự kết hợp của nhiều từ và ngữ cảnh thường quyết định quan điểm của người viết. Khác với Naive Bayes, MaxEnt có thể nắm bắt được sự phụ thuộc giữa các đặc trưng, tăng khả năng phân loại chính xác các quan điểm tinh tế hơn. Việc huấn luyện mô hình MaxEnt bao gồm việc ước lượng tập trọng số λ cho từng đặc trưng, nhằm tối ưu hóa khả năng phân loại của mô hình.
3. Xây dựng và huấn luyện mô hình
Quá trình xây dựng mô hình phân loại quan điểm bao gồm việc lựa chọn các đặc trưng (uni-gram và bi-gram trong trường hợp này), sau đó huấn luyện mô hình Maximum Entropy bằng cách sử dụng tập dữ liệu huấn luyện. Huấn luyện mô hình MaxEnt liên quan đến việc tìm kiếm tập trọng số tối ưu λ sao cho mô hình có thể phân loại chính xác các văn bản trong tập dữ liệu. Thuật toán L-BFGS, một phương pháp tối ưu quasi-Newton, được sử dụng để tìm tập trọng số này một cách hiệu quả. L-BFGS là một thuật toán tối ưu rất hiệu quả, đặc biệt khi xử lý số lượng lớn tham số. Sau khi huấn luyện, mô hình MaxEnt được sử dụng để dự đoán lớp (tích cực hoặc tiêu cực) cho các văn bản mới. Việc lựa chọn mô hình MaxEnt dựa trên hiệu quả của nó trong việc xử lý các mối quan hệ phức tạp giữa các đặc trưng, giúp mô hình có khả năng phân loại chính xác hơn so với các mô hình đơn giản hơn như Naive Bayes trong các trường hợp đặc trưng không độc lập.
III.Mô hình Maximum Entropy và Thuật toán Ước lượng Tham số
Luận văn trình bày chi tiết về mô hình Maximum Entropy (MaxEnt), bao gồm cách xây dựng các ràng buộc và hàm đặc trưng. Thuật toán L-BFGS được sử dụng để ước lượng các tham số của mô hình, tối ưu hóa quá trình tìm kiếm trọng số λ cho từng đặc trưng. Mô hình MaxEnt được lựa chọn vì khả năng xử lý tốt các mối quan hệ phức tạp giữa các đặc trưng, vượt trội hơn so với phương pháp Naive Bayes trong một số trường hợp phân loại văn bản (text classification).
1. Giới thiệu mô hình Maximum Entropy
Mô hình Maximum Entropy (MaxEnt) được sử dụng trong luận văn là một mô hình xác suất có điều kiện. Nó cho phép tích hợp nhiều thuộc tính đa dạng từ dữ liệu mẫu huấn luyện để hỗ trợ quá trình phân loại. Nguyên lý cốt lõi của MaxEnt là tìm kiếm phân phối xác suất sao cho phân phối này thỏa mãn tất cả các ràng buộc quan sát được từ dữ liệu và đồng thời có entropy cực đại. Entropy ở đây được hiểu là một thước đo về độ không chắc chắn của phân phối xác suất. Một phân phối xác suất có entropy càng cao thì càng đồng đều, thể hiện sự không chắc chắn lớn hơn. Trong MaxEnt, việc tìm kiếm phân phối xác suất tối ưu được thực hiện bằng cách tối đa hóa entropy có điều kiện, tức là tính toán entropy của phân phối xác suất dựa trên các ràng buộc thu thập được từ dữ liệu. Việc sử dụng MaxEnt giúp giải quyết hạn chế của các mô hình đơn giản hơn, như Naive Bayes, trong việc giả định tính độc lập giữa các đặc trưng, giúp mô hình hoạt động hiệu quả hơn trong việc phân loại văn bản.
2. Thống kê đặc trưng và ràng buộc trong MaxEnt
Mô hình MaxEnt sử dụng các thống kê, đặc trưng và ràng buộc từ dữ liệu huấn luyện để xây dựng. Các thống kê này phản ánh các mối quan hệ giữa các đặc trưng và lớp của văn bản. Ví dụ, trong bài toán phân loại đánh giá phim, nếu từ "failure" xuất hiện thì xác suất nhận xét đó thuộc lớp "not good" có thể là 80%. Đây là một ví dụ về thống kê. MaxEnt ràng buộc các giá trị kỳ vọng của hàm đặc trưng (f) trong mô hình với giá trị kỳ vọng của chúng trong dữ liệu huấn luyện. Hàm đặc trưng là một hàm nhị phân, nhận giá trị 1 nếu đặc trưng đó xuất hiện và 0 nếu không. Mỗi ràng buộc biểu diễn một thông tin được quan sát từ dữ liệu. Việc xây dựng các ràng buộc chính là việc đưa những quan sát từ dữ liệu vào trong mô hình. Bằng cách này, MaxEnt đảm bảo mô hình phù hợp với dữ liệu huấn luyện. Số lượng ràng buộc có thể rất lớn, và việc tìm kiếm phân phối xác suất tối ưu thỏa mãn tất cả các ràng buộc đồng thời tối đa hóa entropy là một bài toán tối ưu phức tạp.
3. Nguyên lý cực đại Entropy và thuật toán ước lượng tham số
Nguyên lý cực đại Entropy hướng dẫn việc lựa chọn phân phối xác suất sao cho nó thỏa mãn các ràng buộc và gần nhất với phân phối đều. Tuy nhiên, trong thực tế, số lượng ràng buộc rất lớn và việc tìm kiếm phân phối thỏa mãn tất cả các ràng buộc là một bài toán khó. Do đó, luận văn sử dụng lý thuyết thừa số Lagrange để chuyển bài toán tìm phân phối xác suất tối ưu thành bài toán tìm tập tham số λ tối ưu hóa hàm Lagrange. Tập tham số λ bao gồm trọng số cho từng đặc trưng. Thuật toán L-BFGS, một phương pháp giới hạn bộ nhớ cho phương pháp quasi-Newton, được sử dụng để ước lượng tập tham số λ*. L-BFGS có khả năng tối ưu hóa hiệu quả với số lượng lớn tham số, phù hợp với bài toán MaxEnt. Trong mỗi bước lặp, L-BFGS cập nhật giá trị của λ dựa trên giá trị hiện tại và vecto gradient. Quá trình lặp lại cho đến khi đạt được tập trọng số tối ưu λ*, cho phép mô hình MaxEnt phân loại chính xác hơn.
IV.Thực nghiệm và Kết quả
Thí nghiệm được thực hiện trên bộ dữ liệu IMDB với 1400 nhận xét (700 tích cực, 700 tiêu cực). SRILM được sử dụng để tạo ra các N-gram. Kết quả thực nghiệm đánh giá hiệu quả của mô hình Maximum Entropy trong việc phân tích cảm xúc (sentiment analysis) đối với đánh giá phim (movie reviews) bằng cách sử dụng uni-gram và bi-gram như đặc trưng chính. Các chỉ số đánh giá hiệu quả của mô hình sẽ được trình bày cụ thể trong phần kết quả.
1. Dữ liệu thí nghiệm
Phần thực nghiệm sử dụng bộ dữ liệu gồm 700 nhận xét tích cực và 700 nhận xét tiêu cực về phim, lấy từ Internet Movie Database (IMDB) rec.arts.movies.reviews newgroup. Dữ liệu này có sẵn tại địa chỉ http://www.cs.cornell.edu/people/pabo/movie-review-data/. Trước khi sử dụng, dữ liệu đã được làm sạch, loại bỏ các chỉ số đánh giá và trích xuất thông tin từ văn bản gốc định dạng HTML. Các dấu chấm câu được xử lý như các mục từ vựng riêng biệt. Các đặc trưng được sử dụng tập trung vào uni-gram (từ đơn) và bi-gram (cặp hai từ liền kề). Việc lựa chọn này dựa trên giả thuyết rằng các đơn vị ngôn ngữ này đủ để nắm bắt thông tin về quan điểm tích cực hoặc tiêu cực trong đánh giá phim. Bộ dữ liệu này được chia thành hai phần: tập huấn luyện và tập kiểm thử, dùng để huấn luyện và đánh giá hiệu quả của mô hình phân loại. Sự cân bằng giữa số lượng nhận xét tích cực và tiêu cực giúp đảm bảo tính khách quan trong quá trình đánh giá.
2. Công cụ sử dụng
Nghiên cứu sử dụng hai công cụ chính. Thứ nhất là SRILM (SRI Language Modeling Toolkit), một bộ công cụ mạnh mẽ để xây dựng và áp dụng mô hình ngôn ngữ thống kê (LMS). SRILM được sử dụng để tạo ra các N-gram (uni-gram và bi-gram) từ dữ liệu văn bản. Công cụ này giúp tự động hóa quá trình tạo ra các đặc trưng từ dữ liệu đầu vào. Thứ hai là công cụ mã nguồn mở Maxent của tác giả Le Zhang (Centre for Speech Technology Research, University of Edinburgh), được sử dụng để xây dựng và huấn luyện mô hình phân loại Maximum Entropy. Maxent là một công cụ mạnh mẽ và linh hoạt trong xử lý ngôn ngữ tự nhiên, cho phép xây dựng mô hình phân loại dựa trên các đặc trưng đã được trích xuất. Sự kết hợp giữa SRILM và Maxent cho phép tiến hành một quá trình phân tích cảm xúc hoàn chỉnh, từ việc tạo ra đặc trưng đến việc huấn luyện và đánh giá mô hình.
3. Phương pháp thực nghiệm và kết quả Tổng quan
Thí nghiệm được thiết kế để đánh giá hiệu quả của mô hình Maximum Entropy trong việc phân loại quan điểm từ đánh giá phim. Bộ dữ liệu gồm 700 câu tích cực và 700 câu tiêu cực được sử dụng. Phương pháp học máy có giám sát Maximum Entropy được áp dụng, với uni-gram và bi-gram làm đặc trưng. Quá trình thực nghiệm bao gồm các bước: sinh N-gram bằng SRILM, lọc bỏ các đặc trưng không tốt, huấn luyện mô hình MaxEnt và cuối cùng là đánh giá hiệu quả trên tập dữ liệu kiểm thử. Kết quả thực nghiệm sẽ cho thấy hiệu quả của mô hình MaxEnt so với các phương pháp khác (mặc dù không được đề cập cụ thể trong đoạn trích). Những kết quả này sẽ giúp đánh giá khả năng của mô hình trong việc phân loại chính xác các quan điểm tích cực và tiêu cực từ đánh giá phim. Tuy nhiên, chi tiết về kết quả thực nghiệm, bao gồm các chỉ số đánh giá cụ thể, không được cung cấp trong đoạn trích này.
V.Công cụ và Tài liệu Tham khảo
Luận văn sử dụng các công cụ: SRILM (SRI Language Modeling Toolkit) cho việc tạo mô hình ngôn ngữ và công cụ mã nguồn mở MaxEnt của tác giả Le Zhang (Centre for Speech Technology Research, University of Edinburgh) cho phân loại Maximum Entropy. Một số tài liệu tham khảo quan trọng bao gồm công trình của Ths. Nguyễn Thị Xuân Hương và Ths. Lê Thụy về phân tích quan điểm, và khóa luận của Nguyễn Thùy Linh về phân lớp tài liệu web độc lập ngôn ngữ.
1. Công cụ phần mềm
Luận văn sử dụng hai công cụ chính: SRILM và MaxEnt. SRILM (SRI Language Modeling Toolkit) là một bộ công cụ để xây dựng và áp dụng mô hình ngôn ngữ thống kê, được sử dụng để tạo ra các N-gram (trong trường hợp này là uni-gram và bi-gram) từ dữ liệu văn bản. Công cụ này đóng vai trò quan trọng trong việc tiền xử lý dữ liệu và trích xuất các đặc trưng cần thiết cho quá trình phân loại. MaxEnt, một công cụ mã nguồn mở của tác giả Le Zhang tại Centre for Speech Technology Research, University of Edinburgh, được sử dụng để xây dựng và huấn luyện mô hình Maximum Entropy. MaxEnt là công cụ cốt lõi thực hiện thuật toán phân loại quan điểm dựa trên các đặc trưng đã được trích xuất bởi SRILM. Việc sử dụng các công cụ này thể hiện tính hệ thống và hiệu quả trong quá trình nghiên cứu, giúp tự động hóa các bước xử lý dữ liệu và xây dựng mô hình.
2. Tài liệu tham khảo
Luận văn tham khảo một số công trình nghiên cứu liên quan đến phân tích quan điểm và xử lý ngôn ngữ tự nhiên. Cụ thể, nó nhắc đến công trình của Thạc sĩ Nguyễn Thị Xuân Hương và Thạc sĩ Lê Thụy về "phân tích quan điểm và một số hướng tiếp cận", được trình bày tại Hội nghị khoa học lần thứ nhất năm 2012, trường Đại học Dân lập Hải Phòng. Thêm vào đó, luận văn cũng đề cập đến khóa luận tốt nghiệp của Nguyễn Thùy Linh về "Phân lớp tài liệu web độc lập ngôn ngữ" tại trường Đại học Quốc gia Hà Nội. Việc tham khảo các công trình này cho thấy sự nghiên cứu kỹ lưỡng và cập nhật kiến thức của tác giả trong lĩnh vực. Ngoài ra, luận văn còn tham khảo nguồn dữ liệu từ Internet Movie Database (IMDB) rec.arts.movies.reviews newgroup, cụ thể là tập dữ liệu có sẵn tại địa chỉ http://www.cs.cornell.edu/people/pabo/movie-review-data/, được sử dụng làm cơ sở dữ liệu cho phần thực nghiệm.