Web có ngữ nghĩa
World Wide Web (gọi tắt là Web) đã trở thành một kho tàng thông tin khổng lồ của nhân loại và một môi trường chuyển tải thông tin không thể thiếu được trong thời đại công nghệ thông tin ngày nay. Sự phổ biến và bùng nổ thông tin trên Web cũng đặt ra một thách thức mới là làm thế nào để khai thác được thông tin trên Web một cách hiệu quả, mà cụ thể là làm sao để máy tính có thể trợ giúp xử lý tự động được chúng. Muốn vậy, trước hết máy tính phải hiểu được thông tin trên các tài liệu Web, trong khi ở thế hệ Web hiện tại thông tin được biểu diễn dưới dạng văn bản thô mà chỉ con người mới đọc hiểu được.
Điều này đã thúc đẩy sự ra đời của ý tưởng Web có ngữ nghĩa, một thế hệ mới của Web, mà lộ trình phát triển của nó đã được Tim Berners-Lee, cha đẻ của Web, phác thảo ra vào năm 1998. Web có ngữ nghĩa là sự mở rộng của Web hiện tại mà trong đó thông tin được định nghĩa rõ ràng sao cho con người và máy tính có thể cùng làm việc với nhau một cách hiệu quả hơn. Mục tiêu của Web có ngữ nghĩa là để phát triển các chuẩn chung và công nghệ cho phép máy tính có thể hiểu được nhiều hơn thông tin trên Web, sao cho chúng có thể hỗ trợ tốt hơn việc khám phá thông tin, tích hợp dữ liệu, và tự động hóa các công việc.
Hiện tại, các hoạt động nghiên cứu về Web có ngữ nghĩa đang tập trung vào ba hướng chính sau đây:
- Chuẩn hoá các ngôn ngữ biểu diễn dữ liệu (XML) và siêu dữ liệu (RDF) trên Web.
- Chuẩn hoá các ngôn ngữ biểu diễn Ontology cho Web có ngữ nghĩa.
- Phát triển nâng cao Web có ngữ nghĩa (Semantic Web Advanced Development - SWAD).
Trong ba hướng nghiên cứu nói trên, chúng tôi nghĩ rằng hướng thứ ba là hướng thích hợp với hoàn cảnh và điều kiện của Việt Nam, vì theo hai hướng đầu chúng ta khó có thể cạnh tranh được với các nhóm nghiên cứu lớn và uy tín cao trên thế giới trong việc đề nghị các ngôn ngữ chuẩn. Hơn nữa, theo hướng thứ ba chúng ta có thể phát triển sớm được các ứng dụng thực tiễn của Web có ngữ nghĩa ở Việt Nam.
Trong hướng thứ ba về SWAD, một vấn đề được các nhà khoa học quan tâm nhất và cũng là nền tảng nhất của Web có ngữ nghĩa là làm thế nào để nhúng ngữ nghĩa vào các tài liệu Web, mà hiện nay được viết bằng ngôn ngữ tự nhiên và chỉ có con người mới đọc hiểu được. Hơn nữa việc nhúng ngữ nghĩa này phải được thực hiện một cách tự động để có thể chuyển đổi hàng tỷ các tài liệu Web đã có sẵn sang các tài liệu tương ứng cho Web có ngữ nghĩa. Muốn vậy, vấn đề đầu tiên cần giải quyết là rút trích tự động ngữ nghĩa của mỗi tài liệu Web rồi chú thích lại ngữ nghĩa này vào tài liệu đó.
Trong một tài liệu, các thực thể có tên được đề cập đến tạo nên phần quan trọng cho ngữ nghĩa của tài liệu đó. Nói cách khác, để nắm được ngữ nghĩa của một tài liệu thì trước hết cần nắm được ngữ nghĩa của các thực thể có tên trong tài liệu đó. Thực thể có tên là con người, tổ chức, nơi chốn, và những đối tượng khác được tham khảo bằng tên. Các thực thể có tên khác về bản chất và ngữ nghĩa với các từ (Word) ở chỗ chúng nói về các cá thể, trong khi các từ nói về những cái chung như khái niệm, phân loại, quan hệ, thuộc tính. Việc xử lý các từ do vậy chỉ đòi hỏi ngữ nghĩa từ vựng và lý lẽ thông thường, trong khi việc xử lý các thực thể có tên cần đến tri thức cụ thể về thế giới đang xem xét.
Ngữ nghĩa của các thực thể có tên tuy chỉ là một phần ngữ nghĩa của toàn bộ tài liệu, nhưng nếu có thể rút trích và chú thích chúng một cách tự động với độ chính xác tương đối cao thì cũng đã có ý nghĩa thực tiễn rất lớn. Một ứng dụng rất rõ ràng là xác định và cung cấp tự động thông tin về các thực thể có tên trong các trang Web tin tức cho người đọc. Các tài liệu Web có chú thích ngữ nghĩa cho các thực thể có tên cũng sẽ giúp cho việc tìm kiếm và khai thác thông tin trên đó được chính xác và hiệu quả hơn. Ví dụ một truy vấn về thành phố Sài Gòn sẽ được trả về các tài liệu đề cập đến TP.HCM hoặc Sài Gòn như một thành phố, chứ không phải các tài liệu chứa từ “Sài Gòn” như trong “Đội bóng Cảng Sài Gòn”, “Xí nghiệp may Sài Gòn”, hay “Cty Saigon Tourist”.
Việc xác định ngữ nghĩa cho các thực thể có tên là không đơn giản và không thể chỉ dựa vào từ điển, vì một thực thể có thể có nhiều tên khác nhau, và các thực thể khác nhau có thể có cùng tên. Ví dụ để xác định xem thực thể mà tên “Trần Hưng Đạo” trong một tài liệu ám chỉ đến là một con người hay là một con đường, và nếu là con đường thì là ở Hà Nội hay TP.HCM, cần phải biết được ngữ cảnh nơi tên đó xuất hiện. Vì vậy một hệ thống chú thích ngữ nghĩa cho các thực thể có tên cần có trước hết một cơ sở tri thức về các thực thể và quan hệ giữa chúng.
VN-KIM (Viet Nam Knowledge and Information Management)
Một số hệ thống chú thích ngữ nghĩa cho các thực thể có tên đã và đang được phát triển, trong đó KIM (Knowledge & Information Management) của Ontotext Lab, Bulgaria, tỏ ra là một hệ thống được phát triển một cách bài bản và đạt được những kết quả đáng chú ý nhất. Miền dữ liệu mà KIM nhắm vào là các thực thể được đề cập đến trong các tin tức quốc tế hàng ngày. Ontology của KIM hiện có khoảng 250 lớp và 100 thuộc tính. Cơ sở tri thức của KIM hiện có khoảng 80,000 thực thể về các nhân vật, thành phố, công ty, và tổ chức quan trọng và phổ biến trên thế giới.
Mục tiêu của đề tài KC01.21 là phát triển một hệ thống quản lý tri thức và thông tin cho các thực thể có tên ở Việt Nam, được đặt tên là VN-KIM. Chức năng chính của VN-KIM là rút trích và chú thích tự động lớp và danh hiệu của các thực thể có tên xuất hiện trong các trang báo điện tử tiếng Việt. VN-KIM bao gồm các khối chính sau:
- Cơ sở tri thức về các nhân vật, tổ chức, núi non, sông ngòi, và địa điểm phổ biến ở Việt Nam.
- Khối rút trích thông tin tự động từ các trang báo điện tử tiếng Việt.
- Khối truy hồi thông tin và các trang Web về các thực thể có tên ở Việt Nam.
Các khối này được xây dựng dựa trên sự kế thừa và mở rộng của các mã nguồn mở. Cơ sở tri thức được xây dựng trên nền của Sesame, mã nguồn mở quản lý tri thức theo RDF. Các tài liệu Web có chú thích ngữ nghĩa được đánh chỉ mục và quản lý bằng mã nguồn mở Lucene. GATE, mã nguồn mở xử lý ngôn ngữ tự nhiên, được mở rộng với các thành phần xử lý tiếng Việt để rút trích thông tin từ các trang Web tiếng Việt.
Đề tài cũng nghiên cứu độ đo và giải thuật so trùng gần đúng các đồ thị tri thức. Bên cạnh cách truy vấn bằng ngôn ngữ SeRQL của Sesame hoặc các mẫu định sẵn, đồ thị khái niệm được sử dụng như một ngôn ngữ vừa có khả năng diễn đạt cao vừa thân thiện với người dùng. VN-KIM được hiện thực trên một hệ thống máy tính xử lý song song, cho phép phân tải và mở rộng khi có thêm tài nguyên tính toán.
Như vậy, so với một hệ thống như KIM với các chức năng tương tự, VN-KIM có những điểm mới sau:
- Ontology và cơ sở tri thức là về các thực thể có tên ở Việt Nam, với những điểm riêng về kinh tế và xã hội.
- Ứng dụng rút trích và chú thích ngữ nghĩa cho các thực thể có tên xử lý tiếng Việt, với những đặc thù về ngôn ngữ.
- Ứng dụng truy hồi thông tin cho phép trả lời gần đúng và truy vấn bằng đồ thị khái niệm.