Tổng quan về VN-KIM IE
Chức năng của VN-KIM IE là nhận biết và chú thích lớp tự động cho các thực thể có tên trên các trang Web tiếng Việt. Quá trình rút trích thông tin của VN-KIM IE bao gồm các bước chính sau:
- Chuyển các trang Web về một dạng và với một mã tiếng Việt chung
- Rút trích các khối văn bản mang tin tức chính trên các trang báo
- Nhận ra các từ và từ loại tương ứng của chúng trong văn bản
- Nhận dạng các thực thể có tên xuất hiện trong văn bản
- Giải quyết sự nhập nhằng và đồng tham chiếu của các tên thực thể
Chuyển mã
Hiện tại có nhiều bảng mã tiếng Việt khác nhau và chưa có một qui định thống nhất cho việc sử dụng chúng. Ngay cả trong một trang Web, các đoạn văn bản khác nhau nhiều khi được soạn với những bảng mã khác nhau. Vì vậy, trước khi có thể xử lý thông tin trong một trang Web, cần phải xác định tự động các bảng mã mà nó sử dụng, và chuyển trang Web về một mã tiếng Việt chung. VN-KIM IE hiện có thể nhận dạng các bảng mã tiếng Việt thông dụng nhất là UTF-8, VNI và TCVN.
Rút trích khối tin tức
Trong một trang báo điện tử, ngoài các khối văn bản mang tin tức chính, còn có các khối khác như thực đơn, hình ảnh quảng cáo, …. Một phương pháp đã được nghiên cứu và hiện thực trong VN-KIM IE để xác định và rút trích tự động các khối tin tức này. Đây là các đoạn văn bản sẽ được chú giải ngữ nghĩa cho các thực thể có tên xuất hiện trong đó.
Gán nhãn từ loại
Việc nhận dạng một thực thể có tên cần có thông tin về từ loại của các từ xuất hiện trong ngữ cảnh của thực thể đó. Trong mỗi mẫu nhận dạng các thực thể thuộc về một lớp có qui định từ loại cho các từ xuất hiện xung quanh tên của các thực thể đó. Vì vậy, văn bản sẽ đi qua module phân đoạn từ và gán nhãn từ loại tiếng Việt trước khi được rút trích thông tin và chú thích ngữ nghĩa.
Nhận dạng thực thể có tên và chú thích ngữ nghĩa
Ở giai đoạn ban đầu, hệ thống nhận ra sơ bộ các thực thể nhờ vào tên riêng của chúng xuất hiện trong cơ sở tri thức của VN-KIM đã xây dựng. Tuy nhiên, việc nhận ra thực thể đơn thuần dựa vào tên riêng có thể sai, vì các thực thể khác nhau có thể có cùng tên. Ví dụ, Sài Gòn vừa là tên của một thành phố, vừa là tên của một con sông. Sử dụng trên GATE và văn phạm JAPE của nó, một tập các luật nhận dạng theo mẫu đã được xây dựng để xác định chính xác hơn lớp của các thực thể. Các luật này dựa trên cơ sở tri thức cụ thể của VN-KIM và thông tin từ loại do module gán nhãn từ loại tiếng Việt cung cấp. Quá trình nhận dạng diễn ra theo nhiều pha và luồng khác nhau để loại bỏ các trường hợp nhập nhằng và nhận dạng sai đến mức tối đa có thể. Sau khi được nhận dạng, lớp của mỗi thực thể và địa chỉ của nó trong cơ sở tri thức, nếu có, sẽ được chú thích bên cạnh sự xuất hiện của thực thể trong văn bản.
Giải quyết sự nhập nhằng và đồng tham chiếu
Sự nhập nhằng xảy ra khi một tên có thể chỉ đến hai thực thể khác nhau. Ví dụ, tên đường Trần Hưng Đạo có thể chỉ đến con đường cùng tên ở TP. Hồ Chí Minh hoặc con đường ở thủ đô Hà Nội. Mặt khác, hai tên khác nhau có thể chỉ đến cùng một thực thể, gọi là sự đồng tham chiếu. Ví dụ, TP. Hồ Chí Minh và TP. Sài Gòn là hai tên gọi khác nhau của một thành phố. Một số giải thuật đã được nghiên cứu và hiện thực trong VN-KIM IE để giải quyết hai vấn đề này, nhưng tốc độ xử lý còn cần phải được cải thiện.
Đánh giá hiệu quả của VN-KIM IE
Hiệu quả nhận dạng thực thể của VN-KIM IE đã được đánh giá bằng CBT (Corpus Benchmark Tool) của GATE, dựa trên một corpus với các thực thể có tên được chú thích mẫu bằng tay. Corpus dùng để đánh giá chứa một số các tài liệu vừa đủ lớn, bao gồm tin tức được lấy từ các báo điện tử phổ biến (Tuổi trẻ, Người lao động, Vnexpress, ...). Kết quả thử nghiệm cho thấy F-measure đạt được trên 80%, như mục tiêu đã đặt ra cho đề tài.