Ontology
VN-KIM Ontology bao gồm các lớp thực thể có tên phổ biến như Con_người, Tổ_chức, Tỉnh, Thành_phố..., các quan hệ giữa các lớp thực thể, và các thuộc tính của mỗi lớp thực thể. Hiện nay, VN-KIM Ontology bao gồm 347 lớp thực thể và 114 quan hệ và thuộc tính. Dưới đây là một số hình ảnh về VN-KIM Ontology:

Cơ sở tri thức
Cơ sở tri thức của VN-KIM là một tập hợp các thực thể có tên phổ biến ở Việt Nam và quốc tế. Các thực thể này chủ yếu thuộc vào các miền sau:
Con người (các nhà lãnh đạo quốc gia, các giám đốc công ty, các văn nghệ sỹ...)
Tổ chức, công ty (các tổ chức xã hội, tổ chức giáo dục, các công ty...)
Đơn vị hành chính (các tỉnh, thành phố, quận, huyện, phường, xã ở Việt Nam và các thành phố lớn trên thế giới)
Sông, núi (các sông, núi lớn ở Việt Nam và trên thế giới)
Đường (các đường ở TPHCM, Hà Nội, các tỉnh lộ, quốc lộ)
Điểm đặc biệt (các di tích lịch sử, danh lam thắng cảnh, khu vui chơi giải trí nổi tiếng...)
Bảng dưới đây thống kê số lượng thực thể thuộc lớp Đối_tượng hiện có trong cơ sở tri thức. Ngoài ra còn có trên 14,000 thực thể thuộc lớp Biến_cố và trên 27,000 thực thể thuộc lớp Trừu_tượng.
|
Đối tượng |
Việt Nam |
Quốc tế |
Tổng cộng |
|
Đơn vị hành chính |
10,636 |
23,147 |
33,783 |
|
Điểm đặc biệt |
4,514 |
|
4,514 |
|
Sông |
581 |
2,459 |
3,040 |
|
Núi |
247 |
434 |
681 |
|
Cơ sở hạ tầng |
2,304 |
|
2,304 |
|
Tổ chức và Công ty |
16,560 |
6,785 |
23,345 |
|
Con người |
15,490 |
2,610 |
18,100 |
|
Tổng cộng |
50,332 |
35,435 |
85,767 |
Cơ sở tri thức cũng chứa trên 16,000 từ hoặc cụm từ bổ nghĩa cho các tên thực thể xuất hiện trong tài liệu. Đây được xem như là các thực thể thuộc lớp Ngữ_liệu, dùng trong các mẫu nhận dạng thực thể thuộc các lớp khác trong ontology. Ví dụ, trong “thành phố Hà Nội” hay “Tổng giám đốc Trần Ngọc Cảnh”, “thành phố” và “Tổng giám đốc” là ngữ liệu. Ngữ liệu cung cấp cho thành phần rút trích thông tin một số dấu hiệu để nhận dạng thực thể. Các dấu hiệu này bao gồm các tiền tố, hậu tố và một số thành phần cấu thành nên tên các thực thể thuộc một lớp nhất định trong cơ sở tri thức. Vì vậy, các đặc điểm và cách thức viết tên thực thể của từng lớp được nghiên cứu để rút ra các cấu trúc biểu diễn tên cho lớp thực thể đó.