Thứ năm, 04/01/2024 15:46

Phát triển thành công phần mềm dịch ngôn ngữ hiếm

Các nhà khoa học thuộc Viện Công nghệ thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã ứng dụng thành công kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến để xây dựng các mô hình dịch máy tự động có chất lượng cao cho các cặp ngôn ngữ hiếm. Hệ thống này lấy tiếng Việt làm trung tâm, có khả năng dịch thuật hai chiều giữa tiếng Việt và các ngôn ngữ nghèo tài nguyên của khu vực Đông Nam Á với chất lượng tương đương với các sản phẩm thương mại nổi tiếng trên thế giới. Tính đến thời điểm hiện tại, hệ thống đã có khả năng dịch hai chiều giữa các cặp ngôn ngữ bao gồm Việt - Lào, Việt - Khmer, Việt - Thái Lan, Việt - Malaysia và Việt - Indonesia.

Dịch máy hay còn gọi là dịch tự động là việc dịch một văn bản từ một ngôn ngữ này (ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch. Hiện nay có nhiều sản phẩm dịch tự động được sử dụng phổ biến như: Google Translate của Google, Bing Translator của Microsoft,… với chất lượng dịch rất tốt cho các câu đơn. Các hệ thống dịch máy chất lượng cao nói trên cần các bộ dữ liệu song ngữ quy mô lớn, lên tới hàng triệu cặp câu để huấn luyện mô hình. Tuy nhiên, rất nhiều ngôn ngữ trên thế giới không có đủ tài nguyên như vậy. Việc xây dựng mô hình dịch máy hiệu quả cho những ngôn ngữ nghèo tài nguyên, trong đó có các ngôn ngữ của khu vực Đông Nam Á là công việc hết sức cấp thiết và gặp nhiều thách thức.

Với mục tiêu khắc phục những tồn tại trên, các nhà khoa học thuộc Viện Công nghệ thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã xây dựng được hệ thống dịch văn bản đa ngữ giữa tiếng Việt với các ngôn ngữ của khu vực bao gồm: tiếng Lào, tiếng Khmer, tiếng Thái Lan, tiếng Malaysia và tiếng Indonesia. Đặc biệt, lấy tiếng Việt làm trung tâm, có khả năng dịch thuật hai chiều giữa tiếng Việt và các ngôn ngữ tài nguyên của khu vực Đông Nam Á với chất lượng tương đương với các sản phẩm thương mại nổi tiếng hiện nay trên thế giới.

Các tính năng chính của hệ thống dịch đa ngữ của hệ thống bao gồm:

Sử dụng phần mềm on-premise: Phần mềm được cài đặt và chạy trên hệ thống máy chủ của đơn vị, cho phép đơn vị toàn quyền kiểm soát dữ liệu và ứng dụng.

Hệ thống sử dụng công nghệ hiện đại 4.0 gồm học máy (Machine learning), công nghệ xử lý ngôn ngữ tự nhiên (Natural Language Processing) hiện đại nhất tính đến thời điểm này để đạt được độ chính xác dịch thuật ở mức cao.

Hệ thống có khả năng cập nhật dữ liệu, tái huấn luyện mô hình nhằm nâng cao chất lượng dịch thuật, thích ứng với lĩnh vực chuyên môn của đơn vị.

Hệ thống đảm bảo tuyệt đối an toàn thông tin trong quá trình sử dụng.

Hệ thống có thể triển khai cả trong mạng nội bộ và trên mạng Internet.

Hệ thống được khai thác thông qua 02 hình thức, bao gồm hình thức giao diện web để người dùng trực tiếp dịch thuật và hình thức giao tiếp API cho phép các hệ thống khác kết nối thao tác.

Hệ thống cho phép tự động dịch thuật với nhiều định dạng khác nhau, bao gồm dạng text (.txt), dạng file văn bản được số hóa (.rtf, .doc, .docx, .pdf, .html…): Giữ nguyên khuôn dạng (format) chính của các văn bản sau dịch.

Hệ thống dịch máy nói là một lựa chọn thay thế rất tốt cho các phần mềm dịch thuật thương mại hiện có trên thế giới. Với những ưu điểm: có một hệ thống dịch thuật chạy riêng, không phụ thuộc bên thứ ba, đảm bảo an ninh, an toàn, bảo mật dữ liệu; mở rộng sang một ngôn ngữ mới, nghèo tài nguyên mà chưa được phần mềm thương mại hỗ trợ hoặc có chất lượng dịch chưa đảm bảo; chủ động và linh hoạt trong việc kết nối và tích hợp hệ thống dịch thuật của mình với các hệ thống ứng dụng khác thông qua việc làm chủ hoàn toàn các API dịch thuật.

Chi tiết xin liên hệ: Minh Tâm - Viện Công nghệ thông tin  - địa chỉ: 18 Hoàng Quốc Việt, phường Nghĩa Đô, quận Cầu Giấy, Hà Nội; Email: vanthu@ioit.ac.vn.

 

 

Đánh giá

X
(Di chuột vào ngôi sao để chọn điểm)