Trang chủ Tin tức Việt Nam Thành công ứng dụng Phần mềm dịch ngôn ngữ 'made in Viet...

Thành công ứng dụng Phần mềm dịch ngôn ngữ ‘made in Viet Nam’ vào thực tiễn

Viện Công nghệ Thông tin (Viện Hàn lâm Khoa học và Công nghệ Việt Nam) đã thành công trong việc ứng dụng Phần mềm dịch ngôn ngữ 'Made in Viet Nam' có chất lượng cao, bước đầu dịch văn bản đa ngữ giữa tiếng Việt với các ngôn ngữ: Khmer, Lào, Thái Lan, Malaysia, Indonesia.

Dịch máy hay còn gọi là dịch tự động là việc dịch một văn bản từ một ngôn ngữ này (ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch. Đây là một trong những ứng dụng thành công nhất của lĩnh vực xử lý ngôn ngữ tự nhiên.
Hiện nay có nhiều sản phẩm dịch tự động được sử dụng phổ biến như: Google Translate của Google, Bing Translator của Microsoft,… với chất lượng dịch rất tốt cho các câu đơn. Các hệ thống dịch máy chất lượng cao nói trên cần các bộ dữ liệu song ngữ quy mô lớn, lên tới hàng triệu cặp câu để huấn luyện mô hình. Tuy nhiên, rất nhiều ngôn ngữ trên thế giới không có đủ tài nguyên như vậy. Việc xây dựng mô hình dịch máy hiệu quả cho những ngôn ngữ nghèo tài nguyên, trong đó có các ngôn ngữ của khu vực Đông Nam Á là công việc hết sức cấp thiết và gặp nhiều thách thức.

Nhóm nghiên cứu Phần mềm dịch ngôn ngữ của Viện Công nghệ thông tin. Ảnh: NVCC

Nhóm nghiên cứu Phần mềm dịch ngôn ngữ của Viện Công nghệ thông tin. Ảnh: NVCC

Phần mềm dịch ngôn ngữ lấy tiếng Việt làm trung tâm

Xuất phát từ việc muốn cho ra đời một sản phẩm “made in Viet Nam”, có thể được sử dụng thông dụng với nhiều tiện ích, thậm chí có thể thay thế các sản phẩm dịch tự động nước ngoài, nhóm nghiên cứu thuộc Viện Công nghệ thông tin (Viện Hàn lâm Khoa học và Công nghệ Việt Nam) gồm nhiều chuyên gia như: PGS.TS Nguyễn Việt Anh, ThS Đào Quang Toàn, ThS Bùi Minh Thành, ThS Vũ Thị Nhạn, ThS Vũ Thị Lan Anh… đã chung tay nghiên cứu thành công sau gần 1 năm và cho ra đời Phần mềm dịch ngôn ngữ lấy tiếng Việt làm trung tâm, có khả năng dịch thuật hai chiều giữa tiếng Việt và các ngôn ngữ nghèo tài nguyên của khu vực Đông Nam Á với chất lượng tương đương với các sản phẩm dịch thuật thương mại nổi tiếng trên thế giới.

Thực tế hiện nay có nhiều sản phẩm dịch tự động được sử dụng phổ biến với chất lượng dịch rất tốt cho các câu đơn, tuy nhiên, việc dịch một đoạn văn bản dài hơn, có tham chiếu thực thể, ngữ cảnh giữa các câu làm ảnh hưởng tới chất lượng dịch, khiến nhiều câu dịch trở nên hài hước và có phần ngô nghê. Ngoài ra, các sản phẩm dịch thuật thương mại yêu cầu khách hàng trả tiền theo thời gian sử dụng hoặc số lượng câu dịch. Bên cạnh đó, các hệ thống này không có chất lượng dịch tốt đồng đều cho tất cả các cặp ngôn ngữ đặc biệt là các ngôn ngữ nghèo tài nguyên như tiếng dân tộc thiểu số của Việt Nam hoặc các ngôn ngữ hiếm như tiếng Lào, Khmer…

Một vấn đề nữa của các hệ thống dịch tự động được sử dụng phổ biến hiện nay là khả năng thích ứng miền chuyên biệt (domain-specific), nghĩa là, chúng có thể dịch tốt cho miền ngôn ngữ chung, phổ thông phục vụ đại chúng (general public) nhưng chất lượng dịch rất kém trong các miền ngôn ngữ mang tính chuyên môn như y tế, luật pháp, an ninh…

Bước đầu Phần mềm dịch ngôn ngữ của Viện Công nghệ thông tin đã ứng dụng thành công trong dịch các ngôn ngữ của một số nước trong khu vực Đông Nam Á.

Để khắc phục các tồn tại nói trên, nhóm nghiên cứu của Viện Công nghệ thông tin đã phát triển hệ thống dịch thuật lấy tiếng Việt làm trung tâm – một Phần mềm dịch ngôn ngữ có khả năng dịch hai chiều sang các ngôn ngữ nghèo tài nguyên với chất lượng tốt. Qua quá trình nghiên cứu đưa vào thực tiễn, Phần mềm dịch ngôn ngữ “made in Viet Nam” này có chất lượng luôn tương đương hoặc cao hơn một số hệ thống dịch tự động được sử dụng phổ biến hiện nay đối với cùng văn bản. Ngoài ra, phần mềm không hạn chế độ dài của văn bản.

Trao đổi với phóng viên Công dân và Khuyến học, PGS.TS Nguyễn Việt Anh – thành viên nhóm nghiên cứu Phần mềm dịch ngôn ngữ của Viện Công nghệ thông tin cho biết, trong giai đoạn 2022-2023, để tập trung vào một số dự án với đối tác nước ngoài, hệ thống Phần mềm dịch ngôn ngữ của Viện Công nghệ thông tin tập trung vào triển khai kỹ thuật mô hình ngôn ngữ lớn (Large Language Models – LLMs) vào việc ưu tiên các cặp ngôn ngữ: Việt – Khmer và Khmer – Việt; Việt – Lào và Lào – Việt; Việt – Thái Lan và Thái Lan – Việt; Việt – Indonesia và Indonesia – Việt: Việt – Malaysia và Malaysia – Việt.

Cũng theo PGS.TS Nguyễn Việt Anh, ngay cả với ngôn ngữ tiếng Anh, hệ thống Phần mềm dịch ngôn ngữ này đảm bảo chất lượng gần tương đương với hệ thống dịch tự động khác đang được sử dụng phổ biến hiện nay.

Ảnh minh họa.

Nhóm nghiên cứu cũng cho biết, hệ thống Phần mềm dịch ngôn ngữ được nghiên cứu phát triển dựa trên các tiến bộ mới nhất hiện nay trên thế giới trong lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và dịch máy nói riêng. Các ngôn ngữ như tiếng Lào, tiếng Thái và tiếng Khmer mang lại những thách thức rất lớn khi xây dựng mô hình dịch máy, không chỉ vì sự khan hiếm của dữ liệu song ngữ mà còn vì những ngôn ngữ này rất phong phú về mặt hình thái, thiếu sự phân tách từ, phân tách câu và tính đa nghĩa.

Dẫn chứng trong quá trình nghiên cứu Phần mềm dịch ngôn ngữ, nhóm các tác giả đã gặp vô vàn khó khăn, đơn cử như dịch tiếng Thái sang tiếng Việt thì dễ hiểu nhưng tiếng Việt sang tiếng Thái thì vấp phải không ít khó khăn. Các chuyên gia lại phải dùng biện pháp “check chéo” để tìm đáp án chuẩn nhất. Hay ví dụ khi dịch tên riêng của người thì thuật toán dùng theo dạng thống kê và tìm ra tên một người Việt gần nhất để gắn vào, kết quả nhiều khi rất ngô nghê, lỗi, sai, khiến nhóm tác giả vốn toàn chuyên gia công nghệ mất nhiều tâm sức để xử lý.

Qua đó, mô hình Phần mềm dịch ngôn ngữ của Viện Công nghệ thông tin đã “học” được cách “thích ứng” với tất cả những đặc điểm đặc biệt này của các ngôn ngữ nói trên, cho phép nhanh chóng bổ sung các ngôn ngữ khác khi cần với chất lượng dịch tương đương các sản phẩm tiên tiến của nước ngoài hiện nay.

Nhóm nghiên cứu tự hào với điểm đặc biệt là phần mềm dịch đa ngữ này chạy riêng (on premise): lưu trữ dữ liệu tại chỗ, không phải sử dụng API của hãng cung cấp dịch vụ, đảm bảo an ninh, an toàn và không lộ lọt thông tin cho bên thứ ba.

Các mô hình dịch máy được huấn luyện trên hệ thống máy chủ Nvidia DGX A100 tại Viện Công nghệ thông tin có cấu hình tiên tiến bậc nhất ở nước ta hiện nay.

Thủ tướng Phạm Minh Chính chụp ảnh cùng ông Jensen Huang, Chủ tịch Nvidia trong chuyến thăm, làm việc với tập đoàn công nghệ Mỹ Nvidia tại thung lũng Silicon vào trung tuần tháng 9/2023. Ảnh: VGP

Được biết, đây cũng là hệ thống máy chủ vẫn còn đang thuộc hàng “hiếm” tại Việt Nam, hiện chỉ có một vài đơn vị, doanh nghiệp trên cả nước sở hữu để từ đó triển khai ứng dụng AI vào phục vụ cuộc sống. Trong đó, Viện Hàn lâm Khoa học và Công nghệ Việt Nam (VAST) đang nghiên cứu phát triển hệ thống siêu tính toán với chip A100 của Nvidia để ứng dụng rộng rãi trong các lĩnh vực khoa học và công nghệ, y tế, giáo dục.

Phần mềm dễ dàng mở rộng ứng dụng sang các ngôn ngữ đích mới bao gồm các ngôn ngữ dân tộc thiểu số tại Việt Nam

PGS.TS Nguyễn Việt Anh cho biết, kiến trúc tổng thể hệ thống dịch máy dựa trên công nghệ Transformer hiện đại. Nhóm nghiên cứu đã áp dụng rất nhiều kỹ thuật khác nhau để làm giàu bộ dữ liệu bao gồm kỹ thuật dịch ngược (back-translation), kỹ thuật xoay trục (pivoting) xung quanh một ngôn ngữ phổ biến, kỹ thuật học chuyển giao…

Một kỹ thuật rất tiên tiến khác nữa cũng được áp dụng để cải thiện chất lượng dịch. Cụ thể, mô hình được huấn luyện đồng thời cho nhiều cặp ngôn ngữ. Các ngôn ngữ giàu tài nguyên được huấn luyện trước, sau đó “tri thức” ngôn ngữ sẽ được chuyển giao cho các ngôn ngữ nghèo tài nguyên, giúp cải tiến hiệu suất của mô hình dịch cho các ngôn ngữ này.

Do hệ thống được nhóm nghiên cứu tự phát triển, dựa trên hạ tầng kỹ thuật hỗ trợ lưu trữ dữ liệu ngôn ngữ lớn và năng lực siêu tính toán trí tuệ nhân tạo/học máy (AI/ML) mạnh nhất Việt Nam trên dòng chip tiên tiến trên thế giới Nvidia GPU A100 80GB, Viện Công nghệ thông tin hoàn toàn làm chủ các công nghệ liên quan và dễ dàng mở rộng ứng dụng sang các ngôn ngữ đích mới bao gồm các ngôn ngữ dân tộc thiểu số tại Việt Nam (thường là rất nghèo tài nguyên dữ liệu) như tiếng Mường, tiếng Thái… Cùng với đó là các ngôn ngữ nước ngoài phổ biến như tiếng Trung, tiếng Pháp, tiếng Nga… khi cần.

Đặc biệt, hệ thống dịch ngôn ngữ này có khả năng tinh chỉnh để thích ứng với các miền ngôn ngữ chuyên sâu như y tế, luật… theo yêu cầu riêng của đối tác.

PGS.TS Nguyễn Việt Anh cũng cho biết, Phần mềm dịch ngôn ngữ “made in Viet Nam” này chỉ là một trong những sản phẩm của Viện Hàn lâm Khoa học và Công nghệ Việt Nam trong việc nghiên cứu, ứng dụng mô hình ngôn ngữ lớn vào đời sống xã hội. Hiện Viện cũng đang thực hiện những dự án như: Trợ lý ảo dựa trên mô hình ngôn ngữ lớn phục vụ dịch vụ hành chính công; Hỗ trợ phát hiện gian lận thuế; Phân tích, dự báo xu thế phát triển khoa học công nghệ…

Các chuyên gia Viện Công nghệ thông tin (Viện Hàn lâm Khoa học và Công nghệ Việt Nam) cũng bày tỏ mong muốn thời gian tới có thêm nhiều sự hỗ trợ, hợp tác của các đơn vị, đối tác để không chỉ đưa ứng dụng Phần mềm dịch ngôn ngữ này mà nhiều sản phẩm công nghệ khác cũng sẽ được nghiên cứu, ứng dụng vào thực tiễn, lan tỏa rộng hơn, phục vụ sự phát triển chung của xã hội, của đất nước trong thời đại 4.0.

Phần mềm dịch ngôn ngữ được xây dựng dựa trên mô hình Pre-trained thường có kích thước rất lớn, do đó yêu cầu nhiều về tài nguyên tính toán như bộ nhớ RAM, các bộ vi xử lý CPU và chip GPU phục vụ tính toán AI/ML khi triển khai thực tế. Ví dụ: ChatGPT sử dụng GPT-3.5 hiện nay của OpenAI có khoảng 175 tỷ tham số. Hệ thống dịch ngôn ngữ của Viện Công nghệ thông tin có khoảng 40 tỷ tham số.

Các tính năng chính của hệ thống dịch đa ngữ này được thể hiện như: Phần mềm on-premise (Phần mềm được cài đặt và chạy trên hệ thống máy chủ của đơn vị, cho phép đơn vị toàn quyền kiểm soát dữ liệu và ứng dụng); Hệ thống sử dụng công nghệ hiện đại (Sử dụng công nghệ 4.0 gồm học máy (Machine learning), công nghệ xử lý ngôn ngữ tự nhiên (Natural Language Processing) hiện đại nhất tính đến thời điểm này để đạt được độ chính xác dịch thuật ở mức cao);

Cùng với đó là các tính năng: Hệ thống có khả năng cập nhật dữ liệu, tái huấn luyện mô hình nhằm nâng cao chất lượng dịch thuật, thích ứng với lĩnh vực chuyên môn của đơn vị; Hệ thống đảm bảo tuyệt đối an toàn thông tin trong quá trình sử dụng; Hệ thống có thể triển khai cả trong mạng nội bộ và trên mạng Internet;

Hệ thống được khai thác thông qua 02 hình thức, bao gồm hình thức giao diện web để người dùng trực tiếp dịch thuật và hình thức giao tiếp API cho phép các hệ thống khác kết nối thao tác; Hệ thống cho phép tự động dịch thuật với nhiều định dạng khác nhau, bao gồm dạng text (.txt), dạng file văn bản được số hóa (.rtf, .doc, .docx, .pdf, .html…), mà vẫn giữ nguyên khuôn dạng (format) chính của các văn bản sau dịch

Theo Công Dân Khuyến Học

https://congdankhuyenhoc.vn/thanh-cong-trong-ung-dung-phan-mem-dich-ngon-ngu-made-in-viet-nam-vao-thuc-tien-179231124010344226.htm

CÁC TIN KHÁC

TOP 100 Hồng bảo Kỷ lục Thế giới tại Việt Nam (P.58) Đền Kiếp Bạc (Hải Dương): Khúc tráng ca về Hưng Đạo đại...

(kyluc.vn) Ở Kiếp Bạc những ngày không mùa lễ hội, ta có dịp lắng lòng nghe tiếng sóng sông Lục Đầu hay gió từ thung lũng dội về như âm vang, khí thế của ba quân. Mỗi dấu tích, cảnh vật nơi đây đều là minh chứng của thời kỳ chống giặc Nguyên - Mông.

Thú vị với lớp học lập trình dành cho trẻ

Dạy lập trình máy tính cho trẻ em đang được coi là xu hướng giáo dục mới trên thế giới và Việt Nam. Không phải là những giờ học khô khan theo kiểu đọc, chép một chiều, các em nhỏ tại lớp học lập trình có thể rèn luyện tư duy logic, tư duy giải quyết vấn đề và thỏa sức sáng tạo.

[WOWTIMES – VIETKINGS] Đại học Quốc gia Hà Nội (1906-2024) – 30 năm tiên phong đổi mới – Top 100 đơn vị trên 100...

(nienlich.vn) Sau gần 118 năm hình thành và phát triển, Đại học Quốc gia Hà Nội đã trở thành trung tâm đào tạo chất lượng cao, hướng tới làm nòng cốt và đầu tàu cho hệ thống giáo dục nước nhà.

TOP 100 Hồng bảo Kỷ lục Thế giới tại Việt Nam (P.57) Tháp cổ Chiềng Sơ (Điện Biên): Dấu ấn kiến trúc và nghệ...

(kyluc.vn) Di tích tháp Chiềng Sơ thuộc bản Nà Muông, xã Chiềng Sơ, huyện Điện Biên Đông, tỉnh Điện Biên Đó là di tích kiến trúc thẩm mỹ và nghệ thuật khá độc đáo và khác biệt thể hiện quan hệ đoàn kết, hữu nghị của nhân dân hai nước Việt – Lào.

Nhà hát lớn Hà Nội – TOP 5 sân khấu – nhà hát kịch lâu đời của Việt Nam thu hút nhiều khách tham...

(kyluc.vn) Với chiều dài lịch sử 113 năm, Nhà hát Lớn Hà Nội hiện hữu như một biểu tượng trường tồn về văn hóa, kiến trúc nghệ thuật, lịch sử, hội nhập và giao thoa văn hóa Đông - Tây, đóng góp to lớn vào lĩnh vực văn hóa và mở rộng giao lưu văn hóa, góp phần quảng bá đất nước và con người Việt Nam đến với bạn bè quốc tế và kiều bào ta ở nước ngoài.

Tiến sĩ, Nghệ sĩ, Kỷ lục gia Chu Bảo Quế đón nhận bằng Giáo sư Danh dự từ Viện Đại học Kỷ lục Thế...

(kyluc.vn) Vào ngày 30/4/2024 tại Việt Nam, Viện Đại học Kỷ lục Thế giới (WRU) đã chính thức trao bằng Giáo sư Danh dự đến Tiến sĩ - Nghệ sĩ - Kỷ lục gia Chu Bảo Quế với những đóng góp của ông trong sự nghiệp văn hóa, giáo dục của quê hương và nỗ lực quảng bá các giá trị văn hóa của Việt Nam ra toàn Thế giới. Là một người có tình yêu sâu sắc với nhiều loại hình nghệ thuật dân tộc, Tiến sĩ - Nghệ sĩ - Kỷ lục gia Chu Bảo Quế đã cống hiến phần lớn thời gian, tâm huyết, trí tuệ của mình cho sự nghiệp bảo tồn và phát huy những giá trị văn hóa vật thể và phi vật thể của Việt Nam. Đặc biệt trong việc giữ gìn, bảo tồn và phát huy giá trị của những làn điệu Dân ca Quan họ cổ và những làn điệu Chèo cổ của Việt Nam.

Bài viết nổi bật

Đại học Sư phạm TP.HCM ‘bắt tay’ doanh nghiệp công nghệ Việt thúc đẩy chuyển đổi số

Theo hợp tác mới ký kết với Viettel Solutions, Đại học Sư phạm TP.HCM sẽ cùng doanh nghiệp này xây dựng các giải pháp công nghệ trong giáo dục tập trung vào 4 nội dung chính.

Nhóm sinh viên trường ĐH Ngoại thương giành giải ‘Olympic Kinh tế lượng và ứng dụng’

Ngày 12/6, tại Học viện Tài chính diễn ra Chung khảo Hội thi khoa học sinh viên toàn quốc 'Olympic Kinh tế lượng và ứng dụng' lần thứ VII, năm 2022. Ban Giám khảo đã chọn ra nhóm sinh viên ĐH Ngoại thương TP. Hồ Chí Minh giành giải Đặc biệt.

Bài viết mới nhất

TOP 100 Hồng bảo Kỷ lục Thế giới tại Việt Nam (P.58) Đền Kiếp Bạc (Hải Dương): Khúc tráng ca về Hưng Đạo đại vương – [VIETKINGS-TOPPLUS đề cử]

(kyluc.vn) Ở Kiếp Bạc những ngày không mùa lễ hội, ta có dịp lắng lòng nghe tiếng sóng sông Lục Đầu hay gió từ thung lũng dội về như âm vang, khí thế của ba quân. Mỗi dấu tích, cảnh vật nơi đây đều là minh chứng của thời kỳ chống giặc Nguyên - Mông.

Thú vị với lớp học lập trình dành cho trẻ

Dạy lập trình máy tính cho trẻ em đang được coi là xu hướng giáo dục mới trên thế giới và Việt Nam. Không phải là những giờ học khô khan theo kiểu đọc, chép một chiều, các em nhỏ tại lớp học lập trình có thể rèn luyện tư duy logic, tư duy giải quyết vấn đề và thỏa sức sáng tạo.

[WOWTIMES – VIETKINGS] Đại học Quốc gia Hà Nội (1906-2024) – 30 năm tiên phong đổi mới – Top 100 đơn vị trên 100 tuổi còn hoạt động tại Việt Nam 2024 – P.17

(nienlich.vn) Sau gần 118 năm hình thành và phát triển, Đại học Quốc gia Hà Nội đã trở thành trung tâm đào tạo chất lượng cao, hướng tới làm nòng cốt và đầu tàu cho hệ thống giáo dục nước nhà.

TOP 100 Hồng bảo Kỷ lục Thế giới tại Việt Nam (P.57) Tháp cổ Chiềng Sơ (Điện Biên): Dấu ấn kiến trúc và nghệ thuật Việt-Lào – [VIETKINGS-TOPPLUS đề cử]

(kyluc.vn) Di tích tháp Chiềng Sơ thuộc bản Nà Muông, xã Chiềng Sơ, huyện Điện Biên Đông, tỉnh Điện Biên Đó là di tích kiến trúc thẩm mỹ và nghệ thuật khá độc đáo và khác biệt thể hiện quan hệ đoàn kết, hữu nghị của nhân dân hai nước Việt – Lào.

Nhà hát lớn Hà Nội – TOP 5 sân khấu – nhà hát kịch lâu đời của Việt Nam thu hút nhiều khách tham quan (P.2) – [VIETKINGS-TOPPLUS – Hành trình TOP Việt Nam]

(kyluc.vn) Với chiều dài lịch sử 113 năm, Nhà hát Lớn Hà Nội hiện hữu như một biểu tượng trường tồn về văn hóa, kiến trúc nghệ thuật, lịch sử, hội nhập và giao thoa văn hóa Đông - Tây, đóng góp to lớn vào lĩnh vực văn hóa và mở rộng giao lưu văn hóa, góp phần quảng bá đất nước và con người Việt Nam đến với bạn bè quốc tế và kiều bào ta ở nước ngoài.

Tiến sĩ, Nghệ sĩ, Kỷ lục gia Chu Bảo Quế đón nhận bằng Giáo sư Danh dự từ Viện Đại học Kỷ lục Thế giới WRU

(kyluc.vn) Vào ngày 30/4/2024 tại Việt Nam, Viện Đại học Kỷ lục Thế giới (WRU) đã chính thức trao bằng Giáo sư Danh dự đến Tiến sĩ - Nghệ sĩ - Kỷ lục gia Chu Bảo Quế với những đóng góp của ông trong sự nghiệp văn hóa, giáo dục của quê hương và nỗ lực quảng bá các giá trị văn hóa của Việt Nam ra toàn Thế giới. Là một người có tình yêu sâu sắc với nhiều loại hình nghệ thuật dân tộc, Tiến sĩ - Nghệ sĩ - Kỷ lục gia Chu Bảo Quế đã cống hiến phần lớn thời gian, tâm huyết, trí tuệ của mình cho sự nghiệp bảo tồn và phát huy những giá trị văn hóa vật thể và phi vật thể của Việt Nam. Đặc biệt trong việc giữ gìn, bảo tồn và phát huy giá trị của những làn điệu Dân ca Quan họ cổ và những làn điệu Chèo cổ của Việt Nam.