Trang chủ Cộng đồng sáng tạo Top Ý Tưởng Sáng Tạo Việt Nam 2023 – Nhà khoa học...

Top Ý Tưởng Sáng Tạo Việt Nam 2023 – Nhà khoa học Việt dùng AI dịch chữ Nôm sang chữ Quốc ngữ

Sử dụng kho dữ liệu hàng trăm triệu từ, nhóm nhà khoa học tại TP HCM xây dựng thành công hệ thống ứng dụng trí tuệ nhân tạo (AI) chuyển chữ Nôm sang chữ Quốc ngữ.

Nhóm nghiên cứu gồm 10 giảng viên đến từ Khoa Công nghệ Thông tin, Đại học Khoa học Tự nhiên và Bộ môn Hán – Nôm, khoa Văn học, Đại học Khoa học Xã hội và Nhân văn (Đại học Quốc gia TP HCM). Nhóm xây dựng hệ thống chuyển ngữ tự động (automatic transliteration) từ năm 2020 và hiện đã hoàn thành. Người dùng có thể tra cứu tại: tools.clc.hcmus.edu.vn.

Ý tưởng xây dựng hệ thống phiên dịch tự động được PGS.TS Đinh Điền, Giám đốc Trung tâm ngôn ngữ học tính toán, Đại học Khoa học Tự nhiên ấp ủ từ hơn 20 năm trước. Tuy nhiên, thời điểm đó chưa có nhiều nguồn dữ liệu Hán – Nôm cũng như các mô hình máy học tiên tiến. Nhiều năm sau, với sự xuất hiện các mô hình học sâu (deep learning) của trí tuệ nhân tạo, họ mới bắt đầu phát triển mô hình phiên dịch tự động này.

PGS.TS Đinh Điền, Trưởng nhóm nghiên cứu dùng mô hình máy học dịch chữ Nôm sang chữ Quốc ngữ. Ảnh: Hà An

PGS.TS Đinh Điền, Trưởng nhóm nghiên cứu dùng mô hình máy học dịch chữ Nôm sang chữ Quốc ngữ. Ảnh: Hà An

Nhóm nghiên cứu thu thập nguồn tài liệu Hán – Nôm tại các viện nghiên cứu, thư viện, website, nhà khoa học trong và ngoài nước với kho dữ liệu hàng trăm triệu từ. Dữ liệu được sử dụng mô hình lai (hybrid) bằng cách kết hợp giữa mô hình máy học dịch thống kê (SMT: Statistical Machine Translation) và mô hình máy dịch theo mạng nơron (NMT: Neural Machine Translation).

Theo PGS Điền, mô hình NMT khả năng dịch ngôn ngữ tự nhiên tốt hơn, nhưng với SMT thì khả năng chuyển tự chữ Hán – Nôm sang chữ Quốc ngữ lại có ưu thế hơn do không có sự thay đổi trật tự từ như trong chuyển ngữ thường gặp. Vì vậy, tùy từng trường hợp, nhóm sẽ kết hợp sử dụng mô hình để cho kết quả tối ưu. Với việc xây dựng hệ thống chuyển ngữ hoạt động trên website, khả năng dịch của hệ thống cho độ chính xác tùy theo lĩnh vực.

Cụ thể, với các văn bản thuộc lĩnh vực lịch sử, văn học, xã hội, hệ thống cho kết quả chính xác trên 90%. Các văn bản về y học dân tộc và các tài liệu mang tính chuyên ngành, mô hình cho độ chính xác 70%. Riêng truyện Kiều mô hình có thể dịch chính xác tới 99%.

Để thuận lợi trong sử dụng, nhóm nghiên cứu đang phát triển mô hình có thể dịch chữ Nôm trên ảnh chụp. Khi người dùng đưa ảnh chụp có chứa chữ Nôm, ứng dụng sẽ xử lý chuyển thành văn bản tiếng Việt.

PGS Điền cho biết, với các văn bản cũ chữ bị mờ, thiếu nét, mô hình có thể nhận dạng sai. Tuy nhiên, nhóm đang nghiên cứu giải pháp có khả năng dự đoán chữ viết dựa trên nét chữ và ngữ cảnh trên cả văn bản để có thể đoán chính xác chữ không rõ ràng. Chức năng dịch ảnh đang trong giai đoạn thử nghiệm và chưa ứng dụng công khai. Kết quả thử nghiệm bước đầu một số ảnh chụp văn bản chất lượng thấp, nhưng mô hình có thể nhận dạng chính xác 95%.

Giao diện website chuyển tự chữ Nôm sang chữ Quốc ngữ của nhóm nghiên cứu. Ảnh: NVCC

Giao diện website chuyển tự chữ Nôm sang chữ Quốc ngữ của nhóm nghiên cứu.

Theo nhóm nghiên cứu, đây là dự án phi lợi nhuận nhằm hướng đến công cụ dịch chuẩn xác từ chữ Hán – Nôm sang chữ Quốc ngữ. Thông qua dự án, cộng đồng có thể đóng góp nguồn tư liệu chữ Hán – Nôm để cập nhật thêm kho ngữ liệu huấn luyện mô hình phong phú hơn, giúp hoạt động chính xác hơn. Thông qua website, các nhà nghiên cứu có thể hiệu chỉnh những lỗi nhận dạng chữ Hán – Nôm sai hay chuyển tự sai, giúp máy ngày càng hoàn thiện hơn.

Thử nghiệm khả năng dịch của mô hình từ ảnh chụp, độ chính xác trên 95%. Ảnh: NVCC

Thử nghiệm khả năng dịch của mô hình từ ảnh chụp, độ chính xác trên 95%. Ảnh: NVCC

TS Hồ Minh Quang, Trưởng khoa Đông Phương Học, Đại học Khoa học Xã hội và Nhân văn (Đại học Quốc gia TP HCM) đánh giá nghiên cứu có ý nghĩa lớn trong việc gìn giữ di sản ngôn ngữ Hán – Nôm. Trước đây việc đọc, hiểu chữ Nôm chủ yếu là trong giới nghiên cứu. Sản phẩm của nhóm có thể giúp người dùng nhận diện, tra cứu thông tin sang chữ Quốc ngữ. Ông cũng cho rằng, rất cần sự đóng góp dữ liệu của cộng đồng để mô hình thông minh, dịch chuẩn xác hơn.

Chữ Nôm hiện vẫn còn tồn tại nhiều trong dân gian, như trong các sắc phong, gia phả, khế ước, di chúc, bài thuốc… Các văn bản này được ghi lại cách đây hàng trăm năm, trên các chất liệu chất lượng thấp, dễ hư hỏng theo thời gian nếu không được bảo quản trong điều kiện đặc biệt. Trong các văn bản chữ Nôm, có thể có nhiều thông tin quý, nhưng người dân không tự đọc hiểu được mà phải những người biết Hán – Nôm để phiên dịch qua chữ Quốc ngữ. Nhóm nghiên cứu cũng cho rằng, việc có công cụ phiên dịch chữ Nôm sang chữ Quốc ngữ sẽ giúp người không biết Hán – Nôm vẫn có thể giải mã thông tin của nhiều tư liệu quý do tổ tiên họ để lại, trong đó có những bài thuốc dân gian, trong ngành y học cổ truyền đang lưu truyền trong nhân dân.

Theo VN Express

CÁC TIN KHÁC

Kỹ sư Việt và hành trình 4 tháng hoàn thiện AI trên điện thoại hiện đại nhất

Thu âm hàng triệu tệp giọng nói, huy động hàng trăm người xử lý dữ liệu, từ con số 0 chỉ trong 4 tháng, các kỹ sư người Việt đã hoàn thiện AI tiếng Việt cho điện thoại hiện đại nhất hiện nay.

Hành trình cải tiến giúp đôi dép cao su vươn ra thế giới

Dép lốp hay còn gọi 'đôi dép Bác Hồ' làm thủ công thường bị đen chân, trơn trượt, được con cháu "Vua dép lốp Phạm Quang Xuân" cải tiến nhẹ, bám, xuất khẩu hơn 60 nước.

Trần Ngọc Long và đôi găng tay AI chuyển ngữ, giúp đỡ người khuyết tật

Nhận thấy người khiếm thính gặp nhiều khó khăn về giao tiếp, em học sinh lớp 11 ở Quảng Trị đã chế tạo đôi găng tay chuyển ngữ giúp những người kém may mắn có thể được học tập, tiếp thu kiến thức.

Kỹ sư sáng chế cỗ máy biến rác thải thành phân bón hữu cơ

Từ đống rác thải hữu cơ tưởng chừng vô dụng, qua sáng chế tài hoa của kỹ sư Nguyễn Tuấn Anh, chúng lại biến thành phân bón hữu cơ vi sinh, góp phần bảo vệ môi trường.

Thần đồng vật lý Trung Quốc khiến Đại học Harvard phá bỏ thông lệ 300 năm

Thần đồng vật lý Trung Quốc Doãn Hy với thành tích đặc biệt xuất sắc khiến Đại học Harvard của Mỹ phải phá bỏ thông lệ tồn tại suốt 300 năm để giữ chân.

Hai nhà khoa học được tôn vinh tài năng trẻ TP HCM

Với nhiều công trình nghiên cứu, công bố quốc tế Hà Quý Tân và Đoàn Châu Thành Vinh, đều 24 tuổi, được tôn vinh Tài năng trẻ TP HCM lĩnh vực khoa học – kỹ thuật, tối 23/3.

Bài viết nổi bật

Đại học Sư phạm TP.HCM ‘bắt tay’ doanh nghiệp công nghệ Việt thúc đẩy chuyển đổi số

Theo hợp tác mới ký kết với Viettel Solutions, Đại học Sư phạm TP.HCM sẽ cùng doanh nghiệp này xây dựng các giải pháp công nghệ trong giáo dục tập trung vào 4 nội dung chính.

Nhóm sinh viên trường ĐH Ngoại thương giành giải ‘Olympic Kinh tế lượng và ứng dụng’

Ngày 12/6, tại Học viện Tài chính diễn ra Chung khảo Hội thi khoa học sinh viên toàn quốc 'Olympic Kinh tế lượng và ứng dụng' lần thứ VII, năm 2022. Ban Giám khảo đã chọn ra nhóm sinh viên ĐH Ngoại thương TP. Hồ Chí Minh giành giải Đặc biệt.

Bài viết mới nhất

Luật sư, Doanh nhân Phạm Hồng Điệp lập cú đúp Kỷ lục Việt Nam và Kỷ lục Thế giới với hàng trăm bài thơ chủ đề quê hương đất nước được phổ nhạc

(Kyluc.vn - WorldKings.org) Vào tối ngày 28/04/2024, trong khuôn khổ Chương trình sử thi nghệ thuật “Khát vọng truyền nhân” được tổ chức tại Văn phòng Shinec, KCN Nam Cầu Kiền, TP. Hải Phòng, Luật sư,Doanh nhân Phạm Hồng Điệp đã đón nhận cùng lúc 02 Kỷ lục Việt Nam và 01 Kỷ lục Thế giới. Ông là tác giả của 143 bài thơ, trong đó, có 125 bài được nhiều nhạc sĩ phổ nhạc theo đa dạng thể loại mang âm hưởng truyền thống như Dân ca, Chèo, Xẩm… bên cạnh những dòng nhạc hiện đại như rap, pop...

Công ty CP Shinec lập Kỷ lục Việt Nam với khu công nghiệp đầu tiên xây dựng Không gian Văn hóa về Đại tướng Võ Nguyên Giáp

(kyluc.vn) Vào tối ngày 28/04/2024, trong khuôn khổ Chương trình Sử thi Nghệ thuật với chủ đề “Khát vọng Truyền nhân” được tổ chức tại Văn phòng Công ty Cổ phần Shinec, Khu công nghiệp Nam Cầu Kiền, TP.Hải Phòng, Công ty Cổ phần Shinec đã chính thức đón nhận Kỷ lục Việt Nam với “Khu công nghiệp đầu tiên tại Việt Nam xây dựng Không gian Văn hóa về Đại tướng Võ Nguyên Giáp.”

Thưởng thức đặc sản chả mực Hạ Long 200kg của Hộ kinh doanh Hải sản Mạnh Hà Hạ Long vừa được xác lập Kỷ lục quốc gia

kyluc.vn) Vào chiều ngày 27/4/2024, tại công viên Đại Dương, thành phố Hạ Long (tỉnh Quảng Ninh) đã diễn ra Lễ hội bia và Chả mực Hạ Long 2024. Cũng trong dịp này, Tổ chức Kỷ lục Việt Nam đã trao Kỷ lục “Mô hình chả mực Hạ Long hình tròn lớn nhất Việt Nam” đến Hộ kinh doanh Hải sản Mạnh Hà Hạ Long.

TOP 100 Hồng bảo Kỷ lục Thế giới tại Việt Nam (P.56) Dinh thự Công tử Bạc Liêu (Bạc Liêu): Kiến trúc bề thế vượt thời gian – [VIETKINGS-TOPPLUS đề cử]

(kyluc.vn) Nhà công tử Bạc Liêu tọa lạc ngay trung tâm thành phố Bạc Liêu. Ngôi nhà nổi bật giữa vùng với sự bề thế, mang phong cách kiến trúc phương Tây sang trọng vượt thời gian. Đây cũng là một địa điểm văn hóa, gắn liền với nhiều giai thoại và những câu chuyện truyền đời về cuộc sống của thiếu gia bậc nhất Lục tỉnh miền Tây những năm 1919.

Tổ chức thành công Lễ giỗ Tổ Hùng Vương lần thứ 6 tại Nhật Bản, Hiệp hội Người Việt Nam vùng Kansai được vinh danh Kỷ lục Người Việt toàn cầu

(Vietworld.world) - Ngày 27/4 tại Công viên thành phố Osaka, Nhật Bản, Hiệp hội người Việt Nam vùng Kansai đã tổ chức long trọng Lễ giỗ tổ Hùng Vương lần thứ 6. Tại sự kiện này, Hiệp hội người Việt Nam vùng Kansai cũng đã vinh dự đón nhận Kỷ lục Người Việt toàn cầu.

[WOWTIMES – VIETKINGS] Đại học Dược Hà Nội (1902-2024) – Chiếc nôi đào tạo Dược sĩ hàng đầu cả nước – Top 100 đơn vị trên 100 tuổi còn hoạt động tại Việt Nam 2024 – P.14

(nienlich.vn) Trường Đại học Dược Hà Nội tiền thân từ Trường thuốc Đông Dương, trải qua 122 năm cùng với nhiều thăng trầm lịch sử dân tộc, ngôi trường danh giá này tiếp tục là chiếc nôi đào tạo dược sĩ hàng đầu Việt Nam, đóng góp nhiều thành tích lớn vào sự phát triển y tế nước nhà.