[rev_slider alias="Banner header"]
Trang chủ Thế kỷ của não bộ Công nghệ Trí tuệ nhân tạo đang giúp thu hẹp khoảng cách ngôn ngữ...

Trí tuệ nhân tạo đang giúp thu hẹp khoảng cách ngôn ngữ trên thế giới

Các công cụ trí tuệ nhân tạo, từ ChatGPT đến Google Dịch, đều vô dụng đối với hàng tỷ người ở Nam bán cầu, những người không làm việc bằng các ngôn ngữ phương Tây. Các nhà nghiên cứu và công ty khởi nghiệp từ châu Phi và nhiều nơi khác đang thay đổi điều đó.

Theo Mekdes Gebrewold, người sáng lập công ty tư vấn Ashagari ở thủ đô Addis Ababa của Ethiopia, các công cụ dịch máy hiện vẫn chưa được tối ưu hóa cho ngôn ngữ địa phương. “Các công cụ như Google Dịch không được xây dựng tốt cho tiếng Amharic”, cô nói. “Vì vậy, chúng tôi vẫn phải trả tiền cho các chuyên gia”.

 Ảnh: BBC

Ảnh: BBC

Hàng tỷ người như cô Mekdes không thể tận dụng các công cụ do AI cung cấp do ngôn ngữ của họ không tương thích. Điều này không chỉ áp dụng cho AI tổng quát như ChatGPT hoặc dịch vụ dịch thuật như Google Dịch mà còn áp dụng cho một loạt công cụ khác, như dịch vụ phiên âm, trợ lý giọng nói và kiểm duyệt nội dung trên mạng xã hội.

Nhưng một số người đang làm việc để thay đổi điều đó. Về bản chất, các công cụ AI hiện đại là các công cụ tự động dự đoán câu trả lời có khả năng xảy ra nhất dựa trên thông tin đầu vào mà chúng nhận được. Những dự đoán này dựa trên một lượng lớn “dữ liệu đào tạo”.

Một nguồn dữ liệu đào tạo quan trọng được gọi là nguồn thông tin chung, một bộ dữ liệu có sẵn công khai, bao gồm hàng tỷ trang web từ internet. Khoảng 60% thông tin được sử dụng để huấn luyện phiên bản 3.5 của ChatGPT đến từ nguồn thông tin này.

Tuy nhiên, do phụ thuộc vào dữ liệu đào tạo này, các công cụ AI không hoạt động khi khan hiếm dữ liệu ở một ngôn ngữ cụ thể. Đây là một vấn đề vì internet bị chi phối bởi một số ngôn ngữ chính. Đa phần các trang web đều hiển thị bằng tiếng Anh, và ngôn ngữ này đã chiếm gần một nửa trong bộ sưu tập nguồn thông tin chung.

Tiếng Amharic, cùng với tất cả các ngôn ngữ châu Phi, châu Mỹ và châu Đại Dương khác, chiếm chưa đến 0,1% trong bộ sưu tập này. Nó được biết đến như một ngôn ngữ tài nguyên thấp với ít dữ liệu kỹ thuật số có sẵn.

Trên khắp thế giới, hàng tỷ người đang nói những ngôn ngữ này, bao gồm cả những ngôn ngữ chính như tiếng Hindi, tiếng Ả Rập và tiếng Bengal. Các ngôn ngữ châu Âu xuất hiện nhiều gấp nhiều lần so với hầu hết các ngôn ngữ châu Á và châu Phi.

Ví dụ, tiếng Hà Lan được hơn 20 triệu người nói như ngôn ngữ thứ nhất, tương tự như tiếng Amharic. Tuy nhiên, tiếng Hà Lan xuất hiện nhiều hơn gần 700 lần trong bộ dữ liệu Thu thập thông tin chung và gấp hàng trăm lần so với cả tiếng Hindi, vốn có hơn 300 triệu người đang sử dụng.

Tuy nhiên, có nhiều cách để khắc phục việc thiếu dữ liệu này. Ngoài những gã khổng lồ công nghệ của Thung lũng Silicon, các nhà nghiên cứu máy học trên toàn thế giới đang phát triển các công cụ hỗ trợ AI cho ngôn ngữ của họ.

Lesan, một công ty khởi nghiệp, đang tạo ra công nghệ dịch máy và lời nói cho các ngôn ngữ của Ethiopia là Amharic và Tigrinya. Ông Asmelash Teka Hadgu, người đồng sáng lập ra Lesan, cho biết họ không có nhiều tài nguyên trực tuyến, và nhóm của ông đang làm việc trực tiếp với cộng đồng và tìm ra những cách sáng tạo để thu thập dữ liệu.

“Chúng tôi chủ yếu làm việc với những sinh viên yêu thích ngôn ngữ”, ông cho biết. “Khi chúng tôi nói với họ rằng chúng tôi đang xây dựng thứ này, họ được truyền cảm hứng và muốn đóng góp. Vì vậy, chúng tôi đặt ra nhiệm vụ thu thập nội dung bằng ngôn ngữ của mình. Và chúng tôi hỗ trợ họ về mặt tài chính”.

Điều này đòi hỏi rất nhiều lao động thủ công. Trước tiên, những người đóng góp xác định các bộ dữ liệu chất lượng cao, chẳng hạn như sách hoặc báo đáng tin cậy, sau đó số hóa và dịch chúng sang ngôn ngữ mục tiêu. Cuối cùng, họ sắp xếp song song từng câu giữa bản gốc và bản dịch để hướng dẫn quá trình học máy.

Với cách tiếp cận này, các công ty như Lesan không thể hy vọng có thể cạnh tranh với hàng tỷ trang nội dung tiếng Anh hiện có, nhưng họ sẽ có lợi thế tại địa phương. Điển hình là việc Lesan hiện đã vượt trội so với Google Dịch ở cả tiếng Amharic và tiếng Tigrinya.

“Bạn có thể xây dựng các mô hình hữu ích bằng cách sử dụng các tập dữ liệu nhỏ, được sắp xếp cẩn thận”, ông Asmelash Teka Hadgu nói thêm. “Chúng tôi hiểu những hạn chế và khả năng của nó. Trong khi đó, Microsoft hay Google thường xây dựng một mô hình khổng lồ duy nhất cho tất cả các ngôn ngữ nên họ gần như không thể kiểm tra kỹ càng nguồn thông tin được”.

Cách tiếp cận của Lesan không phải là duy nhất. Các dự án tương tự đang được triển khai thành công trên khắp thế giới, ngay cả đối với các ngôn ngữ có ít dữ liệu trực tuyến.

Hàng nghìn ngôn ngữ trên toàn thế giới, bao gồm nhiều ngôn ngữ có hơn một triệu người dùng, thậm chí còn có ít nội dung trực tuyến hơn và ít công cụ kỹ thuật số hơn.

Ông Asmelash Teka Hadgu là một thành viên của mạng lưới những người tiên phong về AI ở châu Phi. Ông cũng là nghiên cứu viên tại Viện nghiên cứu AI phân tán (DAIR), một nhóm các nhà nghiên cứu đến từ châu Phi, châu Âu và Bắc Mỹ.

Ngoài châu Phi, các nhà nghiên cứu trên khắp thế giới đang nghiên cứu các ngôn ngữ khác bao gồm tiếng Jamaican Patois, tiếng Catalan, tiếng Sudan và tiếng Māori.

Và trong khi những gã khổng lồ công nghệ như OpenAI của ChatGPT đang giữ bí mật về các công nghệ của mình, thì các sáng kiến như tập thể AI toàn cầu Hugging Face đã chia sẻ thông tin chi tiết và mô hình AI một cách tự do. Điều này giúp bất kỳ nhà nghiên cứu nào cũng có thể tạo ra các giải pháp cho ngôn ngữ của họ một cách dễ dàng hơn.

“Tài năng ở khắp mọi nơi, còn cơ hội thì không”, ông Asmelash nói. “Nếu bạn muốn tạo ra loại công nghệ máy dịch tốt nhất, chẳng hạn như đối với ngôn ngữ Ghana, sẽ có một người Ghana cảm thấy đam mê và có thể làm tốt điều đó. Hãy trao quyền cho họ”.

Theo Báo Công Luận

CÁC TIN KHÁC

Giới thiệu siêu du thuyền chạy bằng pin hydro đầu tiên trên thế giới

Công ty Feadship giới thiệu mẫu siêu du thuyền chạy bằng pin nhiên liệu hydro không khí thải, hứa hẹn cách mạng hóa phương tiện hạng sang này.

Máy tính thiên văn hơn 2.000 năm tuổi

Lịch sử ẩn chứa vô số bí ẩn về những nền văn minh đã mất và những công nghệ tiên tiến mà họ sở hữu. Cho đến ngày nay, nhiều người vẫn tin rằng một số nền văn minh cổ đại có trình độ khoa học và kỹ thuật vượt xa so với nhận thức hiện tại của chúng ta.

5 trợ lý lập kế hoạch AI giúp tăng đáng kể năng suất làm việc

Ngày càng có nhiều ứng dụng trí tuệ nhân tạo (AI) quản lý thời gian và lập lịch trình được thiết kế để bạn sắp xếp công việc hiệu quả hơn. Việc tận dụng các trợ lý ảo này có thể giúp bạn duy trì năng suất ở mức cao nhất và đáp ứng nhu cầu ngày càng tăng của môi trường làm việc hiện đại.

Máy in 3D khổng lồ, tương lai của sản xuất xanh

Các nhà khoa học của Đại học Maine đã tạo ra một chiếc máy in 3D khổng lồ có khả năng in hoàn thiện một ngôi nhà được làm hoàn toàn từ vật liệu sinh học.

Việt Nam có 1 loại “nấm trường thọ” chứa hơn 400 dưỡng chất quý giá

Đây là một loại dược liệu quý giúp bồi bổ sức khỏe, ngăn ngừa một số loại bệnh và tăng cường tuổi thọ.

Giới hạn chịu nóng của con người không cao như chúng ta tưởng

Theo thống kê từ EPA, khoảng 11.000 trường hợp tử vong tại Mỹ gây ra bởi các sóng nhiệt trong giai đoạn từ 1979-2018. Con số này thậm chí còn có thể nhiều hơn do nhiều nơi không liệt kê hoặc không nhận định nhiệt độ cao là nguyên nhân gây tử vong.

Bài viết nổi bật

Đại học Sư phạm TP.HCM ‘bắt tay’ doanh nghiệp công nghệ Việt thúc đẩy chuyển đổi số

Theo hợp tác mới ký kết với Viettel Solutions, Đại học Sư phạm TP.HCM sẽ cùng doanh nghiệp này xây dựng các giải pháp công nghệ trong giáo dục tập trung vào 4 nội dung chính.

Nhóm sinh viên trường ĐH Ngoại thương giành giải ‘Olympic Kinh tế lượng và ứng dụng’

Ngày 12/6, tại Học viện Tài chính diễn ra Chung khảo Hội thi khoa học sinh viên toàn quốc 'Olympic Kinh tế lượng và ứng dụng' lần thứ VII, năm 2022. Ban Giám khảo đã chọn ra nhóm sinh viên ĐH Ngoại thương TP. Hồ Chí Minh giành giải Đặc biệt.

Bài viết mới nhất

TOP 100 Hồng bảo Kỷ lục Thế giới tại Việt Nam (P.75) Đền Cửa Ông (Quảng Ninh): Ngôi đền linh thiêng nơi đất mỏ – [VIETKINGS-TOPPLUS đề cử]

(kyluc.vn) Thuộc địa phận phường Cửa Ông, TP. Cẩm Phả, đền Cửa Ông thờ Hưng Nhượng Vương Trần Quốc Tảng (con trai thứ ba của Hưng Đạo Đại Vương Trần Quốc Tuấn) - người có nhiều công lao trong cuộc kháng chiến chống quân Nguyên Mông, bảo vệ tuyến biên giới và lãnh hải vùng Đông Bắc Tổ quốc.

Xây dựng nền tảng phát triển đại học định hướng đổi mới sáng tạo

Diễn đàn đổi mới sáng tạo quốc gia năm 2024 diễn ra ngày 16/5 tại ĐH Quốc gia Hà Nội. Thứ trưởng Bộ GD&ĐT Hoàng Minh Sơn tham dự.

Google trình làng các mô hình AI mạnh nhất ngay sau khi OpenAI ra mắt GPT-4o

Google đã ra mắt 2 mô hình AI thuộc dòng Gemini, trong đó có Gemini 1.5 Pro mà Giám đốc điều hành Sundar Pichai cho biết 'có thể xâu chuỗi thông tin trong một khoảng thời gian dài nhất so với bất kỳ mô hình AI nào'.

[WOWTIMES – VIETKINGS] Nhà hát lớn Hà Nội (1901-2024) – Biểu tượng kiến trúc giữa trái tim Thủ đô – Top 100 đơn vị trên 100 tuổi còn hoạt động tại Việt Nam 2024 – P.33

(WOWTIMES - VIETKINGS) Nhà hát lớn Hà Nội là một trong những nhà hát có tuổi đời "thọ" nhất tại Việt Nam. Trải qua gần 123 năm đồng hành cùng lịch sử dân tộc, tính tới nay đây vẫn và đang tiếp tục là biểu tượng kiến trúc đặc sắc giữa lòng Thủ đô, thu hút nhiều du khách đến tham quan và thưởng thức âm nhạc.

Tìm ra cách uốn cong ánh sáng để tạo mạng 6G siêu tốc

Các nhà nghiên cứu đã phát hiện ra cách điều khiển mới đối với tín hiệu terahertz, từ đó mở đường cho mạng 6G cực nhanh.

TOP 5 hang động Việt Nam sở hữu vẻ đẹp huyền bí – 50 TOP các điểm đến hấp dẫn của Việt Nam 2024 (P.12) – [VIETKINGS-TOPPLUS – Hành trình TOP Việt Nam]

(kyluc.vn) Đối với những người theo chủ nghĩa xê dịch, vẻ đẹp kỳ vĩ và bí ẩn của những hang động luôn tạo ra một sức hút khó lòng cưỡng lại. Càng đắm mình vào không gian của các hang động của Việt Nam, du khách sẽ càng ngỡ ngàng với món quà vô giá từ thiên nhiên.