Trang chủ Thế kỷ của não bộ Công nghệ Liệu trí tuệ nhân tạo có thể biết được bạn nói gì...

Liệu trí tuệ nhân tạo có thể biết được bạn nói gì chỉ qua cử động môi?

Nếu làm được như vậy, liệu chúng có thể được sử dụng để theo dõi mọi phát ngôn của chúng ta?

Đọc môi là một công việc phức tạp. Khả năng của mỗi người rất khác nhau, nhưng trung bình hầu hết mọi người chỉ nhận ra một trong mười từ khi quan sát chuyển động môi của ai đó. Ngay cả độ chính xác của những người tự nhận là chuyên gia cũng rất khác nhau – gần như chắc chắn không có ai là nhà bác học về đọc môi.

Tuy nhiên, hiện tại một số nhà nghiên cứu cho rằng các kỹ thuật AI như học sâu có thể giúp giải quyết vấn đề này. Dù sao đi nữa, các phương pháp AI vốn tập trung vào việc tiêu thụ một lượng lớn dữ liệu để tìm ra các mô hình chung, đã giúp cải thiện khả năng nhận dạng giọng nói với mức độ chính xác gần bằng con người. Vậy tại sao những phương pháp này không thể làm được điều tương tự với kỹ năng đọc môi?

Chính xác hơn con người, nhưng dữ liệu thử nghiệm vẫn rất hạn chế

Các nhà nghiên cứu từ Phòng thí nghiệm AI thuộc Đại học Oxford hứa hẹn sẽ tạo ra một bước tiến lớn trong lĩnh vực này, khi tạo ra một chương trình đọc môi mới sử dụng kỹ thuật học sâu. Với tên gọi LipNet, phần mềm này có thể làm tốt hơn hẳn những người đọc môi nhiều kinh nghiệm.

Trong các bài kiểm tra nhất định, phần mềm đạt đến độ chính xác đến 93,4%, nhưng những người đọc môi nhiều kinh nghiệm chỉ đạt được độ chính xác 52,3%. Và dù mới chỉ trong giai đoạn đầu của việc phát triển, phần mềm vẫn cực kỳ nhanh – nó có thể tạo ra các đoạn văn bản từ đoạn video im lặng gần như theo thời gian thực.

Tuy nhiên, trước khi chúng ta chấp nhận thua cuộc khi so sánh với cỗ máy trí tuệ nhân tạo này, nghiên cứu từ Đại học Oxford có một số giới hạn nghiêm trọng. Đầu tiên, hệ thống được đào tạo và thử nghiệm trong một bộ dữ liệu nghiên cứu, còn được gọi là GRID. Đây là một bộ sưu tập của hàng chục nghìn các đoạn video ngắn từ 34 tình nguyện viên, liên tục đọc các câu vô nghĩa cũng như các chú thích.

Mỗi đoạn clip chỉ có độ dài 3 giây, và mỗi câu đều theo một mẫu như sau: động từ ra lệnh, màu sắc, giới từ, chữ cái, chữ số, trạng từ. Ví dụ các câu sẽ như sau: “set blue by A four please”, hay “place red at C zero again.” Số lượng các từ trong những mẫu câu này cũng rất hạn chế: chỉ có 4 động từ mệnh lệnh và 4 màu sắc khác nhau được sử dụng.

Vì vậy, điều đó làm các nhà nghiên cứu trong lĩnh vực này cho rằng những phát hiện của tài liệu trên đã bị thổi phồng quá mức, đặc biệt là khi một tweet chứa đường dẫn đến đoạn video của các nhà nghiên cứu (dưới đây) đã làm những người quá mẫn cảm cho rằng, công trình này đã biến việc đọc môi trở thành “không còn gì bí mật.”

Chắc chắn nghiên cứu này chưa làm được điều đó. Trả lời phỏng vấn của The Verge, hai trong số các nhà nghiên cứu của công trình này, Yannis Assael và Brendan Shillingford đều sẵn sàng thừa nhận rằng họ đang làm việc với “số lượng từ ngữ và ngữ pháp rất hạn chế,” nhưng họ cho rằng điều này là do sự hạn chế của các dữ liệu hiện có. “Bộ dữ liệu còn tương đối nhỏ, nhưng nó là một dấu hiệu tốt cho thấy những gì chúng ta có thể làm được nếu có một bộ dữ liệu lớn hơn nhiều.” Assael cho biết.

Đừng quá lo về việc máy móc theo dõi con người

Đồng thời cả Assael và Shillingford đều nhấn mạnh rằng nghiên cứu của họ không thể ứng dụng vào việc giám sát mọi người trong thế giới thực, đơn giản bởi vì việc đọc môi đòi hỏi bạn phải nhìn thấy chuyển động lưỡi của chủ thể – điều này có nghĩa là đoạn video phải được hướng thẳng và rõ nét về phía người nói để có được kết quả tốt.

Theo Assael, “Đó là một điều bất khả thi về mặt kỹ thuật, hoặc ít nhất nó rất rất khó,” để có thể ứng dụng bất kỳ phần mềm đọc môi nào vào việc giám sát. Anh cũng bổ sung thêm rằng, tốc độ khung hình cũng là một yếu tố quan trọng, trong khi điều này thường bị bỏ qua với những chiếc camera CCTV.

Nếu bạn có thể đặt một chiếc camera ngay trước mặt ai đó để có góc quay tốt, chắc chắn bạn cũng có thể đặt một chiếc micro hướng về phía họ để ghi âm, mà không cần đến phần mềm này.” Assael cho biết. (Về mục đích giám sát, Assael nhấn mạnh rằng, cho dù một trong những người giám sát dự án này đã làm việc với DeepMind, bộ phận AI của Google, nhưng bản thân công ty này lại không hứng thú với sự phát triển của LipNet).

Thay vào đó, cả hai nhà nghiên cứu nghĩ rằng, AI đọc môi này sẽ rất hữu ích với những người mất khả năng nghe, đặc biệt trong môi trường ồn ào, nơi các máy tính khó có thể phân tích được âm thanh. Ví dụ, mọi người có thể đeo một camera tích hợp trong một chiếc kính mắt để có thể ghi hình một cách rõ ràng người đang nói chuyện với họ ở phía trước, và một phần mềm tương tự LipNet có thể dịch đoạn hội thoại theo thời gian thực, và nạp nó vào tai nghe.

Bất cứ khi nào bạn có phần mềm nhận dạng giọng nói và một camera, chúng tôi đều có thể cải thiện khả năng nghe.” Assael cho biết. Ngoài ra, anh cũng đề cập đến tiềm năng ứng dụng khả năng đọc chính tả một cách im lặng này cho Siri hay Google Assistant. Do vậy, trong tương lai, có lẽ những người không thích việc nói chuyện với những chiếc máy tính, sẽ chỉ cần để chúng đọc được chuyển động môi của họ.

CÁC TIN KHÁC

Nhà vệ sinh tương lai, bồn cầu sẽ biết… bắt bệnh

Những chiếc gương và toilet có thể phát hiện bệnh sớm, các loại vật liệu lót sàn có khả năng đo lường nguy cơ ngã của người dùng, đó là những gì có thể sẽ sớm hiện diện trong các nhà vệ sinh cao cấp tương lai.

Điều gì biến Ấn Độ trở thành trung tâm thiết kế bán dẫn của thế giới?

Theo Chủ tịch Công ty bán dẫn Qualcomm chi nhánh Ấn Độ, quốc gia Nam Á đang và sẽ là trung tâm thiết kế chip với đội ngũ kỹ sư dồi dào.

Điều ít biết về người phát minh ra bút xóa

Ngày nay, chiếc bút xóa đã không còn xa lạ gì với mọi người. Tuy nhiên, ít ai biết được người phát minh ra nó lại chính là một phụ nữ.

Nghiên cứu cho thấy AI giúp con người cảm thấy được lắng nghe

Một nghiên cứu mới được công bố trong Kỷ yếu của Viện Hàn lâm Khoa học Quốc gia Mỹ đã phát hiện rằng tin nhắn do trí tuệ nhân tạo (AI) phản hồi mang lại cảm giác được lắng nghe nhiều hơn tin nhắn do một người có khả năng giao tiếp non nớt.

Khả năng cuộc cách mạng thiết bị AI ‘khai tử’ điện thoại thông minh

Tham vọng của Humane là khai tử điện thoại thông minh hoặc ít nhất là giảm nhu cầu thiết bị đang được coi là thứ không thể thiếu trong cuộc sống hiện đại này.

Những cỗ máy ‘có một không hai’ trong lịch sử

Một số cỗ máy kỳ lạ nhất từng được thiết kế và chế tạo trong lịch sử nhân loại, từ máy tính cổ nhất thế giới của người Hy Lạp tới máy bay cánh chim của Leonardo da Vinci.

Bài viết nổi bật

Đại học Sư phạm TP.HCM ‘bắt tay’ doanh nghiệp công nghệ Việt thúc đẩy chuyển đổi số

Theo hợp tác mới ký kết với Viettel Solutions, Đại học Sư phạm TP.HCM sẽ cùng doanh nghiệp này xây dựng các giải pháp công nghệ trong giáo dục tập trung vào 4 nội dung chính.

Nhóm sinh viên trường ĐH Ngoại thương giành giải ‘Olympic Kinh tế lượng và ứng dụng’

Ngày 12/6, tại Học viện Tài chính diễn ra Chung khảo Hội thi khoa học sinh viên toàn quốc 'Olympic Kinh tế lượng và ứng dụng' lần thứ VII, năm 2022. Ban Giám khảo đã chọn ra nhóm sinh viên ĐH Ngoại thương TP. Hồ Chí Minh giành giải Đặc biệt.

Bài viết mới nhất

Thưởng thức đặc sản chả mực Hạ Long 200kg của Hộ kinh doanh Hải sản Mạnh Hà Hạ Long vừa được xác lập Kỷ lục quốc gia

kyluc.vn) Vào chiều ngày 27/4/2024, tại công viên Đại Dương, thành phố Hạ Long (tỉnh Quảng Ninh) đã diễn ra Lễ hội bia và Chả mực Hạ Long 2024. Cũng trong dịp này, Tổ chức Kỷ lục Việt Nam đã trao Kỷ lục “Mô hình chả mực Hạ Long hình tròn lớn nhất Việt Nam” đến Hộ kinh doanh Hải sản Mạnh Hà Hạ Long.

TOP 100 Hồng bảo Kỷ lục Thế giới tại Việt Nam (P.56) Dinh thự Công tử Bạc Liêu (Bạc Liêu): Kiến trúc bề thế vượt thời gian – [VIETKINGS-TOPPLUS đề cử]

(kyluc.vn) Nhà công tử Bạc Liêu tọa lạc ngay trung tâm thành phố Bạc Liêu. Ngôi nhà nổi bật giữa vùng với sự bề thế, mang phong cách kiến trúc phương Tây sang trọng vượt thời gian. Đây cũng là một địa điểm văn hóa, gắn liền với nhiều giai thoại và những câu chuyện truyền đời về cuộc sống của thiếu gia bậc nhất Lục tỉnh miền Tây những năm 1919.

Tổ chức thành công Lễ giỗ Tổ Hùng Vương lần thứ 6 tại Nhật Bản, Hiệp hội Người Việt Nam vùng Kansai được vinh danh Kỷ lục Người Việt toàn cầu

(Vietworld.world) - Ngày 27/4 tại Công viên thành phố Osaka, Nhật Bản, Hiệp hội người Việt Nam vùng Kansai đã tổ chức long trọng Lễ giỗ tổ Hùng Vương lần thứ 6. Tại sự kiện này, Hiệp hội người Việt Nam vùng Kansai cũng đã vinh dự đón nhận Kỷ lục Người Việt toàn cầu.

[WOWTIMES – VIETKINGS] Đại học Dược Hà Nội (1902-2024) – Chiếc nôi đào tạo Dược sĩ hàng đầu cả nước – Top 100 đơn vị trên 100 tuổi còn hoạt động tại Việt Nam 2024 – P.14

(nienlich.vn) Trường Đại học Dược Hà Nội tiền thân từ Trường thuốc Đông Dương, trải qua 122 năm cùng với nhiều thăng trầm lịch sử dân tộc, ngôi trường danh giá này tiếp tục là chiếc nôi đào tạo dược sĩ hàng đầu Việt Nam, đóng góp nhiều thành tích lớn vào sự phát triển y tế nước nhà.

Công cụ AI phát hiện 3 loại ung thư trong vài phút chỉ bằng 1 giọt máu khô

Các nhà khoa học Trung Quốc đã phát triển, thử nghiêm một công cụ trí tuệ nhân tạo (AI) để phát hiện chính xác và nhanh chóng 3 loại ung thư nguy hiểm (ung thư tuyến tụy, dạ dày và đại trực tràng) chỉ bằng một giọt máu khô.

Di tích Địa đạo Củ Chi (Thành phố Hồ Chí Minh) – TOP 10 khu di tích có giá trị lịch sử của Việt Nam được nhiều người biết đến (P.10) – [VIETKINGS-TOPPLUS – Hành trình TOP Việt Nam]

(kyluc.vn) Địa đạo Củ Chi không chỉ là điểm đến có giá trị về lịch sử, văn hóa mà còn là điểm du lịch hấp dẫn gắn liền với những công trình quân sự nổi tiếng tại Việt Nam. Đây được xem là một kỳ quan về nghệ thuật quân sự độc đáo của Việt Nam, thể hiện ý chí kiên cường, bất khuất của con người vùng “đất thép,” một trong những biểu tượng của chủ nghĩa anh hùng cách mạng.