Trang chủ Thế kỷ của não bộ Công nghệ Liệu trí tuệ nhân tạo có thể biết được bạn nói gì...

Liệu trí tuệ nhân tạo có thể biết được bạn nói gì chỉ qua cử động môi?

Nếu làm được như vậy, liệu chúng có thể được sử dụng để theo dõi mọi phát ngôn của chúng ta?

Đọc môi là một công việc phức tạp. Khả năng của mỗi người rất khác nhau, nhưng trung bình hầu hết mọi người chỉ nhận ra một trong mười từ khi quan sát chuyển động môi của ai đó. Ngay cả độ chính xác của những người tự nhận là chuyên gia cũng rất khác nhau – gần như chắc chắn không có ai là nhà bác học về đọc môi.

Tuy nhiên, hiện tại một số nhà nghiên cứu cho rằng các kỹ thuật AI như học sâu có thể giúp giải quyết vấn đề này. Dù sao đi nữa, các phương pháp AI vốn tập trung vào việc tiêu thụ một lượng lớn dữ liệu để tìm ra các mô hình chung, đã giúp cải thiện khả năng nhận dạng giọng nói với mức độ chính xác gần bằng con người. Vậy tại sao những phương pháp này không thể làm được điều tương tự với kỹ năng đọc môi?

Chính xác hơn con người, nhưng dữ liệu thử nghiệm vẫn rất hạn chế

Các nhà nghiên cứu từ Phòng thí nghiệm AI thuộc Đại học Oxford hứa hẹn sẽ tạo ra một bước tiến lớn trong lĩnh vực này, khi tạo ra một chương trình đọc môi mới sử dụng kỹ thuật học sâu. Với tên gọi LipNet, phần mềm này có thể làm tốt hơn hẳn những người đọc môi nhiều kinh nghiệm.

Trong các bài kiểm tra nhất định, phần mềm đạt đến độ chính xác đến 93,4%, nhưng những người đọc môi nhiều kinh nghiệm chỉ đạt được độ chính xác 52,3%. Và dù mới chỉ trong giai đoạn đầu của việc phát triển, phần mềm vẫn cực kỳ nhanh – nó có thể tạo ra các đoạn văn bản từ đoạn video im lặng gần như theo thời gian thực.

Tuy nhiên, trước khi chúng ta chấp nhận thua cuộc khi so sánh với cỗ máy trí tuệ nhân tạo này, nghiên cứu từ Đại học Oxford có một số giới hạn nghiêm trọng. Đầu tiên, hệ thống được đào tạo và thử nghiệm trong một bộ dữ liệu nghiên cứu, còn được gọi là GRID. Đây là một bộ sưu tập của hàng chục nghìn các đoạn video ngắn từ 34 tình nguyện viên, liên tục đọc các câu vô nghĩa cũng như các chú thích.

Mỗi đoạn clip chỉ có độ dài 3 giây, và mỗi câu đều theo một mẫu như sau: động từ ra lệnh, màu sắc, giới từ, chữ cái, chữ số, trạng từ. Ví dụ các câu sẽ như sau: “set blue by A four please”, hay “place red at C zero again.” Số lượng các từ trong những mẫu câu này cũng rất hạn chế: chỉ có 4 động từ mệnh lệnh và 4 màu sắc khác nhau được sử dụng.

Vì vậy, điều đó làm các nhà nghiên cứu trong lĩnh vực này cho rằng những phát hiện của tài liệu trên đã bị thổi phồng quá mức, đặc biệt là khi một tweet chứa đường dẫn đến đoạn video của các nhà nghiên cứu (dưới đây) đã làm những người quá mẫn cảm cho rằng, công trình này đã biến việc đọc môi trở thành “không còn gì bí mật.”

Chắc chắn nghiên cứu này chưa làm được điều đó. Trả lời phỏng vấn của The Verge, hai trong số các nhà nghiên cứu của công trình này, Yannis Assael và Brendan Shillingford đều sẵn sàng thừa nhận rằng họ đang làm việc với “số lượng từ ngữ và ngữ pháp rất hạn chế,” nhưng họ cho rằng điều này là do sự hạn chế của các dữ liệu hiện có. “Bộ dữ liệu còn tương đối nhỏ, nhưng nó là một dấu hiệu tốt cho thấy những gì chúng ta có thể làm được nếu có một bộ dữ liệu lớn hơn nhiều.” Assael cho biết.

Đừng quá lo về việc máy móc theo dõi con người

Đồng thời cả Assael và Shillingford đều nhấn mạnh rằng nghiên cứu của họ không thể ứng dụng vào việc giám sát mọi người trong thế giới thực, đơn giản bởi vì việc đọc môi đòi hỏi bạn phải nhìn thấy chuyển động lưỡi của chủ thể – điều này có nghĩa là đoạn video phải được hướng thẳng và rõ nét về phía người nói để có được kết quả tốt.

Theo Assael, “Đó là một điều bất khả thi về mặt kỹ thuật, hoặc ít nhất nó rất rất khó,” để có thể ứng dụng bất kỳ phần mềm đọc môi nào vào việc giám sát. Anh cũng bổ sung thêm rằng, tốc độ khung hình cũng là một yếu tố quan trọng, trong khi điều này thường bị bỏ qua với những chiếc camera CCTV.

Nếu bạn có thể đặt một chiếc camera ngay trước mặt ai đó để có góc quay tốt, chắc chắn bạn cũng có thể đặt một chiếc micro hướng về phía họ để ghi âm, mà không cần đến phần mềm này.” Assael cho biết. (Về mục đích giám sát, Assael nhấn mạnh rằng, cho dù một trong những người giám sát dự án này đã làm việc với DeepMind, bộ phận AI của Google, nhưng bản thân công ty này lại không hứng thú với sự phát triển của LipNet).

Thay vào đó, cả hai nhà nghiên cứu nghĩ rằng, AI đọc môi này sẽ rất hữu ích với những người mất khả năng nghe, đặc biệt trong môi trường ồn ào, nơi các máy tính khó có thể phân tích được âm thanh. Ví dụ, mọi người có thể đeo một camera tích hợp trong một chiếc kính mắt để có thể ghi hình một cách rõ ràng người đang nói chuyện với họ ở phía trước, và một phần mềm tương tự LipNet có thể dịch đoạn hội thoại theo thời gian thực, và nạp nó vào tai nghe.

Bất cứ khi nào bạn có phần mềm nhận dạng giọng nói và một camera, chúng tôi đều có thể cải thiện khả năng nghe.” Assael cho biết. Ngoài ra, anh cũng đề cập đến tiềm năng ứng dụng khả năng đọc chính tả một cách im lặng này cho Siri hay Google Assistant. Do vậy, trong tương lai, có lẽ những người không thích việc nói chuyện với những chiếc máy tính, sẽ chỉ cần để chúng đọc được chuyển động môi của họ.

CÁC TIN KHÁC

Việt Nam có 1 loại “nấm trường thọ” chứa hơn 400 dưỡng chất quý giá

Đây là một loại dược liệu quý giúp bồi bổ sức khỏe, ngăn ngừa một số loại bệnh và tăng cường tuổi thọ.

Giới hạn chịu nóng của con người không cao như chúng ta tưởng

Theo thống kê từ EPA, khoảng 11.000 trường hợp tử vong tại Mỹ gây ra bởi các sóng nhiệt trong giai đoạn từ 1979-2018. Con số này thậm chí còn có thể nhiều hơn do nhiều nơi không liệt kê hoặc không nhận định nhiệt độ cao là nguyên nhân gây tử vong.

Tàu chữa cháy lớn nhất thế giới tự thăng bằng trong 6 giây

https://www.youtube.com/watch?v=cZdGcip4FzM Chiếc tàu chế tạo bởi xưởng đóng tàu Lungteh ở huyện Nghi Lan của Đài Loan được cho là tàu chữa cháy tự thăng...

Hé lộ sự tồn tại hành tinh thứ 9 trong Hệ Mặt trời chúng ta

Chúng ta biết rằng, có ít nhất 8 hành tinh đang tồn tại trong Hệ Mặt trời, nhưng có thể vẫn còn tồn tại những vật thể khác. Mới đây các nhà khoa học đã hé lộ thêm bằng chứng về hành tinh thứ 9.

Nhà vệ sinh tương lai, bồn cầu sẽ biết… bắt bệnh

Những chiếc gương và toilet có thể phát hiện bệnh sớm, các loại vật liệu lót sàn có khả năng đo lường nguy cơ ngã của người dùng, đó là những gì có thể sẽ sớm hiện diện trong các nhà vệ sinh cao cấp tương lai.

Điều gì biến Ấn Độ trở thành trung tâm thiết kế bán dẫn của thế giới?

Theo Chủ tịch Công ty bán dẫn Qualcomm chi nhánh Ấn Độ, quốc gia Nam Á đang và sẽ là trung tâm thiết kế chip với đội ngũ kỹ sư dồi dào.

Bài viết nổi bật

Đại học Sư phạm TP.HCM ‘bắt tay’ doanh nghiệp công nghệ Việt thúc đẩy chuyển đổi số

Theo hợp tác mới ký kết với Viettel Solutions, Đại học Sư phạm TP.HCM sẽ cùng doanh nghiệp này xây dựng các giải pháp công nghệ trong giáo dục tập trung vào 4 nội dung chính.

Nhóm sinh viên trường ĐH Ngoại thương giành giải ‘Olympic Kinh tế lượng và ứng dụng’

Ngày 12/6, tại Học viện Tài chính diễn ra Chung khảo Hội thi khoa học sinh viên toàn quốc 'Olympic Kinh tế lượng và ứng dụng' lần thứ VII, năm 2022. Ban Giám khảo đã chọn ra nhóm sinh viên ĐH Ngoại thương TP. Hồ Chí Minh giành giải Đặc biệt.

Bài viết mới nhất

Vượt bậc về số lượng và chất lượng điểm đầu ra, Apollo English lập cú đúp Kỷ lục Việt Nam tại lễ trao chứng chỉ Cambridge năm 2024

Chứng chỉ Cambridge là kỳ thi tiếng Anh hướng tới đối tượng học sinh với 6 cấp độ Starters, Movers, Flyers, KET, PET và FCE. Chứng...

[WOWTIMES – VIETKINGS] Chợ cổ Cần Thơ (1915-2024) – Chứng nhân văn hóa vùng Tây Đô – Top 100 đơn vị trên 100 tuổi còn hoạt động tại Việt Nam 2024 – P.28

(nienlich.vn) Chợ cổ Cần Thơ là một trong những ngôi chợ truyền thống có tuổi đời "thọ" nhất Việt Nam. Trải qua 109 năm đồng hành cùng với sự phát triển văn hóa dân tộc, ngôi chợ cổ kính này vẫn tiếp tục phát triển mạnh mẽ, là một trong những điểm đến yêu thích của nhiều du khách trong và ngoài nước.

‘Pin cát’ cung cấp năng lượng nhiệt cho toàn bộ thị trấn

'Pin cát' mới của PNE cao 13m, rộng 15m, cung cấp công suất đầu ra 1 MW và công suất 100 MWh, mức này tương đương với nhu cầu nhiệt của Pornainen trong một tuần vào mùa đông hoặc một tháng vào mùa hè.

Nhà thờ Mằng Lăng (Phú Yên) – TOP 5 nhà thờ cổ trên 100 tuổi của Việt Nam được nhiều người biết đến (P.1) – [VIETKINGS-TOPPLUS – Hành trình TOP Việt Nam]

(kyluc.vn) Nhà thờ Mằng Lăng (ở xã An Thạch, huyện Tuy An, tỉnh Phú Yên) là một trong những nhà thờ cổ nhất Việt Nam, có kiến trúc độc đáo, với hình dáng, đường nét mang đậm dấu ấn kiến trúc thế kỷ XIX. Không chỉ gây ấn tượng với kiến trúc, nhà thờ Mằng Lăng còn là nơi lưu giữ cuốn sách chữ quốc ngữ đầu tiên của Việt Nam.

TOP 100 Hồng bảo Kỷ lục Thế giới tại Việt Nam (P.69) Thành cổ Vinh (Nghệ An): Hơn 200 năm bảo vệ ‘trái tim xứ Nghệ’ – [VIETKINGS-TOPPLUS đề cử]

(kyluc.vn) Thành phố Vinh - trái tim của Xứ Nghệ - mảnh đất có bề dày lịch sử hàng trăm năm, nơi từng được vua Quang Trung - Nguyễn Huệ chọn làm nơi xây dựng kinh đô vào năm 1788. Để từ đó còn có tên gọi là Phượng Hoàng Trung Đô. Đến hôm nay, trong hơi thở của cuộc sống nhộn nhịp và sôi động thành phố Vinh vẫn ôm trong mình những nét cổ kính, hoài niệm về một thời xưa cũ. Một trong những nét đẹp hoài cổ của thành phố Vinh, một dấu tích xưa, một công trình kiến trúc độc đáo có giá trị lịch sử - văn hóa vô cùng to lớn, đó chính là: Thành cổ Vinh.

Chinh phục quãng đường gần 500km bằng xe đạp, hai anh em học tại Trường Trung Tiểu Học Pétrus Ký – Bình Dương xác lập Kỷ lục học đường Việt Nam

(Kyluc.vn) Hai anh em ruột là Hồ Minh Quân và Hồ Quang Minh đã chinh phục thành công quãng đường 500km đường bộ từ tỉnh Bình Dương đến tỉnh Gia Lai bằng xe đạp. Đặc biệt, dù là học sinh tiểu học nhưng bằng sự kiên trì, hai anh em đã cùng nhau ghi dấu ấn đặc biệt trên hành trình rèn luyện sức khỏe của mình khi chính thức được ghi danh trong Hành trình Kỷ lục học đường tại Việt Nam. Sự kiện trao bằng diễn ra vào sáng ngày 11/04/2024 tại VP.Tổ chức Kỷ lục Việt Nam.