Đọc môi là một công việc phức tạp. Khả năng của mỗi người rất khác nhau, nhưng trung bình hầu hết mọi người chỉ nhận ra một trong mười từ khi quan sát chuyển động môi của ai đó. Ngay cả độ chính xác của những người tự nhận là chuyên gia cũng rất khác nhau – gần như chắc chắn không có ai là nhà bác học về đọc môi.
Tuy nhiên, hiện tại một số nhà nghiên cứu cho rằng các kỹ thuật AI như học sâu có thể giúp giải quyết vấn đề này. Dù sao đi nữa, các phương pháp AI vốn tập trung vào việc tiêu thụ một lượng lớn dữ liệu để tìm ra các mô hình chung, đã giúp cải thiện khả năng nhận dạng giọng nói với mức độ chính xác gần bằng con người. Vậy tại sao những phương pháp này không thể làm được điều tương tự với kỹ năng đọc môi?
Các nhà nghiên cứu từ Phòng thí nghiệm AI thuộc Đại học Oxford hứa hẹn sẽ tạo ra một bước tiến lớn trong lĩnh vực này, khi tạo ra một chương trình đọc môi mới sử dụng kỹ thuật học sâu. Với tên gọi LipNet, phần mềm này có thể làm tốt hơn hẳn những người đọc môi nhiều kinh nghiệm.
Trong các bài kiểm tra nhất định, phần mềm đạt đến độ chính xác đến 93,4%, nhưng những người đọc môi nhiều kinh nghiệm chỉ đạt được độ chính xác 52,3%. Và dù mới chỉ trong giai đoạn đầu của việc phát triển, phần mềm vẫn cực kỳ nhanh – nó có thể tạo ra các đoạn văn bản từ đoạn video im lặng gần như theo thời gian thực.
Mỗi đoạn clip chỉ có độ dài 3 giây, và mỗi câu đều theo một mẫu như sau: động từ ra lệnh, màu sắc, giới từ, chữ cái, chữ số, trạng từ. Ví dụ các câu sẽ như sau: “set blue by A four please”, hay “place red at C zero again.” Số lượng các từ trong những mẫu câu này cũng rất hạn chế: chỉ có 4 động từ mệnh lệnh và 4 màu sắc khác nhau được sử dụng.
Vì vậy, điều đó làm các nhà nghiên cứu trong lĩnh vực này cho rằng những phát hiện của tài liệu trên đã bị thổi phồng quá mức, đặc biệt là khi một tweet chứa đường dẫn đến đoạn video của các nhà nghiên cứu (dưới đây) đã làm những người quá mẫn cảm cho rằng, công trình này đã biến việc đọc môi trở thành “không còn gì bí mật.”
Chắc chắn nghiên cứu này chưa làm được điều đó. Trả lời phỏng vấn của The Verge, hai trong số các nhà nghiên cứu của công trình này, Yannis Assael và Brendan Shillingford đều sẵn sàng thừa nhận rằng họ đang làm việc với “số lượng từ ngữ và ngữ pháp rất hạn chế,” nhưng họ cho rằng điều này là do sự hạn chế của các dữ liệu hiện có. “Bộ dữ liệu còn tương đối nhỏ, nhưng nó là một dấu hiệu tốt cho thấy những gì chúng ta có thể làm được nếu có một bộ dữ liệu lớn hơn nhiều.” Assael cho biết.
Đừng quá lo về việc máy móc theo dõi con người
Đồng thời cả Assael và Shillingford đều nhấn mạnh rằng nghiên cứu của họ không thể ứng dụng vào việc giám sát mọi người trong thế giới thực, đơn giản bởi vì việc đọc môi đòi hỏi bạn phải nhìn thấy chuyển động lưỡi của chủ thể – điều này có nghĩa là đoạn video phải được hướng thẳng và rõ nét về phía người nói để có được kết quả tốt.
Theo Assael, “Đó là một điều bất khả thi về mặt kỹ thuật, hoặc ít nhất nó rất rất khó,” để có thể ứng dụng bất kỳ phần mềm đọc môi nào vào việc giám sát. Anh cũng bổ sung thêm rằng, tốc độ khung hình cũng là một yếu tố quan trọng, trong khi điều này thường bị bỏ qua với những chiếc camera CCTV.
“Nếu bạn có thể đặt một chiếc camera ngay trước mặt ai đó để có góc quay tốt, chắc chắn bạn cũng có thể đặt một chiếc micro hướng về phía họ để ghi âm, mà không cần đến phần mềm này.” Assael cho biết. (Về mục đích giám sát, Assael nhấn mạnh rằng, cho dù một trong những người giám sát dự án này đã làm việc với DeepMind, bộ phận AI của Google, nhưng bản thân công ty này lại không hứng thú với sự phát triển của LipNet).
“Bất cứ khi nào bạn có phần mềm nhận dạng giọng nói và một camera, chúng tôi đều có thể cải thiện khả năng nghe.” Assael cho biết. Ngoài ra, anh cũng đề cập đến tiềm năng ứng dụng khả năng đọc chính tả một cách im lặng này cho Siri hay Google Assistant. Do vậy, trong tương lai, có lẽ những người không thích việc nói chuyện với những chiếc máy tính, sẽ chỉ cần để chúng đọc được chuyển động môi của họ.