Giống như một người lắng nghe một cuộc trò chuyện tại một bữa tiệc nhộn nhịp, một trí tuệ nhân tạo (AI) mới có thể loại bỏ tiếng ồn làm nền trong các đoạn băng để nghe xem một người cụ thể trên hình đang nói gì.
Con người vốn rất giỏi tập trung vào những giọng nói cụ thể giữa tiếng ầm ĩ – hiện tượng được biết đến là hiệu ứng tiệc cocktail. Nhưng cho đến nay, những chương trình được thiết kế để nghe những người nói cụ thể trong các đoạn băng âm thanh ồn ào rất vất vả để chọn lọc âm thanh cần thiết. AI mới được thiết kế để sử dụng cả gợi ý hình ảnh và âm thanh, như chuyển động miệng, để phân biệt âm thanh được tạo ra bởi những người nói khác nhau trong băng hình.
Google đã phát triển một AI có thể chọn ra giọng nói của ai đó trong một căn phòng ồn ào. Bằng cách nhìn vào khuôn mặt của mọi người khi họ đang nói, công ty đã huấn luyện một cỗ máy để phát hiện ra từng người khi họ nói chuyện và cô lập giọng nói của họ chống lại tiếng ồn xung quanh.
Các nhà nghiên cứu ở Google đã thử nghiệm AI của họ bằng những đoạn băng giống tiệc cocktail có hai hay ba người đang nói chuyện với nhau, với nhiều mức độ của tiếng ồn ở nền. Bằng việc xem là lắng nghe các đoạn băng, AI mới có thể phân biệt âm thanh nào là của người nào với độ chính xác cao hơn nhiều một thuật toán tương tự chỉ nghe âm thanh.
AI này, sẽ được ra mắt vào tháng tám năm 2018 tại hội nghị SIGGRAPH ở Vancouver, có thể được sử dụng để thuyết minh các đoạn băng chính xác hơn hệ thống phiên âm hiện tại. Shmuel Peled, một nhà khoa học máy tính tại Đại học Hebrew của Jerusalem, cho biết, một phiên bản tương lai nhanh hơn của chương trình này có thể lọc tiếng ồn nền từ các đường truyền video trực tiếp có thể giúp mọi người nghe tiếng nhau rõ hơn trong các hội nghị từ xa.
Hơn nữa, Jen-Cheng Hou, một kĩ sư tại Trung tâm nghiên cứu Cải cách Công nghệ Thông tin, Học viện Sinica, Đài Loan, cho hay, loại AI này có thể giúp các trợ lí ảo nghe giọng của chỉ huy rõ ràng hơn.