Sơ đồ đại diện cho việc học máy
Một nhóm các nhà nghiên cứu đã đào tạo một rô-bốt có thể nhặt các vật thể mới mà nó chưa từng thấy trước đó.
Đó là một nhiệm vụ bình thường đối với con người nhưng là một nhiệm vụ vô cùng phức tạp đối với máy móc. Khi mọi người tiếp cận lấy một cái cốc, cảm giác thông thường là giữ nó bằng tay cầm của nó – nó không quan trọng nếu cái cốc là thẳng đứng, lộn ngược, hoặc nghiêng. Nhưng đối với rô bốt thì khó khăn hơn nhiều, chúng có thể bị nhầm lẫn bởi các hướng khác nhau hoặc bị phân tâm bởi những thứ như nền hoặc điều kiện ánh sáng.
Các nhà nghiên cứu tại Viện Công nghệ Massachusetts (MIT) đã xây dựng một hệ thống nơi bạn có thể điều khiển robot để nắm bắt đối tượng tại một điểm cụ thể. Trong các thí nghiệm, các nhà nghiên cứu chơi với ba đối tượng: giày, mũ và cốc. Họ đào tạo robot để lấy chiếc giày bằng lưỡi của nó, mũ bằng vành của nó, và cốc bằng tay cầm của nó.
'Nhiều phương pháp tiếp cận thao tác không thể xác định các phần cụ thể của một đối tượng trên nhiều hướng mà đối tượng có thể gặp phải', Lucas Manuelli, đồng tác giả của nghiên cứu trên arXiv và nghiên cứu sinh tại MIT cho biết.
Mạng lưới đối tượng dày đặc (Dense Object Nets)
Sau khi robot được đào tạo, nó học cách lấy tất cả giày bằng lưỡi của nó ngay cả khi nó không thấy chiếc giày chính xác đó trước đây. Tại trung tâm của robot là một hệ thống thị giác máy tính được tạo thành từ các mạng nơ-ron xoắn ốc được gọi là Dense Object Nets (DON).
Đầu tiên, một máy ảnh gắn với cánh tay robot xoay quanh và di chuyển qua giày để quét nó theo các hướng khác nhau. Điều này tạo ra một video mà từ đó ảnh tĩnh có thể được phân tích. Mục đích là tạo ra những gì mà các nhà nghiên cứu gọi là “mô tả trực quan dày đặc”.
Tiếp theo, các pixel riêng lẻ từ các ảnh được chụp từ ảnh tĩnh được chuyển đổi thành các vectơ mô tả Các thuộc tính của đối tượng, giống như hình dạng tổng thể, định hướng hoặc màu sắc, các vectơ này tạo ra các 'hình ảnh mô tả'. Chúng có thể xuất hiện mờ, nhưng chúng chứa thông tin về tất cả các pixel khác nhau tạo nên đối tượng.
Trò chơi của chiếc cốc
Bây giờ, các nhà nghiên cứu có thể chọn các điểm ảnh tương ứng với lưỡi giày lấy từ hình ảnh của máy ảnh. Ánh xạ giữa các hình ảnh máy ảnh và hình ảnh mô tả, cho phép robot di chuyển con trỏ của nó sang lưỡi hoặc tay cầm của đôi giày, để chọn chúng.
Mất khoảng 20 phút để rô-bốt đào tạo trên một vật thể mới, quét nó ở các góc khác nhau để tạo ra các hình ảnh mô tả. “Chúng tôi quan sát rằng các mô tả phù hợp mặc dù có sự khác biệt đáng kể về màu sắc, kết cấu, biến dạng và thậm chí ở một mức độ nào đó. Các yêu cầu đào tạo là hợp lý khiêm tốn, chỉ có sáu trường hợp mũ được sử dụng để đào tạo nhưng các mô tả tổng quát tốt cho mũ không nhìn thấy, bao gồm một chiếc mũ màu xanh, một màu sắc không bao giờ quan sát thấy trong quá trình đào tạo ”.
Robot cũng có thể được huấn luyện để phân tích nhiều đối tượng trong cùng một cảnh. Nó có thể chọn ra một chiếc mũ cụ thể trong một loạt các mũ, mặc dù không bao giờ nhìn thấy những chiếc mũ đó trong quá trình đào tạo trước đây.
Chọn vật thể chỉ là bước đầu tiên cố gắng để robot có thể thực sự làm những việc hữu ích. Mục tiêu tiếp theo là thử và đào tạo robot để lấy một vật lên để thực hiện một nhiệm vụ đơn giản, chẳng hạn như sử dụng một miếng vải để lau chùi bàn làm việc. ®