Trang chủ Thế kỷ của não bộ Công nghệ Tiết lộ góc khuất đằng sau thành công rực rỡ của OpenAI:...

Tiết lộ góc khuất đằng sau thành công rực rỡ của OpenAI: lệ thuộc vào một “mỏ vàng số” do Google nắm giữ

Đây cũng là thách thức khó khăn mà toàn ngành AI đang gặp phải khi phát triển các công cụ AI mới.

Trong khi mọi người đều đang hân hoan nói về các công cụ AI mới với khả năng thay đổi cuộc sống con người như thế nào trong tương lai, có một vấn đề mà mọi người đang bỏ qua, đó là nguồn gốc của những bộ dữ liệu làm nên các tính năng tuyệt vời này. Mới đây, một báo cáo của New York Times đã tiết lộ phần nào góc khuất của vấn đề này cũng như cách OpenAI tạo ra các tính năng hấp dẫn cho những công cụ AI của mình.

Mở đầu câu chuyện cho biết, OpenAI vào thời điểm năm 2021 đã trở nên cạn kiệt và vô cùng thèm khát dữ liệu, vì vậy đã phát triển nên một mô hình AI biên dịch âm thanh có tên Whisper để vượt qua trở ngại này. Mô hình này sau đó đã biên dịch hơn 1 triệu giờ các video trên YouTube – bao gồm cả để huấn luyện cho GPT-4, mô hình ngôn ngữ lớn tiên tiến nhất của họ lúc đó.

Tiết lộ góc khuất đằng sau thành công rực rỡ của OpenAI: lệ thuộc vào một "mỏ vàng số" do Google nắm giữ- Ảnh 1.

Theo báo cáo của New York Times, cho dù lúc đó OpenAI – bao gồm cả chủ tịch Greg Brockman – biết rằng điều này có thể gây ra các rắc rối pháp lý nhưng vẫn tiếp tục sử dụng nó vì cho rằng điều là phù hợp với mục đích sử dụng hợp lý.

Trả lời yêu cầu bình luận của The Verge, đại diện OpenAI Lindsay Held cho biết trong email rằng, công ty tinh chỉnh các bộ dữ liệu “duy nhất” cho mỗi mô hình AI của họ để “giúp chúng hiểu được thế giới hơn” và duy trì khả năng cạnh tranh trong nghiên cứu trên toàn cầu. Held cho biết, công ty sử dụng “nhiều nguồn dữ liệu khác nhau bao gồm cả các dữ liệu công khai và các dữ liệu không công khai của nhiều đối tác”, đồng thời họ cũng đang xem xét việc tạo ra dữ liệu tổng hợp cho riêng mình.

Trong khi đó, là công ty sở hữu nền tảng YouTube, Google cho rằng, công ty đã biết về “các báo cáo chưa được xác nhận” về hoạt động của OpenAI, cũng như bổ sung rằng “cả file robots.txt và Điều khoản Dịch vụ của chúng tôi đều cấm việc thu thập và tải xuống nội dung YouTube”. Trước đó, CEO YouTube, Neal Mohan cũng cho rằng nhiều khả năng OpenAI đã sử dụng YouTube để huấn luyện cho AI tạo sinh video Sora.

Chính vì vậy, đại diện Google Matt Bryant cho biết, công ty đang tiến hành “các biện pháp kỹ thuật và pháp lý” để ngăn chặn việc sử dụng trái phép dữ liệu “khi chúng tôi có bằng chứng kỹ thuật và pháp lý rõ ràng để làm điều đó”.

Tiết lộ góc khuất đằng sau thành công rực rỡ của OpenAI: lệ thuộc vào một "mỏ vàng số" do Google nắm giữ- Ảnh 2.

Không chỉ OpenAI, chính Google cũng khai thác các video YouTube làm nguồn dữ liệu huấn luyện cho AI của mình.

Báo cáo của NYT cho biết, không chỉ OpenAI, chính Google cũng thu thập các bản biên dịch âm thanh từ YouTube. Ông Bryant cho biết, Google đã huấn luyện một số mô hình của mình bằng dữ liệu từ “nội dung trên YouTube, theo như thỏa thuận giữa chúng tôi với các nhà sáng tạo nội dung YouTube”.

Cũng rơi vào tình cảnh tương tự như các đối thủ khác là hãng Meta, khi dù nắm trong tay nhiều mạng xã hội lớn nhất hành tinh cũng gặp nhiều hạn chế về việc có được nguồn dữ liệu chất lượng. Báo cáo của New York Times cho biết, nhóm AI của Meta đã thảo luận về việc tìm cách sử dụng bất hợp pháp các tài liệu có bản quyền trong nỗ lực để bắt kịp OpenAI.

Về phần Meta, sau khi họ xem qua “gần như toàn bộ các tài liệu bằng tiếng Anh bao gồm sách, tiểu luận, thơ ca và báo chí có sẵn trên internet”, đã cân nhắc thực hiện các bước đi như trả tiền mua giấy phép xuất bản sách hoặc mua lại một nhà xuất bản lớn. Các động thái này cho thấy, rõ ràng công ty cũng bị giới hạn bởi nguồn dữ liệu của người dùng sau vụ bê bối Cambridge Analytica.

Tiết lộ góc khuất đằng sau thành công rực rỡ của OpenAI: lệ thuộc vào một "mỏ vàng số" do Google nắm giữ- Ảnh 3.

Báo cáo cho thấy, toàn bộ ngành AI, bao gồm cả các công ty lớn như Google, OpenAI và Meta đều đang vật lộn với việc thiếu hụt dữ liệu. Thậm chí một báo cáo khác của Wall Street Journal cho thấy, nhiều khả năng toàn bộ nguồn dữ liệu trên internet sẽ bị các công ty tiêu thụ hết vào năm 2028, gây nên một thách thức nghiêm trọng cho toàn bộ ngành AI.

Một giải pháp khả thi vào lúc này là việc huấn luyện các mô hình AI dựa trên dữ liệu “tổng hợp” được tạo ra bởi chính các mô hình của họ – hay còn được gọi là kỹ thuật “học tập theo chương trình giáo dục”, bao gồm việc cung cấp cho các mô hình này dữ liệu chất lượng cao được sắp xếp theo thứ tự phù hợp. Các nhà nghiên cứu hy vọng rằng các dữ liệu này có thể sử dụng để tạo ra “các kết nối thông minh hơn giữa những ý tưởng” đồng thời tiêu thụ ít thông tin hơn, tuy nhiên các cách tiếp cận này vẫn chưa được chứng minh trong thực tế.

Chính vì vậy, cho đến giờ, lựa chọn phổ biến của nhiều công ty khác là sử dụng bất kỳ dữ liệu nào họ có được, cho dù được phép hay không. Với hàng loạt vụ kiện liên quan đến việc sử dụng dữ liệu vào năm ngoái, đây rõ ràng là một lựa chọn không dễ dàng gì cho họ.

Theo Đời Sống Pháp Luật

 

CÁC TIN KHÁC

Nhà vệ sinh tương lai, bồn cầu sẽ biết… bắt bệnh

Những chiếc gương và toilet có thể phát hiện bệnh sớm, các loại vật liệu lót sàn có khả năng đo lường nguy cơ ngã của người dùng, đó là những gì có thể sẽ sớm hiện diện trong các nhà vệ sinh cao cấp tương lai.

Điều gì biến Ấn Độ trở thành trung tâm thiết kế bán dẫn của thế giới?

Theo Chủ tịch Công ty bán dẫn Qualcomm chi nhánh Ấn Độ, quốc gia Nam Á đang và sẽ là trung tâm thiết kế chip với đội ngũ kỹ sư dồi dào.

Điều ít biết về người phát minh ra bút xóa

Ngày nay, chiếc bút xóa đã không còn xa lạ gì với mọi người. Tuy nhiên, ít ai biết được người phát minh ra nó lại chính là một phụ nữ.

Nghiên cứu cho thấy AI giúp con người cảm thấy được lắng nghe

Một nghiên cứu mới được công bố trong Kỷ yếu của Viện Hàn lâm Khoa học Quốc gia Mỹ đã phát hiện rằng tin nhắn do trí tuệ nhân tạo (AI) phản hồi mang lại cảm giác được lắng nghe nhiều hơn tin nhắn do một người có khả năng giao tiếp non nớt.

Khả năng cuộc cách mạng thiết bị AI ‘khai tử’ điện thoại thông minh

Tham vọng của Humane là khai tử điện thoại thông minh hoặc ít nhất là giảm nhu cầu thiết bị đang được coi là thứ không thể thiếu trong cuộc sống hiện đại này.

Những cỗ máy ‘có một không hai’ trong lịch sử

Một số cỗ máy kỳ lạ nhất từng được thiết kế và chế tạo trong lịch sử nhân loại, từ máy tính cổ nhất thế giới của người Hy Lạp tới máy bay cánh chim của Leonardo da Vinci.

Bài viết nổi bật

Đại học Sư phạm TP.HCM ‘bắt tay’ doanh nghiệp công nghệ Việt thúc đẩy chuyển đổi số

Theo hợp tác mới ký kết với Viettel Solutions, Đại học Sư phạm TP.HCM sẽ cùng doanh nghiệp này xây dựng các giải pháp công nghệ trong giáo dục tập trung vào 4 nội dung chính.

Nhóm sinh viên trường ĐH Ngoại thương giành giải ‘Olympic Kinh tế lượng và ứng dụng’

Ngày 12/6, tại Học viện Tài chính diễn ra Chung khảo Hội thi khoa học sinh viên toàn quốc 'Olympic Kinh tế lượng và ứng dụng' lần thứ VII, năm 2022. Ban Giám khảo đã chọn ra nhóm sinh viên ĐH Ngoại thương TP. Hồ Chí Minh giành giải Đặc biệt.

Bài viết mới nhất

TOP 100 Hồng bảo Kỷ lục Thế giới tại Việt Nam (P.57) Tháp Rùa (Hà Nội): Trái tim của hồ Gươm – [VIETKINGS-TOPPLUS đề cử]

(kyluc.vn) Nhắc đến Hà Nội, đến Hồ Gươm thì không thể không kể đến Tháp Rùa – biểu tượng ngàn năm văn hiến của thủ đô. Công trình kiến trúc tuy chỉ nhỏ bé này nhưng ẩn trong đó là những ý nghĩa lịch sử, dấu tích trường tồn với thời gian mà không một địa danh nào có thể thay thế được.

[WOWTIMES – VIETKINGS] Trường Đại học Giao thông vận tải – Tiên phong, chất lượng, trách nhiệm, thích ứng – Top 100 đơn vị trên 100 tuổi còn hoạt động tại Việt Nam 2024 – P.15

(nienlich.vn) Trường Đại học Giao thông vận tải tiền thân là Trường Cao đẳng Công chính Việt Nam được thành lập năm 1918, ngày 15/11/1945 trường được khai giảng lại dưới chính quyền cách mạng theo Sắc lệnh của Chủ tịch Hồ Chí Minh. Hiện nay trường có 2 cơ sở, trong đó trụ sở chính nằm tại số 3 phố Cầu Giấy, Láng Thượng, Đống Đa, Hà Nội và phân hiệu Thành phố Hồ Chí Minh tại 450-451 đường Lê Văn Việt, phường Tăng Nhơn Phú A, quận 9.

AI tạo ra “bản sao kỹ thuật số” của Trái đất giúp dự báo thiên tai với tốc độ siêu nhanh

Các nhà khoa học đã tạo ra một "bản sao kỹ thuật số" của Trái đất sử dụng trí tuệ nhân tạo (AI) để dự đoán sớm thiên tai, giúp hạn chế hậu quả nghiêm trọng của những thảm họa khí hậu có nguy cơ xảy ra trong tương lai.

TOP 5 sân khấu – nhà hát kịch lâu đời của Việt Nam thu hút nhiều khách tham quan – 50 TOP các điểm đến hấp dẫn của Việt Nam 2024 (P.9) – [VIETKINGS-TOPPLUS – Hành trình TOP Việt Nam]

(kyluc.vn) Văn học nghệ thuật nói chung và nghệ thuật sân khấu nói riêng là tấm gương phản chiếu của hiện thực đời sống, đồng thời là tiếng chuông cảnh tỉnh cho con người. Qua tác phẩm sân khấu, qua sự diễn xuất của diễn viên, những hoàn cảnh, những tình huống đã lột tả những tính cách, số phận của con người được tái hiện chân thực, sinh động, vừa mang tính cụ thể, lại vừa có tính khái quát cao. Các tác phẩm sân khấu có vị trí quan trọng trong việc chuyển tải các lý tưởng, nguyên tắc đạo đức tới mọi đối tượng một cách nhẹ nhàng, nhưng lại hết sức sâu sắc, góp phần xây dựng và phát triển nhân cách con người.

Luật sư, Doanh nhân Phạm Hồng Điệp lập cú đúp Kỷ lục Việt Nam và Kỷ lục Thế giới với hàng trăm bài thơ chủ đề quê hương đất nước được phổ nhạc

(Kyluc.vn - WorldKings.org) Vào tối ngày 28/04/2024, trong khuôn khổ Chương trình sử thi nghệ thuật “Khát vọng truyền nhân” được tổ chức tại Văn phòng Shinec, KCN Nam Cầu Kiền, TP. Hải Phòng, Luật sư,Doanh nhân Phạm Hồng Điệp đã đón nhận cùng lúc 02 Kỷ lục Việt Nam và 01 Kỷ lục Thế giới. Ông là tác giả của 143 bài thơ, trong đó, có 125 bài được nhiều nhạc sĩ phổ nhạc theo đa dạng thể loại mang âm hưởng truyền thống như Dân ca, Chèo, Xẩm… bên cạnh những dòng nhạc hiện đại như rap, pop...

Công ty CP Shinec lập Kỷ lục Việt Nam với khu công nghiệp đầu tiên xây dựng Không gian Văn hóa về Đại tướng Võ Nguyên Giáp

(kyluc.vn) Vào tối ngày 28/04/2024, trong khuôn khổ Chương trình Sử thi Nghệ thuật với chủ đề “Khát vọng Truyền nhân” được tổ chức tại Văn phòng Công ty Cổ phần Shinec, Khu công nghiệp Nam Cầu Kiền, TP.Hải Phòng, Công ty Cổ phần Shinec đã chính thức đón nhận Kỷ lục Việt Nam với “Khu công nghiệp đầu tiên tại Việt Nam xây dựng Không gian Văn hóa về Đại tướng Võ Nguyên Giáp.”