ChatGPT và GPT-4 có nguy cơ đối mặt với loạt vi phạm bản quyền liên quan đến các tác phẩm nổi tiếng
Theo bài viết được đăng trên The Register, một nhóm các chuyên gia bao gồm: Kent Chang, Mackenzie Cramer, Sandeep Soni và David Bamman, tại Đại học California, Berkeley, đã nghiên cứu sâu về ChatGPT của OpenAI và mô hình ngôn ngữ lớn GPT-4 và nhận thấy rằng họ được đào tạo từ các tác phẩm sách có bản quyền.
Trong bài báo được công bố với tiêu đề "Nói, ký ức: Khảo cổ học về những cuốn sách được biết đến với ChatGPT/GPT-4", các tác giả cho biết: “Chúng tôi thấy rằng các mô hình OpenAI đã ghi nhớ một bộ sưu tập lớn các tài liệu có bản quyền và mức độ ghi nhớ được gắn với tần suất các đoạn văn của những cuốn sách đó xuất hiện trên web”.
Nhóm đã xuất bản các đoạn mã và dữ liệu của mình trên GitHub cũng như danh sách các tác phẩm được xác định có thể được tìm thấy trong tệp Google Tài liệu này.
Theo kết quả nghiên cứu được công bố, ChatGPT và GPT-4 được phát hiện đã ghi nhớ các ấn phẩm nổi tiếng như sách dành cho trẻ em Harry Potter, Một chín tám tư của Orwell, Bộ ba Chúa tể của những chiếc nhẫn, sách Đấu trường sinh tử, Hướng dẫn về dải ngân hà của Hitchhiker, Fahrenheit 451, A Game of Thrones và Dune,... .
Các tác giả cho rằng, sở dĩ các tác phẩm khoa học viễn tưởng và giả tưởng được mô hình ngôn ngữ lớn tổng hợp nhiều bởi sự phổ biến của dòng văn học đó trên Internet.
Qua những gì được chỉ ra sau quá trình nghiên cứu, nhà nghiên cứu AI và chuyên gia đạo đức khoa học tại Hugging Face, Margaret Mitchell chia sẻ với The Register: “Việc quản lý dữ liệu vẫn còn rất non nớt trong đối với lĩnh vực học máy".
"'Đừng tin vào dữ liệu đào tạo của bạn' là một lời cảnh báo luôn gặp trong lĩnh vực học máy. Đây cũng là thông điệp mang hàm ý nhắc nhở người dùng cần phải có trách nhiệm kiểm duyệt các thông tin đầu vào của các công cụ trí tuệ nhân tạo trong mọi trường hợp để đảm bảo tính chính xác và tính tuân phủ các quy định về pháp lý.
Để làm rõ cho vấn đề trên, các nhà khoa học đến từ Berkley mong đợi phía OpenAI có thể công bố các dữ liệu đào tạo, tức dữ liệu đầu ra đã nạp vào AI. Tuy nhiên phía công ty này vẫn chưa có phản hồi cụ thể.
Trí tuệ nhân tạo, vùng đất sáng tạo tự do, nơi khởi nguồn của các tranh cãi vi phạm bản quyền
Sau khi nghiên cứu này được công bố, Tyler Ochoa, Giáo sư khoa Luật tại Đại học Santa Clara ở California, nói với The Register rằng ông hoàn toàn mong đợi các vụ kiện chống lại các nhà sản xuất mô hình ngôn ngữ lớn tạo ra văn bản, bao gồm OpenAI, Google và những người khác.
Ochoa cho biết các vấn đề bản quyền liên quan tới việc tạo văn bản AI hoàn toàn giống với các vấn đề liên quan tới việc tạo hình ảnh AI.
Đầu tiên: Việc sao chép một lượng lớn văn bản hoặc hình ảnh để đào tạo các mô hình học máy có phải là hoạt động hợp pháp không? Câu trả lời cho điều đó, ông nói, có lẽ là có.
Thứ hai: Nếu mô hình tạo ra đầu ra của trình tạo văn bản AI quá giống với đầu vào – điều được giới truyền thông nhắc đến với cụm từ gọi là "ghi nhớ" - thì đó có phải là hành vi vi phạm bản quyền không? Ông nói, câu trả lời gần như chắc chắn là có.
Và thứ ba: Nếu đầu ra của trình tạo văn bản AI không phải là bản sao của văn bản hiện có, thì nó có được bảo vệ bản quyền không?
Theo luật hiện hành, Ochoa cho biết, câu trả lời là không – bởi vì luật bản quyền của Hoa Kỳ yêu cầu sự sáng tạo của con người, mặc dù một số quốc gia sẽ không đồng ý và sẽ bảo vệ các tác phẩm do AI tạo ra. Tuy nhiên, ông nói thêm, các hoạt động như lựa chọn, sắp xếp và sửa đầu ra của mô hình AI khiến việc bảo vệ bản quyền trở nên hợp lý hơn.
Ochoa cho biết: “Cho đến nay chúng tôi đã chứng kiến các vụ kiện về vấn đề một và ba nói trên. "Các vụ kiện cho đến nay đều liên quan đến các mô hình tạo hình ảnh AI, nhưng các vụ kiện chống lại các mô hình tạo văn bản AI là không thể tránh khỏi.
"Chúng tôi chưa thấy bất kỳ vụ kiện nào liên quan đến vấn đề thứ hai. Bài báo từ các nhà nghiên cứu của UC Berkeley chứng minh rằng sự giống nhau như vậy là có thể; và theo tôi, khi điều đó xảy ra, sẽ có các vụ kiện và gần như chắc chắn sẽ cấu thành hành vi vi phạm bản quyền".
Ochoa nói thêm, "Việc chủ sở hữu mô hình phải chịu trách nhiệm pháp lý hay người sử dụng mô hình phải chịu trách nhiệm pháp lý hoặc cả hai, tùy thuộc vào mức độ mà người dùng phải nhắc nhở hoặc khuyến khích mô hình đạt được kết quả".
Về cơ bản, ở thời điểm hiện tại, việc các tác phẩm hình ảnh được tạo nên bởi các mô hình AI sẽ dễ dàng hơn so với việc đăng ký bản quyền cho các văn bản do công cụ trí tuệ nhân tạo sản xuất.