Meta Diduga Latih AI Menggunakan Buku Bajakan
Meta memiliki serangkaian model AI sendiri, yaitu Llama. Seperti perusahaan lainnya, Meta melatih Llama menggunakan set data dengan sejumlah besar informasi yang tersedia di internet. Namun, ada sekelompok penulis yang menggugat Meta karena diduga menggunakan buku-buku bajakan untuk melatih model AI mereka. Menurut Android Headlines, Rabu (15/1/2025), penulis seperti Ta-Nehisi Coates, komedian Sarah Silverman, dan lainnya mengklaim bahwa Meta menggunakan dataset yang berisi konten dari buku-buku yang dicuri.
Tidak hanya itu, CEO Meta, Mark Zuckerberg, diyakini mengetahui bahwa dataset tersebut berisi buku-buku bajakan sebelum memberikan persetujuannya untuk digunakan dalam pelatihan Llama. Dokumen-dokumen terkait gugatan ini dipublikasikan pada pertengahan minggu ini. Kasus ini, yang diajukan di pengadilan federal California, bermula dari kasus sebelumnya yang ditolak tahun lalu oleh Hakim Distrik AS Vince Chhabria.
Pada awalnya, penulis mengklaim bahwa Meta AI telah melanggar hak cipta mereka. Gugatan asli juga menuduh bahwa Meta AI menghapus informasi manajemen hak cipta (CMI) dari konten buku mereka. Namun, kelompok penggugat baru-baru ini menemukan bukti bahwa Zuckerberg menyetujui penggunaan dataset LibGen oleh Meta meskipun tim eksekutif AI Meta dan yang lainnya di perusahaan meragukan keabsahan dataset tersebut.
LibGen adalah dataset untuk pelatihan AI yang berisi sekitar 32 TB konten buku dari berbagai genre, termasuk buku ilmiah. Para penggugat meyakini bahwa temuan baru mereka mendukung klaim sebelumnya dan bahkan dapat menambah klaim penipuan komputer baru ke dalam gugatan mereka.
Hakim Chhabria akan memperbolehkan para penggugat untuk menyajikan bukti baru dalam pengaduan yang telah diubah. Namun, dia juga menyatakan keraguan bahwa gugatan tersebut akan berhasil bagi para penulis. Dalam hal ini, penulis harus memastikan bahwa argumen dan bukti yang disajikan cukup kuat untuk mendukung klaim mereka.
Kasus ini menunjukkan betapa pentingnya kejujuran dan etika dalam pengembangan teknologi AI. Penggunaan dataset yang sah dan legal sangat diperlukan untuk memastikan bahwa model AI yang dilatih tidak melanggar hak cipta orang lain. Hal ini juga menyoroti perlunya transparansi dan akuntabilitas dalam praktik bisnis perusahaan teknologi besar seperti Meta.
Diharapkan bahwa kasus ini dapat menjadi pembelajaran bagi perusahaan lain agar lebih berhati-hati dalam menggunakan data untuk melatih model AI mereka. Kepercayaan publik dan integritas industri teknologi sangat penting untuk memastikan perkembangan teknologi yang berkelanjutan dan bertanggung jawab. Semoga kasus ini dapat diselesaikan dengan adil dan transparan demi kebaikan semua pihak yang terlibat.