The Atlantic відкрив базу пісень, які використовують для навчання ШІ
Журнал The Atlantic створив відкриту пошукову базу даних музичних творів, які можуть використовуватися для навчання моделей штучного інтелекту. Проєкт підготував журналіст Алекс Райснер, який раніше досліджував джерела даних для тренування ШІ.
До бази увійшли чотири музичні датасети. Два з них містять близько 12 мільйонів і 9 мільйонів треків відповідно. Ще два набори менші, але також охоплюють понад 100 тисяч композицій кожен.
За даними Райснера, ці набори даних завантажували тисячі разів. Хоча неможливо точно визначити всіх, хто їх використовував, у наукових роботах про роботу з такими даними згадували Google та Stability AI.
Частина музики походить із відкритих каталогів на кшталт Free Music Archive. Такі записи часто можна слухати безплатно для особистого використання, однак комерційне застосування потребує окремої ліцензії.
У списках треків можна знайти композиції від Lady Gaga, Fred again.., Radiohead, Aphex Twin, Wu-Tang Clan, Bruce Springsteen та експериментального композитора Hainbach.
Проєкт став черговим прикладом дискусії навколо авторських прав і джерел даних для навчання генеративного ШІ. Він дозволяє музикантам, правовласникам і дослідникам перевірити, чи присутні їхні твори серед матеріалів, які можуть використовуватися для тренування моделей.
Джерело: The Verge