The Atlantic відкрив базу пісень, які використовують для навчання ШІ

The Atlantic відкрив базу пісень, які використовують для навчання ШІ

Журнал The Atlantic створив відкриту пошукову базу даних музичних творів, які можуть використовуватися для навчання моделей штучного інтелекту. Проєкт підготував журналіст Алекс Райснер, який раніше досліджував джерела даних для тренування ШІ.

До бази увійшли чотири музичні датасети. Два з них містять близько 12 мільйонів і 9 мільйонів треків відповідно. Ще два набори менші, але також охоплюють понад 100 тисяч композицій кожен.

За даними Райснера, ці набори даних завантажували тисячі разів. Хоча неможливо точно визначити всіх, хто їх використовував, у наукових роботах про роботу з такими даними згадували Google та Stability AI.

Частина музики походить із відкритих каталогів на кшталт Free Music Archive. Такі записи часто можна слухати безплатно для особистого використання, однак комерційне застосування потребує окремої ліцензії.

Райснер також звернув увагу на спосіб формування деяких датасетів. Три з чотирьох наборів містять не самі аудіофайли, а посилання на композиції з платформ YouTube та Spotify. Розробники можуть автоматично завантажувати ці записи за допомогою спеціальних інструментів, які обходять авторизацію, рекламу або інші механізми монетизації. За словами журналіста, такі методи порушують правила використання платформ.

У списках треків можна знайти композиції від Lady Gaga, Fred again.., Radiohead, Aphex Twin, Wu-Tang Clan, Bruce Springsteen та експериментального композитора Hainbach.

Проєкт став черговим прикладом дискусії навколо авторських прав і джерел даних для навчання генеративного ШІ. Він дозволяє музикантам, правовласникам і дослідникам перевірити, чи присутні їхні твори серед матеріалів, які можуть використовуватися для тренування моделей.

Джерело: The Verge

Гнатюк Дмитро
Гнатюк Дмитро
• News Editor
Inweb
Працюю з текстами так, щоб складне ставало простим і зрозумілим. Швидко знаходжу потрібну інформацію, аналізую та перетворюю її на змістовний контент. Люблю структуру й чіткість, але залишаю місце для експериментів. Цікавлюся музикою, технологіями та культурою, шукаю способи подати їх так, щоб зачепити читача.
Більше цікавого