Wikipedia спростила доступ до своїх даних для розробників ШІ, щоб зменшити скрапінг

Wikipedia надала розробникам штучного інтелекту офіційний структурований набір даних для машинного навчання, щоб обмежити неконтрольоване автоматичне збирання інформації із сайту. Платформа Kaggle, яка належить Google, тепер хостить бетаверсію англомовного та франкомовного датасету зі статтями Wikipedia, призначеного для досліджень і навчання штучного інтелекту.
Цей крок спрямовано на боротьбу зі скрапінгом — автоматизованим збором даних із вебсторінок за допомогою ботів, які витягують вміст напряму з HTML-коду. Такий підхід створює надмірне навантаження на сервери Wikipedia, оскільки боти масово зчитують сторінки для тренування алгоритмів.
Новий набір даних доступний під відкритою ліцензією та містить короткі описи, структуру статей, інфоблоки, посилання на зображення та інші структуровані елементи, за винятком джерел і мультимедійних файлів. Формат — у вигляді JSON-файлів, зручних для машинного оброблення.
«Замість того, щоб парсити сирий HTML, тепер розробники можуть використовувати офіційно структуровану версію статей. Це допоможе знизити технічне навантаження на ресурси Wikipedia та спростить роботу з даними», — ідеться в заяві Wikimedia.
Партнерство з Kaggle має зробити ці дані доступнішими не лише для великих компаній, які мають контракти з Wikimedia, як-от Google або Internet Archive, а й для незалежних дослідників і стартапів.
«Коли спільнота машинного навчання потребує інструментів і тестів, вона звертається до Kaggle. Ми раді зробити ці дані відкритими та корисними», — зазначила представниця Kaggle Бренда Флінн.
Джерело: The Verge