Microsoft випустила ASSERT — інструмент для перевірки поведінки ШІ-агентів під конкретні бізнес-завдання

Microsoft випустила ASSERT — інструмент для перевірки поведінки ШІ-агентів під конкретні бізнес-завдання

Microsoft представила новий open-source фреймворк ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing), який допомагає компаніям перевіряти, чи працюють ШІ-агенти відповідно до вимог конкретного продукту або сервісу.

Сьогодні багато компаній уже тестують моделі на безпеку, відповідність політикам і якість відповідей. Проте на практиці бізнесу часто потрібно перевіряти інші речі: чи не порушує агент внутрішні правила, чи правильно працює з корпоративними даними та чи виконує завдання в межах визначених процесів.

ASSERT автоматизує цей процес. Розробник описує бажану поведінку системи звичайною мовою, а інструмент сам формує набір тестів, сценаріїв і критеріїв оцінки. Після цього він запускає перевірки та оцінює результати.

Наприклад, компанія може вказати, що ШІ-агент для роботи з документами не має надсилати листи за межі організації, повинен показувати конфіденційну інформацію лише керівникам і формувати короткі підсумки з урахуванням попереднього контексту. ASSERT автоматично створить тести для перевірки цих вимог.

Інструмент також фіксує проміжні дії системи, виклики зовнішніх сервісів і послідовність рішень. Це допомагає розробникам швидше знаходити причини помилок і порушень.

За словами головної директорки з продуктів напрямку відповідального ШІ в Microsoft Sarah Bird, компанії дедалі частіше стикаються з потребою оцінювати не лише саму модель, а й її поведінку в конкретному бізнес-контексті. Саме для цього і створили ASSERT.

Для маркетологів, ecommerce-команд і бізнесу загалом це сигнал про новий етап розвитку ШІ-агентів. Якщо раніше головним питанням була якість відповідей моделі, то тепер компанії все більше уваги приділяють контролю її дій у реальних процесах: роботі з клієнтами, доступу до даних, автоматизації продажів і внутрішніх операцій.

Поява таких інструментів свідчить про те, що ринок поступово переходить від експериментів із ШІ до системного управління його роботою та ризиками. Нові підходи до тестування стають важливою частиною впровадження ШІ в бізнес-процеси.

Джерело: TechCrunch

Гнатюк Дмитро
Гнатюк Дмитро
• News Editor
Inweb
Працюю з текстами так, щоб складне ставало простим і зрозумілим. Швидко знаходжу потрібну інформацію, аналізую та перетворюю її на змістовний контент. Люблю структуру й чіткість, але залишаю місце для експериментів. Цікавлюся музикою, технологіями та культурою, шукаю способи подати їх так, щоб зачепити читача.
Більше цікавого