Google презентувала Gemini 2.5 — тепер агент може самостійно працювати з браузером

Google презентувала Gemini 2.5 — тепер агент може самостійно працювати з браузером

Google анонсувала нову модель штучного інтелекту Gemini 2.5.  Тепер агент може самостійно працювати з браузером, виконуючи 13 основних дій: відкриття браузера, введення тексту, перетягування елементів, повернення на попередню сторінку, перехід на наступну сторінку, пошук, навігація, наведення курсора тощо.

Також модель здатна розуміти візуальні елементи на сторінці, як це робить людина. Наприклад, може правильно оцінити структуру інтерфейсу, зрозуміти, де потрібно натискати або вводити текст, щоб виконати завдання. Така здатність дозволяє використовувати модель для тестування інтерфейсів або для взаємодії з платформами, де немає доступу до API.

Агент не має доступу до повного комп’ютерного середовища  (тобто до операційної системи, локальних файлів, програмного забезпечення та інших ресурсів комп’ютера), що відрізняє його від інших моделей, таких як ChatGPT Agent. Це обмеження дозволяє Gemini 2.5 виконувати завдання лише в межах браузера. 

Gemini 2.5 доступна для розробників через сервіси Google AI Studio та Vertex AI. Також Google демонструє роботу цього агента на платформі Browserbase, де можна побачити, як AI виконує завдання.

Джерело: The Verge

Гнатюк Дмитро
Гнатюк Дмитро
• News Editor
Inweb
Працюю з текстами так, щоб складне ставало простим і зрозумілим. Швидко знаходжу потрібну інформацію, аналізую та перетворюю її на змістовний контент. Люблю структуру й чіткість, але залишаю місце для експериментів. Цікавлюся музикою, технологіями та культурою, шукаю способи подати їх так, щоб зачепити читача.
Більше цікавого