8 важных анонсов с Google I/O

Ежегодная конференция для разработчиков от Google — большое событие, как для собственно разработчиков, так и для рядовых пользователей, которые жаждут узнать как можно больше о грядущих обновлениях и новых опциях, которыми их порадует поисковый гигант. Как и ожидалось, практически все нововведения, представленные на презентации, в той или иной мере связаны с ИИ.

Project Astra — универсальный помощник

Project Astra — мультимодальный ассистент, который может быть встроен в смартфон или смарт — очки. Используя камеру устройства пользователя, он оценивает окружение и может отвечать на вопросы владельца. На опубликованном Google ролике, можно увидеть, как ассистент “опознает” колонку, как устройство, способное издавать звук, правильно интерпретирует фрагмент кода, а по виду из окна безошибочно угадывает местоположение пользователя. Стоит отметить, что перед нами лишь ранняя версия ассистента и его конечные сроки выхода не озвучены.

Gemini Live

Описанный выше Project Astra станет основой для другого проекта Google, Gemini Live. Этот алгоритм объединяет фирменного Google Assistant с возможностями Google Lens, расширяя их функциональность при помощи современных ИИ-моделей. С Gemini Live можно будет вести естественные диалоги, он сумеет подстраиваться под речь пользователя, бота можно будет прерывать и задавать ему уточняющие вопросы.
В ответах бот может учитывать ваше окружение, а также фото и видео, снятые смартфоном. Большое диалоговое окно позволяет боту “запоминать” большой объем информации и учитывать ее при генерации ответа.
Алгоритм будет доступен пользователям расширенной платной подписки.

Борьба со скамом с Gemini Nano

Как помнят наши читатели, Gemini Nano — самая маленькая модель в своем семействе, благодаря чему она может работать на устройстве автономно. Теперь она сможет оценивать входящие телефонные звонки и предупреждать вас о мошеннических схемах.
По понятным причинам, алгоритм получит доступ к вашим телефонным разговорам, однако стоит отметить, что данные не будут передаваться на сервера Google, ведь модель работает локально.

Gemini 1.5 Flash

Фирменный виртуальный ассистент становится лучше. Как уже понятно из названия модели, к новом поколении сделан акцент на ускоренную обработку данных. Более того, модель специально оптимизирована для “узких, приоритетных задач, где требуется низкая задержка”. В частности, это задачи, связанные с общением с клиентами и требующие ответов в режиме реального времени.
Контекстное окно модели — 1 миллион токенов, а значит ответ бота будет более содержательным.

Gemini 1.5 Pro

Если моментальные ответы не требуются, лучше обратить внимание на Gemini 1.5 Pro. Эта модель способна анализировать большие объемы данных и обобщать их. Модель будет доступна пользователям в фирменной Google Workspace, у нее теперь также используется контекстное окно в 2 млн токенов. Обратиться к ассистенту можно будет из боковой панели в веб-приложениях Gmail, Drive и Docs.

Gemini в Gmail

В контексте электронной почты, ИИ сможет искать нужную информацию в самих письмах и во вложениях к ним, а также формулировать подходящие варианты ответов (функция Help Me Write). Важное преимущество ИИ в том, что он сможет быстро “просматривать” цепочки писем и находить ответы на вопросы своего пользователя, а значит, вам не придется изучать длинные переписки в поисках нужного тезиса.
Если по работе вы часто получаете много однотипных коммерческих предложений, вам также понравится возможность Gemini автоматически сводить их в единую таблицу. Помощник также может заняться сортировкой вложений и их организацией в вашем облачном хранилище.
Эта опция будет относится к платному пакету Google AI Premium и станет доступна в конце 2024 года.

Google Veo

Новая модель станет ответом на недавно представленную OpenAI Sora, как и конкурент, она способна генерировать видео по текстовому описанию. Кроме того, вы можете “скормить” ей собственные изображения и видео, которые нейронка будет использовать с генерируемом ролике. Как отметили в Google, алгоритм понимает естественный язык, знает необходимые кинематографические термины, такие как замедленная съемка и “съемка пейзажа с воздуха” и способен учитывать дополнительные пользовательские подсказки.
Пока алгоритм находится в тестовом режиме и доступен только ограниченному кругу пользователей-создателей контента. Сейчас он генерирует ролики в формате Full HD продолжительностью около минуты.

Google Imagen 3

Генератор изображений от поискового гиганта также получил ряд улучшений. Новая версия лучше понимает текстовые запросы и реже ошибается. Для борьбы с дипфейками в в изображения, созданные Imagen 3, встраиваются невидимые глазу криптографические водяные знаки.

Что еще?

Анонсирована Google Gemma 2 — открытая ИИ-модель с 27 млрд параметров, ее запуск ожидается в июне.
Circle to Search на Android, которая стартовала как эксклюзивная для Galaxy S24 или Pixel 8, теперь встроена непосредственно в ОС, а значит доступна широкому кругу пользователей.
Поиск Google теперь также использует ИИ, чтобы давать точные ответы даже на длинные конкретизированные запросы пользователей.
AI Overviews (ИИ-обзоры) умеют превращать большие материалы в короткие сводки основных фактов, пока функция доступна только в США.
Gemini Nano придет в Chrome, где языковая модель может будет использоваться для помощи в написании писем, отзывов и с переводом.

А что показалось самым интересным на конференции нашим читателям? Делитесь впечатлениями о нововведениях Google в комментариях и подписывайтесь на наш Telegram-канал.