Google показала ряд ИИ-новинок на I/O 2023
Компания Google на конференции для разработчиков I/O 2023 представила новые ИИ-функции для своих сервисов.
Мультимодальная модель PaLM 2
Google представила обновленную версию языковой модели PaLM 2, которую теперь называют мультимодальной. Разработчики не раскрыли технические подробности алгоритма.
Однако они отметили, что модель обучалась на основе архитектуры Google JAX и TPU v4. Также они использовали корпуса научных текстов, что делает PaLM 2 более производительной в решении математических и логических задач, утверждают в компании.
Модель получила улучшенные возможности для генерирования кода. PaLM 2 обучалась на 20 языках программирования, включая JavaScript и Python.
Кроме этого, при разработке алгоритма использовались корпуса текстов на 100 языках. В компании утверждают, что это улучшит работу модели в «мультиязычных задачах».
PaLM 2 уже доступна через API, а также в сервисах Colab и Firebase.
Чат-бот Bard
Диалоговый ИИ Bard теперь работает на мультимодальной модели PaLM 2. Теперь чат-бот умеет обрабатывать изображения и предоставлять их в ответах. Также Bard научился работать с картами и формировать таблицы.
Разработчики заявили, что в скором времени инструмент получит поддержку расширений. Среди анонсированных указаны собственные сервисы Google вроде «Документов», «Таблиц» и «Почты». Среди сторонних партнеров — генератор картинок Adobe Firefly и база знаний Wolfram Alpha.
Кроме этого, разработчики расширили возможности программирования Bard с помощью «Объектива» и добавили возможность экспортировать код Python в Replit.
Также Google отменила список ожидания для чат-бота и открыла доступ к нему в 180 странах. Пока что инструмент поддерживает английский, корейский и японский языки, однако в ближайшем будущем компания расширит их число до 40, включая русский и украинский.
Google Search
Во время презентации компания продемонстрировала интегрированный диалоговый ИИ непосредственно в окно поиска. Такой подход позволит пользователям быстрее разобраться в теме, открыть новые точки зрения и удобнее изучать информацию, считают разработчики.
Компания привела пример, как новый поиск может обработать сложный запрос вроде «что лучше для семьи с ребенком до трех лет и собакой: Каньон Брайс или национальный парк Арки».
В результате генеративный ИИ предоставил синтезируемый обзор запрашиваемых мест, а также ссылки на дальнейшие исследования.
После этого поисковик предложит следующие шаги или посоветует уточнить запрос, перейдя в режим диалога. При этом система запоминает весь контекст беседы.
Разработчики показали потенциал нового поиска при совершении покупок. Инструмент может найти продукт, сравнить его с другими предложениями и помочь пользователю с выбором.
Генеративный ИИ формирует краткий обзор важных факторов, которые стоит учесть при покупке, а также соответствующие предложения.
Функция базируется на базе данных Shopping Graph, которая содержит более 35 млрд товаров.
Пока что функция доступна в экспериментальном приложении Search Labs для iOS и Android, а также для пользователей Google Chrome на ПК в США.
Duet AI for Workspace
Набор инструментов Duet AI позволят пользователям Workspace использовать генеративный ИИ в офисных приложениях:
- Написание текстов в «Документах» и Gmail;
- Анализ и заполнение таблиц в «Таблицах»;
- Генерирование изображений и суммирование презентаций в «Слайдах»;
- Автоматическое резюмирование видеовстреч в Meet.
Разработчики отдельно отметили важность функции Help me write для мобильных устройств. По их словам, с ее помощью пользователи смогут быстро создавать большие тексты без использования полноценной клавиатуры в приложениях «Документы» или Gmail.
Также компания представила функцию Sidekick, которая представляет собой боковую панель для анализа открытого документа. Она может отвечать на вопросы на основе контента и формировать предложения.
Часть функций уже доступна зарегистрированным пользователям Workspace Labs. Также компания открыла список ожидания для всех желающих.
Ответственный ИИ
Часть выступления компания посвятила подходу по созданию ответственного ИИ. Одним из нововведений в «Поиске» станет маркировка изображений, сгенерированных алгоритмами.
Также компания начнет предоставлять информацию о том, когда и на каком ресурсе впервые появился запрашиваемый снимок. По задумке инженеров Google, это может привести пользователей на сайты по проверке фактов и помочь им разобраться с достоверностью изображений.
Функции начнут разворачивать в ближайшие недели.
Android 14
Следующая версия мобильной ОС Android 14 также получит ряд ИИ-функций. Среди них — генератор обоев для рабочего стола и экрана блокировки.
Пользователи смогут создавать изображения из эмодзи, выбирая необходимые символы и цветовую палитру. При этом смайлики будут реагировать на касания.
Функция Cinematic Wallpapers позволяет создавать 3D-обои из фотографий пользователя. Искусственный интеллект автоматически проанализирует выбранное изображение и сгенерирует глубину с эффектом параллакса.
Также разработчики анонсировали функцию генерирования обоев по текстовому описанию.
Cinematic Wallpapers появится на устройствах Pixel в июне, а генеративные обои — осенью 2023 года.
Кроме этого, Android 14 получит ряд улучшений в области безопасности и кастомизации экрана блокировки. Бета-версия ОС уже доступна для устройств Pixel и небольшого числа вендоров. Финальный релиз запланирован на август-сентябрь 2023 года.
Устройства Pixel
Во время презентации Google показала несколько новых устройств из линейки Pixel. Среди них:
- бюджетный смартфон Pixel 7a;
- планшет с док-станцией Pixel Tablet;
- сгибаемый смартфон Pixel Fold.
Все три устройства построены на базе чипа собственной разработки Google Tensor G2. В компании отметили, что владельцам новых устройств будут доступны все функции, представленные на осенней конференции с анонсом Pixel 7.
Pixel 7a уже продается по цене от $499. Pixel Tablet и Pixel Fold доступны для предзаказа, а отгрузка состоится в июне. Стоимость устройств — от $499 и $1799 соответственно.
Прочие новинки
Помимо этого, компания представила ряд новинок для других приложений и сервисов:
- список ожидания для сервиса по генерированию музыки из текстового описания MusicLM;
- эффект погружения при прокладке маршрутов в «Картах»;
- Magic Editor в приложении «Фотографии» для дорисовывания изображений с помощью ИИ;
- технология автоматического дубляжа видео;
- генеративный ИИ для упрощения публикации приложений в «Play Маркет»;
- Project Starline для создания 3D-изображений людей;
- поддержка WebGPU в Chrome для ускорения работы веб-приложений с ИИ.
Напомним, в апреле Google объединила Brain и DeepMind в одну команду.