Apple изучает, как с помощью ИИ и данных со звуковых датчиков определять действия пользователя. Новое исследование компании показывает, как большие языковые модели (LLM) анализируют звуки и движения, чтобы понять, чем вы заняты — моете посуду, играете в футбол или работаете за компьютером. Этот подход может сделать будущие устройства Apple еще умнее и полезнее. Как это работает без камер и прослушки Ключевая особенность технологии — сохранение конфиденциальности. Искусственный интеллект анализирует не сами аудиозаписи, а их текстовые описания, которые создают другие, более простые модели. Эти описания объединяются с данными от датчиков движения смартфона — акселерометра и гироскопа. Такой метод, назван - поздним слиянием и он позволяет системе делать точные выводы о происходящем, не вторгаясь в личное пространство пользователя. Результаты эксперимента Для проверки своей гипотезы исследователи использовали набор данных Ego4D, который содержит тысячи часов видео от первого лица. Они отобрали 12 видов повседневной активности, включая уборку пылесосом, приготовление пищи, чтение и занятия спортом. Что это значит для нас Это исследование открывает путь к созданию более интеллектуальных и контекстно-ориентированных систем для мобильных и носимых устройств. Технология может улучшить работу фитнес-трекеров или систем мониторинга здоровья, делая их более точными и отзывчивыми к действиям пользователя. Такой подход не требует больших вычислительных ресурсов, что делает его идеальным для внедрения в будущие гаджеты.