В начале октября «Яндекс» представил «умную колонку», получившую название «Яндекс.Станция Мини». Новое устройство явно дает понять, что компания нацелена на максимально широкое распространение своего голосового помощника: оно получило массу любопытных функций, а главное — сравнительно низкую цену. Дополнительно интерес к нему подогревается с помощью масштабных маркетинговых акций.
На следующий день после старта продаж «Яндекс» менял старые устройства для воспроизведения музыки на новую колонку. Всего таким образом была роздана тысяча «Станций Мини», численность участников акции оценивается в две тысячи человек. Ну а количество публикаций, записей в блогах и прочих обсуждений очередей от станции метро до офиса «Яндекса» подсчету поддается слабо — мероприятие явно удалось.
При этом «Яндекс.Станция Мини» — далеко не первая компактная и недорогая колонка с Алисой. В сотрудничестве с другими брендами были выпущены Irbis A и Dexp Smartbox, которые вполне закрыли нишу бюджетных решений. Новому устройству нужны были заметные преимущества, которые обеспечили бы ему продажи. И они у него есть.
Во-первых, целых четыре микрофона, чтобы улучшить распознавание голоса — очевидное и практичное решение. У старшей модели их 7, зато у партнерских продуктов, включая LG XBoom AI ThinQ — всего два. Ну а во-вторых, главная «фишка» устройства — управление с помощью жестов и связанные с ним дополнительные «игрушки», которые пусть и не слишком полезны, но вау-эффект обеспечивают в полной мере. Плюс оригинальный дизайн, качественное исполнение и прочие приятные нюансы.
Упакована «Яндекс.Станция Мини» в коробку из картона средней плотности с изображениями самого устройства, цитатами из возможного разговора с Алисой и краткими техническими характеристиками. Внутри все наполнение коробки удерживается с помощью картонной вставки.
В комплект помимо самого устройства входят адаптер питания, кабель для зарядки, документация и набор стикеров.
Кроме этого, всем покупателям новой колонки предоставляется 3 месяца бесплатной подписки на сервис Яндекс.Плюс, которая активируется при подключении. Покупателям первой партии устройств в офлайн-магазине повезло чуть больше — им досталась версия с полугодовой подпиской. У нас на тесте тоже была «Станция» из первой партии, что можно заметить по фото коробки выше.
Дизайн и конструкция
Корпус выполнен в виде «шайбы», дизайн устройства очень напоминает регулятор громкости «Яндекс.Станции» — та же насечка, тот же индикатор в центре.
Практически вся боковая сторона закрыта тканевым кожухом, который приятен и на вид, и на ощупь. В целом устройство выглядит гораздо презентабельнее, чем упомянутые выше Irbis A и Dexp Smartbox.
Также на боковой части колонки расположилась небольшая панель с разъемом питания USB Type-C, Aux-выходом миниджек 3,5 мм и единственной кнопкой, которая отвечает за выключение микрофонов.
Небольшой фиолетовый элемент с логотипом «Яндекса» в основном выполняет чисто декоративную функцию, но не только — рядом с ним расположен датчик, отвечающий за распознавание жестов. Соответственно, руку для управления логично размещать где-то поблизости.
На верхней панели мы видим ряд расположенных по кругу отверстий, под двумя из которых отчетливо различим тот самый TOF-датчик. Чуть ближе к центру расположены четыре отверстия микрофонов, а в середине — индикатор режима работы.
Нижняя часть корпуса прорезинена — колонка не скользит даже по стеклянным поверхностям. Здесь же размещены логотипы, номер модели и серийный номер, а также прочая информация об устройстве и производителе.
Подключение
Работает «Яндекс.Станция Мини» только от сети. Многие пользователи непрозрачно намекали «Яндексу», что неплохо было бы выпустить портативную версию, которую можно легко перемещать по квартире. Но, видимо, не в этот раз. Соответственно, первым делом подключаем устройство к сети с помощью комплектного блока питания.
Процесс настройки практически не отличается от того, что мы уже видели у старшей версии. Устанавливаем приложение «Яндекса», переходим в раздел «Устройства», находим там «Яндекс.Станцию Мини». Включаем ее, выбираем сеть для подключения, после чего подносим телефон поближе и нажимаем кнопку продолжить. Телефон некоторое время «общается» с колонкой звуками в стиле R2D2 из «Звездных войн».
Далее колонка на некоторое время «задумывается» — подключается к сети и устанавливает обновления ПО, если они есть. После завершения настройки пользователю предлагается небольшая инструкция по использованию основных функций. На этом всё — колонка отображается в меню выбора устройств и полностью готова к работе. После активации и привязки к аккаунту на почту приходит письмо с краткими инструкциями.
В меню настройки есть опция «Отвечать одним устройством». Теоретически ее включение должно давать следующий результат: если в комнате есть два устройства с Алисой и оба «слышат» слово для активации — отвечает только одно, оно же исполняет данную команду. На практике это срабатывает далеко не всегда. Часто отвечает только первая из подключенных колонок, даже если говорить вплотную к другой — вроде как, функция работает. Но в большой части случаев отвечают обе, после чего начинают мило общаться друг с другом.
Звук и воспроизведение музыки
Динамик у «Яндекс.Станции Мини» крайне небольшой, обеспечить высокое качество звука ему не под силу. Звучит колонка примерно так же, как и вся ультрапортативная акустика: никакого «глубокого баса» (воспроизводимый диапазон начинается где-то в районе 200 Гц), качество звука «очень среднее», скажем так. Если сравнивать с широко известными портативными колонками JBL, те звучат чуть получше. Но всерьез говорить о какой-то разнице, обсуждая подобные устройства, немного некорректно — все они являются далеко не лучшим способом послушать музыку.
По традиции, для компактных колонок мы проводим две серии измерений. Первую — расположив микрофон по нормали к колонке на расстоянии около 60 см. А вторую — сместив микрофон вверх на угол 45°, так как часто во время работы устройство находится примерно на уровне пояса слушателя.
Далее результаты усредняются, чтобы получить общую картину.
Аудиокниги, сказки на ночь, подкасты, ответы на голосовые команды — с этим «Яндекс.Станция Мини» справляется отлично. Громкости с запасом хватает для того, чтобы без особого напряжения слышать ответы Алисы в комнате средней площади. Возможность подключения к источникам звука по Bluetooth предусмотрена, но пользоваться ею нет особого смысла по двум причинам.
Первая описана чуть выше. Вторая же состоит в том, что при беспроводном подключении деактивируется голосовой помощник — соответственно, бо́льшая часть действительно интересных функций становится недоступна. Для передачи звука используется кодек SBC, ничего другого никто и не ожидал.
А вот возможность подключения внешней акустики через Aux уже куда более интересна и полезна. Это отличный шанс получить более-менее вменяемый звук от уже имеющейся акустической системы, плюс все преимущества устройства с Алисой. Однако слишком обольщаться не стоит: «начинка» устройства явно не способна выдать высокое качество звука, да и битрейт потока «Яндекс.Музыки» — максимум 320 Кбит/с.
Нельзя не упомянуть и о возможности подключения «Станции Мини» к медиаплееру «Яндекс.Модуль», который превратит ее практически в аналог старшей модели, только еще с рядом бонусов. Появится возможность смотреть видео из поддерживаемых сервисов, слушать музыку и так далее. Причем все это — через акустику устройства, к которому подключен «Модуль». Ну а «Яндекс.Станция Мини» возьмет на себя управление.
Эксплуатация
Главное, о чем стоит упомянуть здесь — это качество распознавания голоса. «Яндекс.Станция Мини» прекрасно «слышит» команды даже во время воспроизведения музыки через внешнюю акустику, работающую на весьма внушительном уровне громкости. В отличие от решений с двумя микрофонами на борту, ею вполне комфортно пользоваться на кухне, где постоянно что-то кипит, гудит вытяжка, играет музыка, льется вода… В этом плане устройство оказалось на высоте, как и старшая модель. Микрофон можно отключить с помощью кнопки на задней панели — индикатор сверху загорается красным светом, Алиса перестает реагировать на команды.
В качестве устройства для управления «умным домом» колонка подходит просто замечательно — встроенные четыре микрофона знают свое дело, а стоимость при этом минимальна. О том, что умеет Алиса, мы подробно поговорили в обзоре, посвященном ее последним обновлениям. Там же можно найти демонстрацию возможностей управления «умным домом» с помощью голосового помощника. Возвращались к разговору об Алисе мы и в большом тесте «умных» устройств компании Hiper. Снова делать этого не будем — «младшая Алиса» работает совершенно так же.
Управление жестами
Главная «фишка» устройства — это, конечно, возможность управления жестами. Хотя возможностей, на самом-то деле, не так уж и много: регулировка громкости да отключение. Реализована функция на базе так называемой ToF-камеры, она же «времяпролетная» (от английского «time of flight» — время полета).
Это специальный сенсор, состоящий из вертикально излучающего инфракрасного лазера и принимающего фотодиода. Луч лазера отражается от препятствия и возвращается обратно за определенное время, скорость света известна и постоянна — таким образом можно определить расстояние до объекта. Эта технология уже активно используется для улучшения качества съемки камерами ряда смартфонов, а в iPhone — для реализации Face ID.
Управление громкостью работает очень корректно, главное — привыкнуть немного задерживать руку над сенсором до его активации. Текущий уровень отображается с помощью цвета индикатора на верхней панели: на минимальной громкости он светится зеленым, а при ее увеличении плавно меняется до красного. Ну а с накрытием устройства ладонью тем более никаких проблем — особенно приятно пользоваться этим способом для отключения будильников и таймеров.
Однако есть и пара нюансов, о которых стоит сказать. Датчику совершенно все равно, что́ перед ним — рука пользователя или, например, настольная лампа. Потому «Станцию Мини» не стоит размещать под какими-то предметами, на закрытых полках и так далее. При этом количество нежелательных изменений громкости из-за случайно пронесенных над устройством предметов минимально из-за небольшой задержки срабатывания. А вот домашним животным отрегулировать звук на свой вкус вполне по силам — колонку имеет смысл размещать подальше от мест, где любит прогуливаться ваша кошка. Либо можно отключить управление жестами из меню настройки устройства.
Для того чтобы по-настоящему впечатлить будущего пользователя, управления громкостью может оказаться мало. Устройству нужна была яркая, пусть и не самая полезная «фишка». Поэтому разработчики добавили в «Яндекс.Станцию Мини» режим синтезатора, который также управляется перемещением руки над сенсором — получается некоторое подобие терменвокса. По информации «Яндекса», над этой функцией помогал работать правнук изобретателя инструмента — Петр Термен. На момент подготовки обзора синтезатор поддерживал 58 звуков — от классических скрипки и пианино до звона кастрюль и лая собаки.
Итоги
«Яндекс.Станция Мини» оказалась весьма универсальным устройством — и как компонент для «умного дома» подойдет, и в курсе новостей с погодой держать будет, и ребенку сказку на ночь расскажет. Вот только с музыкой не очень получается. Но на этот случай есть выход на внешнюю акустику. При этом колонка крайне компактная и сравнительно недорогая.
Это отличное устройство для тех, кто вроде бы и хотел колонку с Алисой, но не был готов отдавать за нее серьезную сумму. В отличие от бюджетных колонок других производителей с тем же голосовым помощником, она очень солидно выглядит, лучше «слышит» благодаря четырем микрофонам, управляется с помощью жестов. Ну и, конечно, нельзя забывать про встроенный синтезатор — будет что показать гостям, да и детям он явно понравится.
Источник
Яндекс.Станция Мини. Большая история маленького устройства
Только что мы представили наше новое устройство — Яндекс.Станцию Мини. Это компактная умная колонка, которая умеет воспроизводить музыку, управлять умным домом, ставить напоминания — и многое другое. А ещё это первая колонка с Алисой, управлять которой можно жестами.
Сегодня мы расскажем читателям Хабра несколько историй об этапах создания Станции Мини. От калибровки оптики и UX-тестирования до неочевидных особенностей работы с электропитанием. А ещё вы узнаете, что такое терменвокс и как он связан с устройством Яндекса.
Но для начала небольшой флешбэк.
В прошлом году мы рассказывали на Хабре о разработке «большой» Яндекс.Станции (а ещё платформы Yandex.IO, которую используем и мы, и партнёры). Это наше флагманское устройство с Алисой, сконструированное так, чтобы находиться в центре большой комнаты рядом с телевизором. У неё мощный 50-ваттный звук. Три активных динамика с широким диапазоном частот. Семь микрофонов, работающих как единый радар. HDMI-выход, в конце концов.
Весь этот год мы не стояли на месте. Голос Алисы становился всё более естественным. Она научилась решать проблему произношения для многих омографов, т. е. в зависимости от контекста правильно ставить ударения в словах, которые пишутся одинаково, но имеют разный смысл. Слух тоже развивался: недавно мы уже рассказывали о том, как учили Алису не откликаться на чужие имена. Недавно мы начали тестировать возможность узнавать владельца колонки по голосу.
А ещё мы запустили платформу умного дома. Теперь с помощью голоса можно управлять устройствами сторонних производителей и даже объединять их в сценарии. Отказ от пультов и кнопок в пользу голоса — ключевая особенность нашей платформы. А для этого Алиса должна быть рядом.
Кроме того, умная колонка — это ведь не только музыка, радио и видео, но и напоминания, будильник, погода, фактовые ответы, сказки и игры для детей и т. д. Устройство может пригодиться у кровати, в кабинете, на кухне, в любом другом уголке квартиры.
Поэтому мы решили сделать ещё одну Станцию — для тех, кому нужно более простое и компактное устройство с Алисой.
Уменьшаем устройство
Для мини-варианта не нужен громкий звук, поэтому тяжёлые и большие динамики заменили одним трёхваттным. Этого более чем достаточно для простых задач. Хотя даже он может доставить хлопот с электропитанием, если не учесть один нюанс, но об этом чуть позже.
Отказались от выхода на телевизор. Это снижает нагрузку, тепловыделение, а значит, и требования к электронике. Массивный металлический каркас Станции с пассивным радиатором для охлаждения тоже стал не нужен.
Вместо семи микрофонов оставили четыре, ведь улавливанию речи больше не мешает громкий звук. Но при этом микрофоны, как и в Станции, работают по принципу фазированных антенных решёток, или направленного микрофона. Устройство алгоритмически ищет в окружающем шуме голосовую команду со словом «Алиса». Затем определяет направление и очищает сигнал от шума, в том числе вычитает музыку. И только после этого сигнал идёт в облако и распознаётся.
Чтобы распознавание речи работало наиболее точно, нейросеть нужно тренировать на записях, которые наговорили именно на это устройство. Нет смысла брать нейросетевую модель из «большой» Станции, потому что её эффективность в Станции Мини будет уже не так высока.
Эту задачу можно решать разными способами. Например, нанять людей, чтобы они по бумажке зачитывали колонке фразы. Но мы получим мало записей, которые не похожи на настоящие обращения пользователей, потому что в реальности записи содержат непредсказуемый шум, наложения голосов и многое другое.
Поэтому мы не стали экономить на качестве и сразу заказали на фабрике несколько сотен готовых колонок, которые раздали участникам закрытого бета-тестирования в Яндексе в обмен на помощь в обучении нейросети. И это сработало.
Кстати, от аппаратной кнопки Mute, которая обесточивает микрофоны и отключает «слух» Алисы, отказываться не стали. Никакой особой сложности устройству она не добавляет и теперь находится сбоку.
А вот от остальных кнопок отказались. И здесь начинается самое интересное.
Добавляем магию и лазер
Взгляните на фотографию ниже. Это вид сверху на обе наши Станции. Сегодня мы не будем говорить о дизайне — попробуйте найти другое важное различие.
Обратите внимание: кнопок нет. И нет вращающегося кольца для регулировки звука. Если мы делаем маленькое, лёгкое устройство, почти вся электроника которого умещается на одной плате, то механические элементы только усложняют проект и увеличивают габариты.
Голос — наиболее естественный способ управления умными колонками. Но бывает, что человек говорит по телефону или обедает, поэтому дублёр всё же нужен. И мы нашли вариант. Причём не менее естественный.
Представьте себе: вы совершаете жест рукой — и любимая песня становится громче. Или просто кладёте на колонку ладонь — и будильник выключается.
Итак, как работает магия с жестами? За неё отвечает датчик глубины, который спрятан под крышкой устройства. Вот так он выглядит на плате при значительном увеличении (длина в реальности — всего 4 мм, толщина — и вовсе 1 мм):
Это вертикально излучающий инфракрасный лазер с длиной волны 940 нм в связке с принимающим фотодиодом. Луч отражается от препятствия над колонкой и возвращается. А так как скорость света известна, то можно в любой момент определить расстояние до объекта.
Кажется, достаточно купить датчик и подключить его к плате, чтобы всё отлично работало. Но нет.
Датчик спрятан внутри, над ним находятся отверстия в корпусе (а иначе как бы он работал). А значит, пыль и прочий мусор могут исказить измерения.
Нужна защитная пластина, которая накроет лазер и фотодиод, но при этом уместится в корпусе. Её материал строго регламентирован, поскольку далеко не все виды пластика хорошо работают в ближнем ИК-диапазоне. При большом желании из стекла тоже можно вырезать, но это достаточно сложно, а значит, очень дорого.
Более того, каждая защитная пластина производится методом литья и уникальна в буквальном смысле. Невозможно изготовить две идентичные пластины. А значит, каждая из них по-своему влияет на распространение луча. Если это не учесть, то мы получим погрешность в измерении расстояния.
Каждая новая Станция Мини проходит на конвейере этап калибровки датчика, чтобы учесть индивидуальные особенности линзы. Проще говоря, чтобы устройство воспринимало препятствие на высоте 15 см именно на этой высоте. Калибровка примерно так и происходит. Берутся листы из материалов, похожих на фотобумагу, но не пропускающих ИК-диапазон, и статично размещаются на известной высоте.
В итоге мы дошли до этапа, когда нужно протестировать точность работы датчика в собранном устройстве. Но оказалось, что готового промышленного приспособления для этого просто не существует. Ничего не поделать — соорудили свой аппарат. На фото ниже можно увидеть первый прототип в нашем офисе в Москве, собранный буквально из листов фанеры, распечатанных на 3D-принтере втулок, двух моторчиков и контроллера для управления ими. Эта штука автоматически перемещает платформу, имитирующую руку, над колонкой, чтобы оценить, насколько точно датчик определяет расстояние.
Чистовые экземпляры позже отправили на производство.
Стабилизируем питание
Самое время вспомнить об электропитании, о котором мы обещали рассказать выше.
Колонка потребляет энергию. В среднем немного, меньше 5 Вт даже на высокой громкости. Но, в отличие от многих других маленьких бытовых приборов, её потребление крайне неравномерно. Мы заметили этот эффект на раннем прототипе, когда использовали датчик жестов одновременно с прослушиванием вот этого трека:
Попробуйте угадать, что с ним не так? Резкие переходы к низким частотам. А чем низкие частоты отличаются от высоких? Амплитудой колебаний диафрагмы динамика. Чем она выше, тем больше энергии потребляет устройство.
Добавьте к этому управление жестами, голосовые команды, сетевой трафик — и вы получите короткие, но непредсказуемые мгновения, когда потребление подскакивает настолько, что простые блоки питания просто не справляются с поддержкой стабильного напряжения. Например, типовые зарядки для смартфонов на такое не рассчитаны, потому что у этого класса устройств есть аккумулятор и потребление достаточно равномерное. Колонка же, если питающее напряжение кратковременно просядет, может просто перезагрузиться.
Чтобы избежать этой проблемы, мы тестировали прототипы на звуке частотой 100 Гц. Именно на ней динамик создаёт наибольшую нагрузку. Наш внешний блок питания хоть и выглядит, как типовая зарядка с USB Type-C на 1,5 ампера, но готов к таким ситуациям. Более того, мы понимаем, что люди могут подключать собственные блоки питания, поэтому при разработке заменили внутренние преобразователи питания (так называемые DC-DC конвертеры) теми, которые способны выдержать кратковременные просадки напряжения. Конечно же, сторонние блоки питания бывают разные, мы их не тестируем и не рекомендуем, но решение с заменой преобразователей помогает.
Кстати, ещё мы учли пожелания пользователей: у белой Станции Мини белый блок питания и провод. Мелочь, а приятно.
Придумываем жесты
Стабильно работающие устройство и датчик — это только половина дела. Осталось придумать сами жесты. Лучший способ что-то придумать — собрать максимум идей, а потом поэтапно их отфильтровать и проверить. Мы так и поступили: организовали внутренний хакатон с призами. Любой сотрудник компании мог предложить и сразу реализовать свои жесты для устройства. В Яндексе такой подход хорошо работает.
Вариантов было много. Отсеивали мы их по нескольким критериям, но наиболее важных — два. Во-первых, если функция популярна и требуется часто, то и жест для неё должен быть простым и легко воспроизводимым. Во-вторых, удачный жест интуитивен. Можно написать инструкцию, снять обучающее видео, но всё это менее эффективно, чем старая добрая интуиция.
Мы быстро определились с жестом «Алиса, хватит». Пользователи уже привыкли просто класть руку на будильник, телефон, умные часы, чтобы остановить звук.
А вот с жестом регулировки звука всё оказалось не так очевидно. У нас было два варианта-победителя. В обоих подразумевалось, что звук регулируется с помощью воображаемой вертикальной шкалы над колонкой. Но достаточно ли просто поместить руку над колонкой: чем больше расстояние, тем выше громкость? Или лучше взять относительную шкалу и перемещать ладонь вверх/вниз для плавного изменения громкости?
Для поиска ответов на подобные вопросы хорошо подходит UX-тестирование. В Яндексе для этого создана специальная лаборатория: мы приводим туда людей с улицы и наблюдаем за тем, как они пользуются продуктом. Эта практика довольно полезна.
Мы надеялись, что на UX-тестировании однозначно победит один из двух вариантов. Но не в этот раз. Поведение людей разделилось примерно поровну. А значит, нужно проверить оба варианта. Так мы и сделали в рамках бета-тестирования, и его участники достаточно быстро указали на существенный недостаток абсолютной шкалы. Такой вариант приводит к тому, что случайный взмах руки (или полёт кота) могут неожиданно включить максимальную громкость. А это неприятно.
Вариант с относительной шкалой победил. Хотя и были доработки на основе отзывов пользователей беты. Например, добавили эвристику от случайных падающих предметов: чтобы звук менялся, ладонь должна на мгновение зависнуть на одной и той же высоте и только потом перемещаться. А ещё добавили звуковую индикацию уровней громкости, чтобы человек слышал, на сколько именно шагов он её изменил.
На этом можно было бы и закончить историю, но коллеги, работающие над жестами, оказались большими любителями музыки и нестандартных способов её воспроизведения.
Добавляем гравицапу
В ходе работы над жестами родилась такая идея: с помощью движения рук не только регулировать громкость, но и создавать музыку. Позднее мы вспомнили, что эта идея уже применяется в терменвоксе. Этот электромузыкальный инструмент создал в 1920 году советский изобретатель Лев Сергеевич Термен. Терменвокс работает так: движения рук изменяют ёмкость его колебательного контура и, соответственно, частоту звука. Просто послушайте самого изобретателя:
Классический инструмент Льва Термена использует электромагнитное поле и две антенны: для управления громкостью и высотой звука. У нас же есть только один инфракрасный луч, поэтому управлять можно чем-то одним. Громкость мы взяли за константу.
Разработать новый режим нам помог Пётр Термен — композитор и исполнитель на терменвоксе, правнук Льва Термена. А музыкант-экспериментатор Антон Маскелиаде и студия Monoleak создали для синтезатора инструментальные стили: от привычных пианино и гитары до необычных мечей и кастрюли. Можно играть даже космическую музыку — достаточно сказать: «Алиса, дай звук гравицапы». В коллекции уже есть несколько десятков инструментов, и она будет пополняться.
В терменвоксе малейшее движение руки изменяет частоту звука. Нужно быть профессионалом с крепкой рукой, чтобы точно попадать в ноты и воспроизводить что-то мелодичное. Мы же хотели, чтобы на нашей колонке играть музыку могли все. Поэтому для многих инструментальных стилей разделили воображаемый луч на сегменты, каждому из которых присвоили определённый звук.
Кстати, изначально режим синтезатора развивался как личный проект одного из наших коллег. Но дети, которых мы также приглашали на UX-исследование, с большим энтузиазмом отнеслись к новому режиму. Так мы поняли, что не надо скромничать и стоит довести личную инициативу до продукта.
Сегодня мы показали, что даже за небольшим и на первый взгляд простым устройством скрывается целая история и многочисленные технологические решения. Какие отдельные рассказы вы бы хотели услышать более подробно?
Мы верим, что будущее за голосовым управлением, ведь во многих случаях просто сказать — гораздо удобнее и естественнее, чем нажимать на кнопки. И новое устройство — ещё один шаг в этом направлении.