Прежде всего, робота пытаются научить распознавать голосовые команды подобно тому, как это делает программа Siri корпорации Apple, но с двух метров. Для этого машина должна уметь концентрироваться на определённой группе звуков в общем шуме. Понимая, что человек заговорил, она должна понижать уровень общего шума и включать распознаватель речи.
Этот подход уже известен, но HEARBO должен лишь вывести его на новый уровень. Для того, чтобы робот понимал, на чем ему следует сфокусировать внимание, разработчики предложили трёхшаговую систему HARK: локализация, разделение, распознавание. На основании данных о том, откуда доносятся звуки, робот решает, что именно до него доносится, выделяя и анализируя самое важное. Например, плач ребёнка может восприниматься как белый шум, а может нести информацию.
Сейчас система способна различать до четырёх звуков или голосов. Теоретически восемь микрофонов HEARBO позволят ему одновременно распознать семь источников, что человек сделать не в состоянии.
Помимо этого, робота учат различать музыку, человеческий голос и фоновый шум. Послушав несколько песен, он при звуках незнакомой композиции способен «понять», что это музыка, и не перепутает слова из песне с окликом хозяина.
Одной из проблем, с которой столкнулись разработчики, стал шум двигателей машины, искажающих звук. Слух человека отфильтровывает лишнее (например, звук сердцебиения), и роботу надо делать то же самое. Для этого в корпус HEARBO вставляются микрофоны, которые помогают отделить внутренний звук от внешнего, поступающего в голову, передает IEEE Spectrum.