Компания Google совершенно внезапно решила представить смартфоны Pixel 6 и Pixel 6 Pro сегодня. При этом внутри используется SoC от Google под названием Tensor. Основная фишка чипа — Искусственный Интеллект, который будет позволит быть сильно интегрированным внутрь всего смартфона и обеспечивать мощное и отличное машинное обучение.
На самом деле Google показал свой чип Tensor на ивенте, а о Pixel 6 и Pixel 6 Pro рассказал далеко не все. При этом мы знаем о том, что устройства появятся в официальной продаже с осени. Скорее всего с октября.
Толком неизвестны даже размеры устройств, но известно, что Pixel 6 Pro больше чем Galaxy Note 20 Ultra, то есть речь идет о действительно БОЛЬШОМ смартфоне.
Также интересно, что все утечки оказались правдивыми (Google поделился рендерами): большой горизонтальный блок камеры, в Pro-версии сверху яркая полоса: лаймовая в голубой версии и красная в персиковой (в черной она черная), в обечной версии блок камеры чуть выделена, но цвета не изменяются снизу вверх. При этом по внешности можно сказать одно — вы снова не спутаете Pixel ни с чем…
Интересно, что камера в Pixel 6 изменилась. По словам Рика Остерлоха она получает в 1,5 раза больше света. Также в обеих моделях есть сверхширокоугольная камера, а в про-версии появился еще и четырехкратный оптический зум. Судя по всему, новый чип будет также лучше работать для процессинга фотографий.
Вдобавок к Google Tensor внутри стоит еще и обновленный чип защиты Titan M2, который также сделан «по чертежам» Google.
Pixel 6 Pro получит 6,7-дюймовый дисплей с QHD+ разрешением с поддержкой частоты 120 Гц. В то же время Pixel 6 получит 6,4-дюймовый дисплей с Full HD+ разрешением и поддержкой частоты 90 Гц.
Что касается цены, речь идет о премиум-сегменте и возможной цене в районее 1000 долларов США.
К сожалению, это пока все, что мы знаем… Ждем теперь официального анонса от Google с нетерпением…
Google использует ИИ, чтобы создать дизайн чипов меньше чем за 6 часов
Обычно на этот процесс уходит не один месяц у людей, но искусственный интеллект позволяет драматически ускорить этот процесс.
Компания Google объявила о создании софта, который использует машинное обучение и искусственный интеллект для создания дизайн процессоров и чипов. Благодаря этому чип может быть создан всего за 6 часов. Для сравнения человеку требуются месяцы.
Интересно, что метод создания чипов описан в журнале Nature. «Наш метод мы использовали при разработке дизайна нового поколения Google TPU (тензорных процессоров)» — сказала глава отдела машинного обучения для систем Goole Азалия Мирхосейни.
По сути, ИИ рисует некий «план этажа» для более продвинутых систем, далее искусственный интеллект расставляет компоненты, включая CPU, GPU и ядра памяти. Именно на последний процесс «расстановки» у человека может уйти несколько месяцев поскольку инженеры должны продумать все ключевые характеристики, включая площадь чипа, энергопотребление и мощность, в то время как новая система обучения от Google натренирована на 10 тысячах всевозможных вариантов таких «планов этажей». За счет этого она может сделать работу меньше чем за 6 часов.
LaMDA: Новая технология машинного обучения в поиске
Google LaMDA — это новый шаг от Google в освоении возможностей искусственного интеллекта и машинного обучения. Теперь можно говорить с Плутоном.
Компания Google в рамках ключевого доклада на Google I/O 2021 показала новый необычный движок для перевода данных из Интернета в текст и даже речь — LaMDA. Этот движок работает на базе машинного обучения и изучает мультимодальные модели: текст, звук, видео и картинки, чтобы узнать различные факты по всевозможным поисковым запросам.
В частности Google продемонстрировал общение реального пользователя с планетой Плутон, которая рассказала факты о себе, или вопросы бумажному самолётику, который рассказал о самой лучшей конструкции и самом длинном полёте.
Крайне интересная технология на базе мобильного обучения, которая может помочь во многих сферах жизни.
Неизвестно, когда и каким образом будет доступен движок Google LaMDA и тем более будет ли он доступен в России.
Sony FlavorGraph: ИИ, который предсказывает вкус!
Искусственный интеллект уже добрался до вашей кухни. Он уже пишет музыку, рисует картины и создаёт несуществующих котов, но как насчёт еды?
Компания Sony разработала специальный искусственный интеллект, который определяет вкус блюд, комбинируя информацию об ингредиентах.
Казалось, что ИИ используется в играх, автономных автомобилях, но мы ни разу не видели, чтобы он использовался в готовке. Сначала Google AI сразился с победителем Great British Bake Off (Лучший Пекарь Британии) — телевизионного проекта. А теперь Sony представил FlavorGraph, который основыввается на технологии Deep Learning. ИИ сделан таким образом, чтобы спаривать всевозможноые ингредиенты продуктов и понимать, какой получится вкус. Например, можно соединить молоко, оливки и чеснок.
FlavorGraph создан совместно с корейским университетом. Идея в том, что известный повара используют при приготовлении интуицию, которая основывается на их собственном опыте. Классические комбинации продуктов, вроде сыра и помидоров, свинины с яблоками, имбирём и чесноком, а также многие другие были объяснены с помощью науки. Учёные выяснили, что ингредиенты отдают в блюдо свои доминантные вкусовые молекулы, что часто работает хорошо. В то же время различные ингредиенты могут комбинироваться в разные химические составы.
Чтобы «объяснить» это искусственному интеллекту пришлось составить молекулярную информацию об ингредиентах, а также их использование в различных связках в классических рецептах. После этого появилась база из 1561 вкусовой молекулы с разными показателями, такими как горечь, фруктовость, сладость и так далее. Кроме ингредиентов, ИИ изучил около миллиона рецептов, чтобы понять какие ингредиенты использовались друг с другом.
Результаты показывают химические сочетания, которые помогают понять, какие продукты отлично дополняют друг друга. Также благодаря ИИ можно понять, что подходит например к цитрусовым, а что к вину. При этом ИИ пока «не открыл Америку» и не придумал какое-то безумное сочетание, до которого не догадалось бы человечество, вроде белого шоколада с чёрной икрой. Но это только начало…
Голографическая AI Waifu в человеческий рост
Японские мастера Gatebox представили голографического голосового помощника ростом с человека. И, наверняка, вы его захотите.
Компания Gatebox создала персонального голосового помощника размером с человека. Он называется Gatebox Grande AI и представляет из себя голограму.
Умная голограма представляет из себя 65-дюймовый 4K OLED от LG, который может использоваться как цифровой консьерж или информационная точка в торговом центре. По размерам голограмма представляет из себя женский аниме персонаж. Её имя Азума Хикари.
Помощника можно вызвать голосом, а управлять можно также с помощью ряда жестов. В ответ голосовой помощник может выражать эмоции и даже «играть» голосом. В итоге получается весьма реалистичная картинка.
Стоимость такой помощницы размером с умную колонку Amazon Echo с Alexa внутри — 2 700 долларов США. И можно только догадываться во сколько обойдётся «фигурка» размером с человеческий рост.
OpenAI — SkyNet от Илона Маска. Разбор
Сегодня мы расскажем об очередном стартапе Илона Маска, который на самом деле даже уже покинул проект. Речь об искусственном интеллекте и OpenAI.
Робот не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинён вред.
Робот должен повиноваться всем приказам, которые даёт человек, кроме тех случаев, когда эти приказы противоречат Первому Закону.
Робот должен заботиться о своей безопасности в той мере, в которой это не противоречит Первому или Второму Законам.
Признайтесь, что с таким быстрым развитием технологий, разработкой квантовых компьютеров и повсеместным использованием нейронных сетей, то вы и мы в последние годы ждем уже появления SkyNet?
А может быть вы наоборот считаете, что до реального искусственного интеллекта еще так далеко и что нам, на нашем веку, можно вообще не беспокоиться. Ведь для реальной интеллектуальной деятельности машин нужны гораздо большие вычислительные мощности!
Сегодня, на примере еще одного стартапа Илона Маска, под названием OpenAI, мы с вами посмотрим насколько далеко от нас реальный SkyNet и расскажем вам о том, в каком состоянии находится разработка ИИ в принципе прямо сейчас.
Сегодня мы с вами узнаем может ли робот написать симфонию или нарисовать шедевр?
Что такое ИИ?
Для начала давайте поймем, что такое искусственный интеллект?
Согласно одному из определений — это искусственно созданная система, которая может решать творческие задачи, способна к саморазвитию, самопостроению и самоулучшению себя и себе подобных.
В принципе само понятие ИИ — это скорее философское понятие. Мы никогда не увидим громких заголовков, вроде “Изобретён Искусственный Интеллект!”, человечество будет идти к нему медленно, но уверенно.
К сожалению, нет абсолютно точного определения, что такое искусственный интеллект, но есть тест. Знаменитый тест Алана Тьюринга, который он описал в 1950 году в философском журнале Mind. Суть теста заключается в том, что человеку и компьютеру задаются различные вопросы, а третий человек слушает их ответы. Главное, что человек слушающий ответы не знает, кто именно отвечает и, если у компьютера получилось обмануть человека, то считается, что компьютер победил и прошел тест Тьюринга.
Этот тест был впервые пройден компьютером в 2014 году. Специальная программа Eugene, или Женя Густман, с использованием пяти суперкомпьютеров, смогла обмануть 33% собеседников, что превысило необходимые 30% для прохождение порога.
Кстати, тест Тьюринга работает в две стороны. Есть и обратный тест, тест на человека, и его наверняка проходил каждый смотрящий это видео — это знаменитая Captcha — Completely Automated Public Turing test to tell Computers and Humans Apart или по-русски — полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей.
И казалось бы, тест пройден, вот он искусственный интеллект, но на самом деле все гораздо сложнее.
В общем, есть два подхода к созданию ИИ:
Первый — нисходящий, считайте сверху-вниз, то есть создание, баз знаний и систем, имитирующих реальные психические процессы человека, такие как мышление, рассуждение, эмоции, творчество и так далее.
Второй, который, опять же, знаком большинству из вас: восходящий или снизу-вверх, когда изучаются нейронные сети и так называемые эволюционные вычисления. Создаются простейшие нейронные модели, сочетание которых в итоге моделирует интеллектуальное поведение.
Это и есть те самые нейронки, о которых мы уже вам раньше рассказывали! Это именно те самые нейронки, которые занимаются улучшением ваших фотографий и подбором видео в TikTok.
Основная идея в том, что в будущем, объединив множество нейронных сетей, предназначенных для разных целей, можно построить фактически самостоятельно думающий компьютер, уровень самообучаемости и знаний которого будет такой, что он будет саморазвиваться! Это и есть ИИ.
Что сейчас?
О современном состоянии ИИ сказать не просто. Ведь есть множество областей, где нейронные сети и ИИ применяются очень активно. Хорошим примером является автопилот машин Tesla!
А есть области, где только планируется начать активное внедрение, и тут можно вспомнить о медицине. Только подумайте — нейронная сеть, которая может в автоматическом режиме производить анализ результатов и давать советы по лечению, например, обработка рентгеновских снимков или анализы крови!
Вообще за последние пять лет интерес к области искусственного интеллекта вырос более чем в 3 раза, а количество стартапов только в период с 2015 до 2018 год выросло на 113 процентов.
А поскольку это очень активно развивающаяся область, то и количество ежегодных научных публикаций за последние 20 лет выросло раз в 8!
Огромным скачком стало и развитие нейронных модулей в процессорах, и рост инвестиций в эту область огромный!
В общем, вы поняли — развитие области не просто идет, оно летит вверх!
И знаете, что самое интересное? На вопрос героя Уилла Смита о том может ли робот написать симфонию, уже можно ответить — Да, может!
OpenAI
Илон Маск и еще 5 инвесторов в 2015 году организовали стартап под названием OpenAI, основная суть которого была в том, чтобы увеличить контроль над развитием и созданием ИИ.
Основатели OpenAI говорили о ней именно как о некоммерческой организации, которая не связана финансовыми обязательствами акционеров, чтобы исследователи могли сосредоточить свои силы на создании положительного воздействия ИИ на человека.
Сам Маск говорил, что считает ИИ одной из главных угроз человечества и для его лучшего контроля он активно поучаствовал в создании стартапа, который как раз занимается исследованиями в области ИИ.
«Если не можешь победить что-то — возглавь!», судя по всему именно этим они и руководствовались! И их результаты удивляют.
Вы наверное помните новость о том, что нейронная сеть обыграла команду OG, чемпионов International 2018 и 2019 годов в DOTA 2! Так вот эта нейронная сеть была создана командой OpenAI. Билл Гейтс тогда написал, что это очень важное событие, так как игра требует сложного командного взаимодействия.
Всего за время разработки OpenAI представили несколько нейронных сетей. Например, Jukebox — специальная программа, обученная на более чем 1 миллионе песен всех жанров, которая способна самостоятельно писать музыку, осмысленный текст, и даже синтезировать вокал! Так что да — и симфония, написанная машиной, уже возможна!
Только послушайте примеры! В принципе, большинство современных рэп-исполнителей больше не нужны.
А как вам нейросеть DALL·E, которая способна просто по текстовому описанию, рисовать картинки? Она способна сама понимать контекст написанного, например человек задает “a collection of glasses sitting on the table” и давайте посмотрим, что выдает нейронная сеть?
Если переводить с английского, то изначальное описание можно сформулировать двумя вариантами — первый это “набор очков на столе”, и мы видим, что нейронка рисует различные картинки, при этом есть и совсем нереалистичные. Но так же это описание можно перевести и как “набор бокалов на столе”, соответственно нейронная сеть рисует варианты и с бокалами!
Но как это стало возможным? Все благодаря специальному обучению алгоритма обработки естественного языка, под названием GPT-3. Это третья версия алгоритма представленная в 2020 году. Первая была анонсирована в 2018, для обучения которой была использована текстовая база в 5 Гигабайт, вторая версия спустя год уже изучила 40 гигабайт, а третья использовала базу в 500 ГБ текстов, данных, и 175 миллиардов различных параметров.
И такое количество данных позволяет ей делать уникальные вещи, например, понимать смысл прочитанного, писать большие структурированные тексты или, например, стихи!
Как же это работает?
На входе мы спрашиваем у программы вопрос! То есть мы фактически просим робота понять, что мы только что у него спросили и выдать нам ответ.
Алгоритму мы подаем один пример, где указываем лишь признаки и просим его предсказать, что будет дальше.
В процессе обучения будут ошибки, но внутренние алгоритмы рассчитывают ошибку в предсказании и обновляют нейронку до тех пор, пока ответ не улучшится.
И так несколько миллионов раз. Теперь представим, что наша нейронка уже обучена, то есть она уже скушала эти 500 ГБ текстов, которые взяла из книг и статей в интернете
Далее, после задания вопроса сети, начинаются сложнейшие многоуровневые преобразования. Заданные слова преобразуются в набор цифр и попадают в специальный 96-уровневый декодер, на каждом уровне этот набор чисел проходит через 1,8 миллиарда параметров для вычислений.
Чтобы было чуть более понятно — это авторегрессионная модель, то есть такая модель, которая учитывает результаты предыдущих вычислений и основывается на них на следующем кругу расчетов. И вот пройдя все эти круги в конце выдается ответ, который имеет наименьшую вероятность ошибки на основе предыдущего обучения! Далее выдается ответ.
И вы спросите а какие перспективы? Они огромные. Фактически GPT-3 способна решать любые задачи на английском языке уже сейчас. И не только…
Стоит сказать, что все совсем не так гладко с этой открытостью и светлым будущим ИИ. Дело в том, что Илон Маск покинул проект в 2019 году так как мог возникнуть конфликт интересов. И уже в 2020 году он открыто критиковал подход руководства организации в закрытости и непрозрачности, что, как мы помним, напрямую противоречит принципам заложенным в основе стартапа, да и даже в самом его названии!
А в середине 2020 года произошло что-то совсем странное. Microsoft выкупила эксклюзивные права на тот алгоритм GPT-3, что также подверглось жесткой критике со стороны Маска и сообщества.
Конечно, в самой компании заявили, что это никак не повлияет на доступ независимых разработчиков к GPT-3 через API компании, но определенно все эти новости вызывают недоверие и опасения.
Вывод
В любом случае все это развитие впечатляет. Еще пять лет назад никто и подумать не мог, что телефоны, со своими маленькими матрицами будут способны снимать астрофотографии, так как это делают современные смартфоны Pixel.
А скажите 15 лет назад кому-то, что автомобили самосто смогут самостоятельно безопасно ездить по улицам городов, на вас бы вообще как на сумасшедшего посмотрели!
Сегодня все это уже реальность с развитием нейронных технологий и искусственного интеллекта! И это только начало пути нейронных сетей.
Нам лишь остается верить, что все эти системы будут хорошо контролируемы и защищены от возможных внешних воздействий. Ведь в таких важных вопросах, которые уже непосредственно касаются жизни людей, безопасность и надежность важнее всего.
А как мы с вами знаем даже всесильные три закона робототехники, легко обходятся!
РикРолл в 4K 60 FPS: ИИ на службе музыкальных клипов
Легендарный РикРолл — клип на песню Рика Эстли — Never Gonna Give You Up вышел в 4K-разрешении с 60 FPS. Клип «скормили» искусственному интеллекту.
Клип на песню Рика Эстли — Never Gonna Give You Up всегда был легендарным. Причина не только в песне, движения певца стали интернет-мемом, который весь Интернет знает под названием РикРолл.
https://youtu.be/2ocykBzWDiM
На днях YouTube-канал Revideo выпустил ролик в 4K-разрешении c частотой 60 кадров в секунду.
Ролик просто пропустили через Topaz Video Enhance AI для увеличения разрешения и RIFE (Flowframes) для того, чтобы нарастить количество кадров до 60 FPS.
Получилось великолепно. Не скажем, что клип заиграл новыми красками, но вечная классика стала лучше и чуточку современнее.
Roborock: Как устроено компьютерное зрение?
Сегодня мы раскажем вам про искусственный интеллект и компьютерное зрение. Да, роботы всё уже видят и наблюдают за нами пока выполняют наши поручения.
Мы запускаем камеру на смартфоне, наводим на объект и видим маленькую иконку внизу. Смартфон понимает — что именно мы снимаем. Вы когда-нибудь задумывались, как это работает?
Беспилотные автомобили спокойно объезжают машины и тормозят перед пешеходами, камеры видеонаблюдения на улицах распознают наши лица, а пылесосы отмечают на карте, где лежат тапочки — всё это не чудеса. Это происходит прямо сейчас. И всё благодаря компьютерному зрению.
Поэтому сегодня разберем, как работает компьютерное зрение, чем оно отличается от человеческого и чем может быть полезно нам, людям?
Для того чтобы хорошо ориентироваться в пространстве человеку нужны глаза, чтобы видеть, мозг, чтобы эту информацию обрабатывать, и интеллект, чтобы понимать, что ты видишь. С компьютерным или, даже вернее сказать, машинным зрением, такая же история. Для того, чтобы компьютер понял, что он видит, нужно пройти 3 этапа:
Нам нужно как-то получить изображение
Нам нужно его обработать
И уже только потом проанализировать
Пройдёмся по всем этапам и проверим, как они реализованы. Сегодня мы будем разбираться, как роботы видят этот мир, и поможет нам в этом робот-пылесос Roborock S6 MaxV, который напичкан современными технологиями компьютерного зрения.
Этап 1. Получение изображения
В начале компьютеру надо что-то увидеть. Для этого нужны разного рода датчики. Насколько много датчиков и насколько они должны быть сложные зависит от задачи. Для простых задач типа детектора движения или распознавания объектов в кадре достаточно простой камеры или даже инфракрасного сенсора.
В нашем пылесосе есть целых две камеры, они находятся спереди. А вот, например, для ориентации в трехмерном пространстве понадобятся дополнительные сенсоры. В частности 3D-сенсор. Тут он тоже есть и расположен сверху. Но что это за сенсор?
LiDAR
Вообще с названиями 3D-сенсоров есть небольшая путаница, одно и тоже часто называют разными словами.
Эта штука сверху — называется LDS или лазерный датчик расстояния, по-английски — Laser Distance Sensor. Подобные датчики вы наверняка могли заметить на крышах беспилотных беспилотных автомобилей. Это не мигалка, это лазерный датчик расстояния, такой же как на роботе пылесосе.
Вот только в мире беспилотников такой сенсор принято называть лидаром — LIDAR — Light Detection and Ranging. Да-да, как в новых iPhone и iPad Pro.
А вот в Android-смартфонах вместо лидаров используется термин ToF-камера: ToF — Time-of-flight.
Но, как ни называй, все эти сенсоры работают по одному принципу. Они испускают свет и замеряет сколько ему понадобится времени, чтобы вернуться обратно. То есть прямо как радар, только вместо радиоволн используется свет.
Есть небольшие нюансы в типах таких сенсоров, но смысл технологии от этого не меняется. Поэтому мне, чисто из-за созвучия с радаром, больше всего нравится название LiDAR, так и будем называть этот сенсор.
Кстати, лидары использует не только в задачах навигации. Благодаря лидарам сейчас происходит настоящая революция в археологии. Археологи сканируют территорию с самолета при помощи лидара, после чего очищают данные ландшафта от деревьев. И это позволяет находить древние города, скрытые от глаз человека!
Также помимо статических лидаров, направленных в одну сторону, бывают вращающиеся лидары, которые позволяют сканировать пространство вокруг себя на 360 градусов. Такие лидары используется в беспилотных автомобилях, ну и в этом роботе-пылесосе.
Еще 8 лет назад такие сенсоры стоили каких-то невероятных денег, под 100 тысяч долларов. А теперь у вас по дому может спокойно ездить маленький беспилотник.
Лидар в пылесосе
Окей, тут лидар используется для построения карты помещения и это не новая история. Такую технологию мы видели еще года 3-4 назад.
Благодаря лидару и построенной карте, пылесос ездит не рандомно как скринсейвер в Windows, стукаясь об углы, а аккуратно проезжая всю площадь (модели без лидаров обычно катаются странно).
Но внутри пылесоса стоит, на секундочку, восьмиядерный Qualcomm Snapdragon 625 (Qualcomm APQ8053), поэтому у него хватает мозгов не только построить карту, но и ориентироваться по ней.
Более того пылесос может хранить в памяти до четырёх карт и распознаёт этажи. Это существенно ускоряет уборку. Потому при переносе с этажа на этаж пылесос это может поять и не тратит время, чтобы построить карту заново.
Также каждую из 4 карт можно поделить на 10 специальных зон. Для которых можно настроить свои параметры уборки: мощность всасывания (до 2500 Па), количество проходов и прочее. А куда-то можно вообще запретить ездить. Можно даже выбирать сухую и влажную уборку для разных зон. Правда для этого не нужно подключать/отключать отдельный резервуар с водой. И всё это стало возможно благодаря лидару.
Тем не менее у технологии есть некоторые недостатки — очень разреженные данные. Пространство сканируется линиями. В больших автомобильных радарах разрешение — от 64 до 128 линий. Плюс ко всему у лидар есть мертвая зона. Если лидар стоит на крыше — то он не видит, что творится в достаточно большом радиусе вокруг него.
Также в роботе-пылесосе лидар тут сканирует пространство всего одним лучом. Поэтому, всё что он видит — это тонкая линия на высоте где-то 9-10 сантиметров от пола. Это позволяет определять где стены и мебель, но он не видит того, что валяется на полу.
Две камеры
Поэтому, чтобы исправить этот недочет лидаров. как в автомобили, так и в пылесосы ставят дополнительные камеры. Тут камеры сразу две, и они обеспечивают стереоскопическое зрение. Да-да, у пылесоса всё как у людей — два глаза.
Две камеры, во-первых, позволяют убрать мертвую зону впереди пылесоса. А во вторых позволяют достаточно точно определять расстояние до валяющихся на полу предметов.
Это позволяет пылесосу обнаруживать предметы размером не менее 5 см в ширину и 3 см в высоту и объезжать их.
Этап 2. Обработка
Итак, мы получили достаточно данных с различных сенсоров. Поэтому переходим ко второму этапу компьютерного зрения — обработке.
Данные с лидара мы получаем в виде трехмерного облака точек, которые фактически не нуждаются в дополнительной обработке.
Как получить стерео с двух камер тоже понятно — высчитывается разница между изображениями снятыми чуть под разным углом и так строится карта глубины. Это несложно.
Но вот совместить данные с разных сенсоров — это нетривиальная задача.
Например, пылесос на полу обнаружил какой-то предмет. Дальше ему нужно понять где именно он находится на карте построенной при помощи лидара. А также нужно предположить какие у него габариты по проекции с одной стороны. То есть нам нужно поместить предмет в некий объёмный куб правильного размера.
Эту задачу можно решить разными способами. Один из способов называется “усеченная пирамида”. Сначала на камере обнаруживаются предметы. Потом эти предметы помещаются в конус, а объем этого конуса вычисляется нейросетью.
Поэтому даже, казалось бы, такая тривиальная задача требует серьёзных вычислений и решается при помощи нейросетей.
А раз мы заговорили про нейросети, значит мы уже немного зашли на 3-й этап компьютерного зрения — анализ.
Этап 3. Анализ
За распознавание, сегментацию и классификацию объектов на изображении в современном мире в основном отвечают нейросети. Мы даже делали подробный ролик о том как это работает, посмотрите.
Если кратко, нейросеть — это такое большое количество уравнений, связанных между собой. Загружая в нейросеть любые данные — ты обязательно получишь какий-то ответ.
Но, например, если постоянно загружать в нейросеть фотографии кошечек, и указать ей, что ответ должен быть — кошка. В какой-то момент, нейросеть перестает ошибаться на обучающей выборке. И тогда ей начинают показывать новые незнакомые изоражения и если на них она тоже безошибочно определяет кошек — нейросеть обучена.
Дальше нейросеть оптимизируется для того, чтобы она стала меньше, быстро работала и не жрала много ресурсов. После этого она готова к использованию.
Что-то похожее происходит с нейронными связями в человеческом мозге. Когда мы чему-то учимся или запоминаем, мы повторяем одно и то же действие несколько раз. Нейронные связи в мозге постепенно укрепляются и потом нам это легко даётся!
Например, в данном пылесосе за работу нейросети отвечает встроенный NPU-модуль. Всё-таки внутри Snapdragon, пылесос может себе такое позволить.
Нейронка предобучена определять различные предметы домашнего обихода: игрушки, тапочки, носки, всякие удлинители, зарядки и даже неожиданности от домашних животных.
Распознавание предметов происходит при помощи гугловской библиотеке Tensorflow. Алгоритм самообучается и умнеет от уборки к уборке.
Практика
В Roborock технология распознавания называется Reactive AI. Мы протестировали насколько она хорошо работает на практике.
Кайфовая штука, что все найденные предметы пылесос отмечает не карте. Поэтому теперь, я не обещаю, но такое возможно, вы всё-таки обнаружите логово пропавших носков.
Проследить за тем, что видит пылесос всегда можно через фирменное приложение или Mi Home от Xiaomi. Можно даже просто кататься по дому управляя пылесосом слать на него голосовые сообщения. Управлять пылесосом можно также через Google Ассистента или Алису. Всё на русском языке.
С недавних пор бренд начал официально продаётся в России, поэтому устройства полностью локализованные.
Внутри кстати стоит батарейка на 5200 мАч, которая способна выдержать до 3 часов уборки.
Итоги
Ребят, ну вы сами всё видели. Правда, стоит обратить внимание, что пока корректное распознавание предметов работает только если запускать пылесос через приложение Roborock. И это нюанс, поскольку оно пока недоступно в Play Market Россия. Но в течение нескольких месяцев оно появится, а пока его можно скачать и установить в виде apk-файла.
Жорж Милославский в 2020 году: DeepFake на службе Сбера
«Храните дееньги в Сбере…»: компания сделала Жоржа Милославского лицом рекламной компании благодаря DeepFake и искусственному интеллекту.
Лицом новогодней рекламной компании Сбера стал Жорж Милославский из фильма «Иван Васильевич меняет профессию». Именно ему принадлежит фраза «Храните деньги в сберегательной кассе», благодаря которой его можно считать ещё и первым амбассадором Сбера.
Персонаж, которого сыграл актёр Леонид Куравлёв произнёс эту фразу еще в 1973 году, когда фильм вышел на экраны.
https://youtu.be/TDl_7-dHg3A
По сюжету ролика Жорж Милославский попадает не в прошлое, в эпоху Ивана Грозного, а в 2020 год и узнаёт, что стало со Сбером. Напоминаем, что теперь это не только банк, а целая группа компаний, в которую входят сервисы Ситимобил, Delivery Club, Еаптека, а также платформы по стримингу кино, сериалов и музыки.
Но самое интересное — технологии, которые позволили «оживить» героя в знакомом образе. По сути, перед нами применение технологии DeepFake во всей красе. Кроме внешности, искусственный интеллект воссоздал ещё и голос актёра. Несмотря на то, что Леонид Куравлёв жив и ныне здравствует, голосом героя, которым он говорил 47 лет назад в силу возрастных изменений он уже не может говорить. Поэтому задачу решали специалисты группы ЦРТ (Центр Речевых Технологий), входящей в экосистему Сбера.
В общей сложности использовалось 4 минуты речи актёра из фильмов «Глубокие родственники», «Суета сует», «Не может быть быть» и «Иван Васильевич меняет профессию». Аудиодорожки разнообразно звучащей речи актёра легли в основу обучения технологии TTS (Text-to-Speech) и синтеза речь. Отмечается, что обычно для качественного синтеза речи требуется не менее 20 часов речи диктора.
В итоге Жорж Милославский побывал на концерте NILETTO, познакомился с сервисами Сбера и узнал о ребрендинге… Теперь он «хранит деньге в Сбере…»
Для синхронизации губ в Cyberpunk 2077 использовали ИИ
Процедурная генерация движений губ в Cyberpunk 2077 проводилась для 10 языков, включая русский. Беда Ведьмака не повторится…
Многие из нас помнят один из главных косяков игры Ведьмак: Дикая охота — полное непопадание героев в движение губ и к тому же странные ускорения и замедления текста. Чего уж скрывать, это и правда бесило… Но с Cyberpunk 2077 такого не будет, ведь на помощью пришёл искусственный интеллект.
Диалоги в игре переведены на 10 языков, включая полную русскую озвучку. Также будут субтитры на нескольких языках. При этом для того чтобы движения губ были синхронизированы и таким образом качество игры возросло в CD Project Red использовали ИИ для синхронизации движения губ. Также речь идёт о движении глаз и бровей.
Об этом сообщил ведущий технический директор по персонажам Матеуш Поплавски. Версии на 10 языках получили полный липсинк: Английский, Немецкий, Испанский, Французский, Итальянский, Польский, Портгальский Бразильский, Мандарин (Китайский), Японский и конечно же Русский.
Использовалось решение Jali Research, которое и позволло сделать подобную штуку.