Почему память дорожает и будет ли хуже: ИИ против ваших гаджетов

Почему дорожают SSD, ОЗУ и смартфоны в 2026 году. ИИ съедает мировое производство памяти: HBM, стена памяти, FlashAttention и когда ждать облегчения.

Павел Ельцов 17 мая 2026 в 12:30

2017 год: биткоин взлетает, майнеры скупают видеокарты, цены удваиваются. 2020 год: пандемия, заводы стоят, чипов не хватает никому. 2026 год: SSD на терабайт, который стоил 50 долларов, — уже 110, и ещё поди найди. Цены на оперативную память выросли больше чем вдвое за прошлый год. Каждый раз казалось: переживём, рассосётся. Крипта обвалилась — цены вернулись. Пандемия ушла — цены вернулись. Но на этот раз виновник никуда не уходит.

Статья 1995 года, которую никто не читал

За окном 1995 год. Интернет ещё по модему. Windows 95 только вышла. И вот в это время два исследователя из Виргинского университета — Уильям Вулф и Сали Маки — публикуют статью с названием, которое звучит почти как издёвка: «Удар о стену памяти: последствия очевидного». Мол, ребята, всё на поверхности, посмотрите на графики.

Графики показывали вот что. Скорость процессоров и скорость памяти растут одновременно — обе экспоненциально. Но экспоненты разные. Процессоры в те годы ускорялись примерно на 60–80% в год, а память — всего на 7%. Обе кривые ползут вверх, только одна — как ракета, другая — как улитка. И Вулф с Маки указали на принципиальный момент: разница между двумя расходящимися экспонентами сама растёт экспоненциально.

То есть со временем разрыв не сглаживается — он ускоряется. Рассуждение было простым. Допустим, процессор находит нужные данные в быстром кэше в 99 случаях из ста. Звучит отлично. Но оставшийся один процент нужно тянуть из основной оперативной памяти, которая медленнее в десятки раз. Если каждое такое обращение стоит процессору хотя бы пять тактов ожидания, производительность катастрофически проседает. Неважно, насколько быстрый процессор — он просто сидит и ждёт данные. Как курьер с едой: кухня готовит за три минуты, а лифт в двадцатиэтажном доме едет пятнадцать. Повар уже свободен, еда стынет, а курьер стоит. Скорость доставки определяется не скоростью готовки, а скоростью лифта.

Вулф и Маки подсчитали: даже при фантастическом показателе попаданий в кэш на уровне 99,8% стена будет достигнута через 11–12 лет — примерно к 2007 году. Индустрия, конечно, не стояла на месте. Инженеры придумали многоуровневую кэш-память L1, L2, L3, предсказатели ветвлений, которые угадывали нужные данные и подгружали их заранее, внеочередное исполнение команд — когда процессор, вместо ожидания застрявшей операции, переключается на другую задачу. Десятки умных трюков, чтобы процессор как можно реже обращался в медленную память. И это работало. Стену удалось не разрушить, но отодвинуть. А потом пришёл искусственный интеллект.

Почему нейросети убивают все трюки, накопленные за 30 лет

Классические программы — те, которые мы использовали десятилетиями, — работают с относительно небольшими кусками данных. Они часто возвращаются к одним и тем же участкам памяти: загрузил, посчитал, снова обратился к тому же. Кэш с этим справляется отлично — он как раз хранит то, к чему часто обращаются. Нейросети устроены принципиально иначе. Им нужно протащить через процессор гигабайты параметров — десятки миллиардов чисел — причём последовательно, слой за слоем. Один раз загрузил, использовал, выкинул, загрузил следующий. Кэш здесь бесполезен: данных слишком много, они попросту не помещаются. И каждый раз приходится обращаться в основную память — ту самую медленную.

Все трюки, которые индустрия копила тридцать лет, — кэши, предсказатели, переупорядочивание операций — разом перестали спасать. Нейросети их обнулили. Чтобы понять, почему проблема настолько глубока, нужно вернуться к самим корням.

В 1945 году математик Джон фон Нейман описал архитектуру, по которой до сих пор работают практически все компьютеры на планете. Идея простая: есть процессор, который считает, и есть память, которая хранит данные и инструкции. Между ними — шина, по которой информация передаётся туда и обратно. В 1945 году это было откровением: универсальная машина вместо десятков специализированных, компьютер, который можно перепрограммировать, не перепаивая провода. Но есть принципиальный изъян. Всё проходит через одну шину. Один мост через реку, по которому в обе стороны едут грузовики. Пока машин мало — проблемы нет. Но когда процессор научился считать в сотни раз быстрее, чем память отдаёт ему данные, мост встал в пробку. Для обычных задач терпимо, но для искусственного интеллекта, который непрерывно ворочает миллиарды параметров, — неприемлемо.

Так что пророчество Вулфа и Маки сбылось — только не совсем так, как ожидалось. Не через двенадцать лет, а через тридцать. И не из-за обычных программ, а из-за нейросетей, которых в 1995 году толком не существовало. Стена, залатанная синей изолентой из кэшей и умных алгоритмов, всё-таки не выдержала. Просто понадобился достаточно сильный удар.

Что происходит внутри нейросети: миллиарды чисел и проблема внимания

Любая нейросеть — это набор параметров, проще говоря, чисел. Когда вы слышите «модель на 70 миллиардов параметров», это буквально означает 70 миллиардов чисел, каждое из которых нужно хранить в памяти. Эти числа называют весами модели, и они — результат обучения. В них закодировано всё знание нейросети: грамматика, логика, факты, способность рассуждать.

Сколько это в гигабайтах? Зависит от формата хранения. В стандартном формате FP16 (половинная точность, два байта на число) модель на 70 миллиардов параметров весит 140 гигабайт. Для сравнения: топовая потребительская видеокарта Nvidia RTX 4090 имеет 24 гигабайта видеопамяти. Модель на 70 миллиардов параметров туда не влезет даже теоретически — нужно минимум шесть таких карт. И это только чтобы модель поместилась, без учёта всего остального. А остальное — самое интересное.

Все современные большие языковые модели — GPT, Claude, Gemini — построены на архитектуре, которую называют трансформером. Её придумали в 2017 году инженеры Google, и с тех пор она стала стандартом отрасли. Ключевой механизм трансформера — так называемое внимание (attention). Представьте, что вы читаете длинное предложение. Чтобы понять смысл каждого слова, нужно учитывать контекст — все остальные слова вокруг. «Замок» означает разное в «дверной замок» и «средневековый замок» — вы это понимаете, потому что смотрите на соседние слова. Механизм внимания делает ровно то же самое, только математически.

Каждый элемент текста — токен — смотрит на все остальные токены, чтобы понять контекст. Для этого модель создаёт три матрицы: Query («что я ищу»), Key («что здесь есть») и Value («какая информация мне нужна»). Перемножение Query на Key даёт матрицу внимания — таблицу, где для каждой пары токенов записано, насколько они связаны друг с другом. И вот здесь начинается проблема.

Размер этой таблицы пропорционален квадрату длины контекста. При контексте в 2 000 токенов — примерно небольшой рассказ — матрица содержит 4 миллиона элементов. Ерунда, влезает в кэш процессора. Но возьмём модель с контекстом 128 000 токенов — это целая книга. Матрица внимания вырастает до 16 миллиардов элементов: 32 гигабайта для одного слоя, а слоёв в модели — десятки. Вот ключевая закономерность: удвоили контекст — получили не двойной, а четырёхкратный рост потребления памяти. Это квадратичная зависимость.

Есть ещё один механизм, о котором знают в основном инженеры, но именно он часто становится главным пожирателем памяти. Когда языковая модель генерирует текст, она выдаёт по одному слову за раз. Для каждого нового слова ей нужно обратиться ко всему предыдущему контексту разговора. Пересчитывать всё с нуля каждый раз было бы безумно дорого. Поэтому модель запоминает промежуточные результаты — ключевые матрицы для всех предыдущих токенов. Эту «шпаргалку» называют KV-кэшем (Key-Value cache). И вот этот кэш растёт линейно с длиной контекста и числом одновременных пользователей.

Возьмём конкретные числа. Для модели Llama 70B при контексте 128 000 токенов и одновременном обслуживании 32 пользователей KV-кэш пожирает больше терабайта памяти. Даже со специальными методами сжатия — около 640 гигабайт. Только на «шпаргалку». Веса модели — 140 гигабайт, а кэш — от 640 до 1 300 гигабайт. Шпаргалка оказалась в несколько раз тяжелее учебника.

Чтобы выдать одно слово ответа, модели нужно загрузить из памяти все свои веса — все 140 гигабайт — прогнать через них данные, получить результат и для следующего слова загрузить все 140 гигабайт снова. Каждый токен требует полной загрузки весов модели из памяти. Скорость этой загрузки определяется пропускной способностью памяти. На видеокарте Nvidia H100 — одном из самых мощных ИИ-ускорителей — память отдаёт данные со скоростью 3 350 гигабайт в секунду. Делим 3 350 на 140 — получаем теоретический максимум примерно 24 токена в секунду. Этот потолок определяется не скоростью вычислений: процессорные ядра H100 могут считать гораздо быстрее. Потолок определяется тем, как быстро память отдаёт данные.

Видео — это уже совсем другой масштаб катастрофы

Текст — самая лёгкая модальность для ИИ. Возьмём видео. Одна секунда ролика в 720p — это 30 кадров. Каждый кадр — почти миллион пикселей. Каждый пиксель — три цветовых канала. Одна секунда видео содержит информации больше, чем целая книга в текстовых токенах.

Инженеры идут на хитрость: видео сначала сжимают в так называемое латентное пространство — примерно в сто раз. Представьте, что вы берёте детальную фотографию и превращаете её в грубый набросок, из которого можно восстановить оригинал. С этим наброском и работает нейросеть. Но даже после стократного сжатия пятисекундный ролик в 720p — это больше 80 000 токенов. А квадратичная зависимость внимания при 80 000 токенов означает матрицу из 6,4 миллиарда элементов только для одного слоя. И слоёв — десятки.

Конкретные цифры. Модель Stable Diffusion Video генерирует всего 14 кадров — меньше полсекунды видео. При разрешении 576 × 1024 пикселя она потребляет 39,5 гигабайта пиковой памяти. Генерация статичной картинки того же разрешения — 6,3 гигабайта. Рост в шесть раз, и это за жалкие полсекунды. Обучение модели уровня Sora обходится свыше 100 миллионов долларов при использовании более шести тысяч видеокарт одновременно. И значительная часть стоимости — это память. Генерация видео в 4К без предварительного сжатия потребовала бы примерно в 130 раз больше памяти, чем при разрешении 256 × 256 пикселей.

А на горизонте — мультимодальные модели, которые одновременно обрабатывают текст, картинки, видео, звук, трёхмерные данные. Контекстные окна за пять лет выросли с 2 000 токенов у GPT-3 до 10 миллионов у Llama 4 Scout — рост почти в пять тысяч раз. Каждый шаг к мультимодальности, каждый новый тип данных, каждое увеличение контекста — это новый порядок потребления памяти. И каждый раз система упирается всё в ту же стену.

HBM: почему обычная оперативка не справляется

Стандартный модуль DDR5, который стоит в вашем компьютере, выдаёт около 64 гигабайт данных в секунду. Для офисных задач, игр и даже видеомонтажа — более чем достаточно. Но чтобы модель Llama 70B сгенерировала хотя бы 24 слова в секунду, память должна отдавать 3 350 гигабайт в секунду. DDR5 медленнее в пятьдесят с лишним раз. На ней модель будет выдавать меньше одного слова за две секунды.

Решение называется HBM — High Bandwidth Memory, память с высокой пропускной способностью. Чтобы понять её устройство, представьте обычную оперативную память как одноэтажный склад: широкий, просторный, но данные вывозятся через одни ворота. HBM — это многоэтажный склад с идеальной логистикой: восемь или двенадцать этажей, буквально уложенных один над другим, соединены тысячами грузовых лифтов. Данные едут одновременно со всех этажей.

Технически это восемь-двенадцать кристаллов обычной памяти, уложенных друг на друга. Каждый кристалл — тончайшая кремниевая пластинка. Они соединены тысячами микроскопических вертикальных контактов, пронизывающих все слои насквозь. Их называют TSV — Through-Silicon Vias, сквозные кремниевые переходы. Это и есть те самые лифты. Ширина шины данных у HBM — 1024 бита; у DDR5 — 64 бита.

Шестнадцатикратная разница. При этом каждый отдельный бит бежит по шине HBM медленнее, чем в GDDR. Но если GDDR — скоростная однополосная трасса, то HBM — шестнадцатиполосная магистраль. Один стек HBM3E выдаёт скорость больше 1 200 гигабайт в секунду. Nvidia H200 несёт шесть стеков HBM3E — суммарная пропускная способность превышает 4 800 гигабайт в секунду.

Но есть одна принципиальная сложность. Нельзя просто взять HBM и припаять к видеокарте: стандартные дорожки на печатной плате слишком грубые для тысяч микроскопических контактов. Нужен специальный промежуточный слой — кремниевый интерпозер, на котором рядом размещаются GPU и стеки HBM. Технология, по которой это делается, называется CoWoS (Chip on Wafer on Substrate), и практически полностью принадлежит TSMC. Можно произвести сколько угодно GPU и HBM по отдельности — без упаковки CoWoS они бесполезны, как двигатель и колёса без шасси. Nvidia зарезервировала больше 60% всех мощностей CoWoS до конца 2026 года.

Три компании против всего мира: дефицит, который не закончится

HBM производят всего три компании в мире. SK Hynix — южнокорейский гигант, контролирует около 60% рынка. Micron и Samsung делят оставшееся, при этом Samsung долгое время отставал из-за проблем с качеством при квалификации HBM3E у Nvidia. Сейчас он восстанавливает позиции и уже первым в мире начал коммерческие поставки HBM4.

Все три производителя заявили, что их продукция HBM полностью распродана до конца 2026 года. В апреле 2026 года Samsung предупредила инвесторов о «значительном дефиците» по всем видам памяти минимум до 2027 года. Это зеркально повторяет слова SK Hynix, произнесённые неделей ранее. Когда два из трёх крупнейших производителей памяти одновременно предупреждают о многолетнем дефиците — это не квартальная флуктуация.

Рынок HBM растёт стремительно: по оценкам аналитиков, с 35 миллиардов долларов в 2025 году до 100 миллиардов к 2028-му. HBM уже потребляет 23% всего мирового производства пластин для DRAM — против 19% в 2025-м. Производство одного бита HBM требует примерно в три раза больше мощностей пластинного производства, чем обычная DDR5. Это означает: каждый гигабайт HBM, произведённый для нужд ИИ-кластера, — это три гигабайта обычной памяти, которые не попали на потребительский рынок.

В итоге весь мировой ИИ висит на острове в 180 километрах от Китая — Тайване, где расположена TSMC с монополией на CoWoS, — и на полуострове рядом с Северной Кореей, где сосредоточены заводы Samsung и SK Hynix.

Почему дорожает ваш ноутбук, смартфон и SSD

Производство памяти — замкнутая система. Чистые комнаты, в которых делают чипы, стоят миллиарды. Новая фабрика строится три-пять лет. Оборудование для литографии — штучный товар, его производят буквально несколько компаний на планете. Нельзя просто щёлкнуть пальцами и удвоить выпуск.

Samsung и SK Hynix перенаправили до 40% своих мощностей под HBM. Почему? Маржинальность. Один стек HBM3E приносит в пять-десять раз больше прибыли, чем горсть модулей DDR5 для потребительского рынка. Если вы директор завода и можете продать одну и ту же пластину кремния в виде обычной памяти или в пять-десять раз дороже в виде HBM — что вы выберете?

Дальше — чистая арифметика. По данным IDC, цены на DRAM выросли примерно в два с половиной раза только за 2025 год. DRAM-цены в первом квартале 2026 года прибавили ещё 90% по сравнению с четвёртым кварталом 2025-го — это «беспрецедентный» рост, по словам аналитика TrendForce. Стоимость чипов NAND, основы любого SSD, выросла с 4 до 10 долларов за чип за несколько месяцев — то есть более чем вдвое. Потребительские SSD на терабайт, которые в 2023 году стоили 50 долларов, сегодня стоят 110 и выше.

Как это бьёт по конкретным рынкам? В среднем сегменте память составляет 15–20% себестоимости смартфона. Когда память дорожает на десятки процентов, производителям некуда девать эту разницу, кроме как переложить на покупателя. По прогнозам, рынок смартфонов сократится на 12,9% в 2026 году, рынок ПК — на 11,3%. Средняя цена смартфона достигнет исторического максимума. Lenovo, Dell, HP, Asus и Acer уже предупредили клиентов о повышении цен на 15–20%.

Apple и Samsung пострадают меньше — у них и резервы побольше, и долгосрочные контракты с поставщиками памяти, заключённые на несколько лет вперёд. Micron и вовсе свернул потребительский бренд Crucial, полностью переориентировались на корпоративных и ИИ-заказчиков. Lenovo описал происходящее как «беспрецедентный» рост затрат.

Это не циклический дефицит, не сезонная флуктуация, которая сама рассосётся. Вспомните криптобум 2017–2018: видеокарты подорожали вдвое-втрое, потому что майнеры скупали всё подряд. Но когда крипта рухнула — цены вернулись. Ковидный дефицит 2020–2021: из-за сбоев логистики нельзя было купить ни консоль, ни ноутбук. Пандемия прошла — рынок выровнялся. Но сейчас совсем другая история.

Гиперскейлеры — Microsoft, Amazon, Google — заключают многолетние контракты на поставку памяти. Они забирают ёмкости не на квартал и не на год, а на несколько лет вперёд. IDC называет происходящее не циклическим дефицитом, а «потенциально перманентным стратегическим перераспределением мирового кремния».

Как инженеры штурмуют стену: три атаки со стороны программ

Если вы думаете, что индустрия сидит сложа руки, — вы плохо знаете инженеров. Атака идёт с двух сторон: программисты учат модели обходиться меньшим количеством памяти, а разработчики железа перестраивают саму архитектуру чипов.

Первый программный подход. Помните матрицу внимания, которая растёт квадратично с длиной контекста? В 2022 году аспирант Стэнфорда Три Дао задал неочевидный вопрос: зачем вообще собирать эту огромную таблицу целиком? Представьте, что вам нужно сложить гигантский пазл, но стол слишком маленький. Стандартный подход — найти стол побольше. Подход Дао — собирать по частям: берёте фрагмент, собираете на маленьком столе, запоминаете результат, убираете, берёте следующий. Технически алгоритм FlashAttention нарезает данные на блоки, которые помещаются в быструю кэш-память прямо на чипе. Каждый блок обрабатывается локально, в медленную основную память ничего не записывается вообще. Обращений к памяти в девять раз меньше, скорость в два-четыре раза выше. Именно благодаря FlashAttention контекстные окна моделей смогли вырасти до сотен тысяч токенов.

Второй подход — квантование. Каждый параметр модели — число с кучей знаков после запятой. Квантование — это, по сути, округление. Переход от стандартного формата FP16 к INT4 сжимает модель в восемь раз. Llama 70B влезает в 35 гигабайт вместо 140. Цена: для небольших моделей на сложных логических задачах точность может проседать на 8–14%. Крупные модели переносят квантование гораздо легче — потери составляют всего 1–3%. Но в задачах, где важна каждая доля процента — например, в медицинской диагностике — даже такая разница имеет значение.

Третий, самый смелый подход — вопрос: а что, если проблема не в памяти, а в самой архитектуре трансформера? В 2023 году появилась архитектура Mamba, построенная на совершенно другом фундаменте. Она вообще не строит квадратичную матрицу внимания, а обрабатывает текст последовательно, храня компактное состояние разговора. Расход памяти постоянный — хоть тысяча токенов, хоть миллион. Пока это нишевое решение, но оно может изменить правила игры.

Как инженеры штурмуют стену: три атаки со стороны железа

Представьте повара, у которого кухня на втором этаже, а холодильник в подвале. Духовка уже раскалилась, сковородка готова — а он бегает по лестнице за каждым ингредиентом. Вот так выглядит современный процессор, ожидающий данные из памяти.

Первое решение — перенести холодильник на кухню. Технология Processing-in-Memory встраивает вычислительные блоки прямо в чипы памяти. Данные обрабатываются там, где лежат, никуда не путешествуя. Samsung уже продемонстрировал рабочие прототипы. Второе решение — сделать к холодильнику скоростной лифт. Технология CXL (Compute Express Link) объединяет память нескольких серверов в общий пул. Немного медленнее локальной памяти, зато ёмкость вдвое-вчетверо больше — GPU перестают простаивать в ожидании данных. Google 24 марта 2026 года анонсировала TurboQuant — собственную технологию сжатия памяти для языковых моделей, которая даёт шестикратное снижение потребления памяти при инференсе на H100.

Третье решение — заменить сами провода. Медные соединения на высоких скоростях теряют сигнал катастрофически. Оптические интерконнекты передают данные фотонами — без потерь и нагрева. По прогнозам, к 2028 году без оптики будет просто не обойтись: требования к скорости связи между чипами перешагнут 50 терабайт в секунду.

Каждое из этих решений бьёт в свой участок стены. Вместе они её расшатывают — но пока не пробивают. Новые мощности от Micron и SK Hynix достигнут серийного объёма не раньше 2027–2028 годов. До тех пор структурный разрыв между спросом и предложением сохранится.

Стена стоит. Что дальше?

В 1995 году Вулф и Маки озаглавили свою статью «Последствия очевидного». Ирония в том, что очевидное — самая незаметная вещь на свете. Крипта обвалилась — цены вернулись. Пандемия ушла — цены вернулись. Мы привыкли, что дефициты рассасываются.

Но ИИ растёт, и каждое следующее поколение требует больше памяти, чем предыдущее. Это новая реальность, в которой память становится стратегическим ресурсом. Дешёвые гигабайты закончились не потому, что кто-то что-то сломал или захотел нажиться. Они закончились потому, что самая трансформирующая технология поколения голодна — и сам механизм встроен в её математику, в квадратичный рост матриц внимания, в необходимость каждый раз загружать из памяти сотни гигабайт весов.

Тот, кто разрушит стену памяти, изменит мир не меньше, чем те, кто придумал транзистор. Пока стена стоит. И пока она стоит — ваш следующий ноутбук, смартфон или SSD будет дороже, чем предыдущий.

Автор

Павел Ельцов 17 мая 2026 в 12:30

Рассказать друзьям

Samsung Galaxy S26: ИИ вместо лошадиных сил

Samsung Galaxy S26 поступил в продажу — первый флагман, где железо подчинено нейросети. Galaxy AI, Privacy Display и профессиональный кодек APV.

Павел Ельцов 26 марта 2026 в 03:39

Samsung Galaxy S26 поступил в продажу 11 марта — и это первый флагман, где железо открыто подчинено нейросети. Президент мобильного подразделения Те Мун Ро заявил: отныне серьёзное обновление «железа» происходит только тогда, когда оно даёт прирост Galaxy AI. Мощность ради мощности — в прошлом.

Технически это означает, что каждый нейронный блок в чипе Snapdragon 8 Elite Gen 5 заточен под конкретные ИИ-задачи. В числе новинок — функция Privacy Display с адаптивной поляризацией экрана и поддержка профессионального видеокодека APV, который впервые появляется в мобильном устройстве. Android-мир делает шаг туда, куда Apple пришла чуть раньше.

Автор

Павел Ельцов 26 марта 2026 в 03:39

Рассказать друзьям

Nvidia покупает чужой мозг за $20 миллиардов

Nvidia лицензирует архитектуру Groq за $20 млрд для нового ИИ-чипа. Признание: LPU от Groq быстрее собственных решений Nvidia в задачах вывода.

Павел Ельцов

Nvidia готовится показать принципиально новый для себя тип чипа — процессор для вывода нейросетевых моделей, построенный не на собственной архитектуре, а на разработках стартапа Groq. Два года назад Groq почти никто не знал, но их языковой процессор (LPU) оказался лучшим на рынке для задач инференса. Nvidia оценила это и заключила лицензионное соглашение на внушительные $20 млрд.

Для компании, привыкшей диктовать архитектурные стандарты в одиночку, это неожиданный шаг. Фактически Nvidia признаёт: в гонке за скоростью вывода ИИ чужое решение оказалось быстрее собственного. Новый чип ожидается к показу в марте — и индустрия следит внимательно.

Автор

Павел Ельцов 26 марта 2026 в 03:38

Рассказать друзьям

Почему китайские смартфоны снимают лучше iPhone: вычислительная оптика, диффузионные модели и конец эпохи A-брендов

Почему китайские смартфоны снимают лучше iPhone? Разбираем алгоритмы Vivo, диффузионные модели BokehDiff и революцию в мобильной фотографии.

Павел Ельцов 18 марта 2026 в 10:38

Последние несколько лет с камерами в смартфонах происходит нечто странное. Устоявшиеся лидеры рынка — Apple, Google, Samsung — словно застряли на месте. Каждое новое поколение приносит косметические улучшения: чуть больше мегапикселей, чуть точнее автофокус, чуть лучше ночной режим. Но прорыва, сопоставимого с тем, что когда-то совершил портретный режим или ночная съёмка на Pixel, не было уже давно.

А вот китайские производители — Vivo, OPPO, Xiaomi, Huawei — за тот же период совершили колоссальный рывок. Они больше не догоняют западных и корейских конкурентов. Они задают тренды.

Возникает закономерный вопрос: что происходит? Почему китайские компании так резко вырвались вперёд? Что они делают принципиально иначе? И самое главное — действительно ли речь идёт о технологическом прогрессе, или же всё это не более чем ловкий трюк с нейросетями?

В этом материале мы подробно разберёмся в ситуации. Значительная часть анализа будет посвящена компании Vivo — не в порядке рекламы, а потому что именно на примере их технологий проще всего проследить, куда движется вся индустрия мобильной фотографии. Vivo открыто публикуют свои научные работы, их инженеры охотно отвечают на вопросы, а количество накопленного исследовательского материала позволяет провести по-настоящему глубокий разбор.

Мы объясним, как устроен «китайский» портретный режим и почему смартфоны внезапно научились безупречно обрабатывать каждый волосок на голове модели. Поговорим о главной болезни современных камерофонов — так называемой нейромазне: откуда она берётся и почему раздражает пользователей. А в конце попробуем ответить на вопрос, который многие задают уже вслух: стоит ли Apple, Google и Samsung начинать нервничать? Или, быть может, уже поздно.

Информация, собранная в этой статье, уникальна — часть данных получена напрямую от инженеров Vivo Camera Research и не публиковалась ранее в русскоязычных источниках.

Вычислительная оптика: как всё началось

2016 год. Apple совершают очередную «революцию». В iPhone 7 Plus появляется вторая камера на задней панели — телефото-модуль. По меркам того времени решение далеко не очевидное. Но именно с этого момента принято отсчитывать эпоху вычислительной оптики в мобильной фотографии.

Чтобы понять, почему это событие стало столь значимым, необходимо вспомнить базовые принципы. Фотографии, сделанные большими профессиональными камерами, привлекают нас по нескольким причинам: высокая детализация, точная цветопередача, широкий динамический диапазон. Но главное — характерное, приятное глазу размытие фона, известное как боке.

По первым трём параметрам — детализации, цветам и динамическому диапазону — мобильные камеры к тому моменту уже довольно близко подобрались к профессиональным. В этом помогли быстрые процессоры и всё более совершенные алгоритмы обработки. Однако боке — это явление чисто оптическое. Для того чтобы получить красивое, естественное размытие фона, необходим большой объектив и большой сенсор. Разместить всё это в тонком корпусе смартфона физически невозможно. Таковы законы оптики, и никакая инженерия не способна их обойти.

Но маркетинг Apple, образно говоря, не привык считаться с подобными ограничениями. Было объявлено, что отныне iPhone снимает как профессиональная камера. Так родился знаменитый портретный режим.

Портретный режим: первые шаги

Идея, реализованная в Купертино, была элегантна в своей простоте: раз получить красивое боке оптическим путём невозможно — попробуем вычислить его математически.

Когда смартфон пытается программно имитировать размытие фона, перед ним встаёт одна главная задача: понять трёхмерную структуру сцены. Иными словами, необходимо построить так называемую карту глубины. Это чёрно-белое изображение, в котором закодировано расстояние от каждой точки сцены до объектива камеры. Чем светлее пиксель — тем он ближе к камере; чем темнее — тем дальше.

Возникает ключевой вопрос: откуда вообще взять эти данные о расстоянии? У человека для определения глубины есть два глаза, работающих совместно. Apple пошли тем же путём: раз у iPhone теперь две камеры сзади — почему бы этим не воспользоваться?

Так в портретном режиме iPhone начал снимать сцену одновременно на две камеры и по разнице между полученными изображениями вычислять карту глубины — по принципу стереоскопического зрения, свойственного человеку.

Однако полученная таким образом карта оказывалась весьма грубой. Поэтому Apple сразу дополнили систему алгоритмами машинного обучения, призванными сгладить края и исправить наиболее очевидные ошибки.

Результат получился… терпимым. При условии, что зритель не всматривается слишком пристально. Первые версии портретного режима работали исключительно с лицами людей. Алгоритм старался удерживать в фокусе лицо, а всё остальное аккуратно замыливал — во многом для того, чтобы замаскировать огрехи сегментации и неточности в карте глубины.

Иными словами, несмотря на громкие маркетинговые заявления, до реальной замены большой оптики было ещё очень далеко.

Google Pixel 2: вторая камера не нужна

Прогресс, однако, не стоял на месте. Уже через год в игру вступила компания Google со своим Pixel 2 — и продемонстрировала, что для создания портретного размытия вторая камера вообще не обязательна.

Вместо неё инженеры Google использовали фокусировочные субпиксели единственного сенсора — технологию PDAF (Phase-Detect Auto-Focus, фазовый автофокус). Суть её в том, что каждый пиксель матрицы фактически разделён на два субпикселя. Камера получает два почти идентичных изображения, между которыми существует микроскопический параллакс — ничтожный сдвиг, обусловленный тем, что свет попадает на каждый субпиксель под чуть разным углом.

Этой минимальной разницы между двумя изображениями оказалось достаточно, чтобы строить карту глубины не хуже, чем у iPhone. То есть тоже — весьма посредственно.

В последующие годы все производители двигались по накатанной колее. Алгоритмы становились умнее, сегментация — аккуратнее, края — чище. К двум камерам добавлялся LiDAR-сканер (Apple), Time-of-Flight сенсоры (Samsung, Huawei), всё более сложные нейросетевые модели для определения глубины.

Но за почти десять лет ни один производитель так и не научился идеально имитировать реальную оптику.

Портретный режим оставался инструментом «для домашнего альбома и социальных сетей». Приемлемым — но далёким от совершенства. Любой, кто хоть раз всматривался в границы между объектом и размытым фоном на портретном снимке со смартфона, видел характерные артефакты: ореолы вокруг волос, размытые кончики ушей, резко «обрезанные» контуры плеч.

Vivo входит в игру

И тут к игре подключилась компания Vivo. Без громких пресс-конференций, без обещаний революции, без хвастливых слайдов с надписью «лучшая камера в истории» — их смартфоны просто начали фотографировать на уровне, который заставил индустрию обратить внимание.

Размытие — естественное. Каждый волосок, каждая ниточка, каждая шерстинка — идеально проработаны. Количество ошибок сведено к минимуму. Некоторые кадры откровенно трудно отличить от снимков, сделанных на полноценную беззеркальную камеру.

Как компания, которую за пределами Китая многие знают лишь понаслышке, сумела сделать то, что лидеры рынка не добились за десять лет?

Логичное предположение: они нашли способ строить идеальную карту глубины. Но нет. Ответ оказался куда более неожиданным.

В Vivo честно признали: построить точную карту глубины на смартфоне — задача нерешаемая в принципе. Ограничения, заложенные в самой физике маленького сенсора и короткого базиса между камерами, не позволяют этого сделать. Но вместо того чтобы биться головой о стену, инженеры Vivo нашли обходной путь.

Они решили создавать весь размытый фон целиком. Генерировать его с нуля.

Да, именно так. Тот красивый размытый фон на портретных снимках со смартфонов Vivo — это не результат «умного» размытия исходного изображения. Это генерация. И, забегая вперёд, скажем, что размытие — далеко не единственное, что генерируется.

Но прежде чем хвататься за сердце и обвинять Vivo в «нейросатанизме», стоит разобраться в том, как именно работает эта технология. Потому что она, по существу, гениальна.

Диффузионные модели: почему боке на смартфонах не работало

Чтобы понять, в чём заключается прорыв Vivo, необходимо сначала осознать, почему все предшествующие методы имитации боке неизбежно давали сбой.

Ахиллесова пята всех существующих алгоритмов программного размытия — это области с так называемым разрывом глубины. Границы, где происходит резкий переход от близких объектов к дальним: контур головы на фоне далёкой стены, пальцы руки перед размытым пейзажем, прядь волос, выбившаяся из общей массы.

Именно на этих границах даже самые продвинутые алгоритмы начинают давать ошибки. Причина фундаментальна: все существующие методы строго опираются на карту глубины. Если в карте есть неточности — а они неизбежны, — то неточности возникнут и в размытии. Избежать этого практически невозможно в местах, где присутствует множество мелких деталей: волосы, мех, ветви деревьев, складки ткани.

В результате алгоритм попадает в одну из двух ловушек.

Либо он размывает то, что размывать нельзя — и вокруг объекта появляется характерный мутный ореол, «свечение», которое мгновенно выдаёт программную природу размытия.

Либо, напротив, не размывает то, что следовало бы — и по контуру объекта возникают жёсткие, неестественные края, словно фигуру вырезали ножницами и наклеили на размытый фон.

Самое обидное в этой ситуации — всё остальное может быть сделано безупречно: экспозиция, цвета, общая композиция, характер размытия вдали от границ. Но эти мелкие дефекты на переходах мгновенно бросаются в глаза и разрушают всю иллюзию.

У Vivo же — именно там, где все прочие спотыкаются, — внезапно всё работает. Как?

Ответ связан с технологией, которая в последние годы перевернула всю индустрию генеративного искусственного интеллекта. Речь о диффузионных моделях — тех самых нейросетях, на которых построены Midjourney, Stable Diffusion и их многочисленные аналоги. Именно они генерируют бесконечные потоки изображений: от фотореалистичных портретов до фантастических пейзажей.

Рассуждение инженеров Vivo было логичным: если диффузионная модель способна генерировать любые изображения в высоком разрешении с впечатляющей детализацией — почему бы не обучить её генерировать изображения с оптически корректным размытием?

Так появился алгоритм BokehDiff.

Как работает BokehDiff

BokehDiff — это диффузионная модель, построенная на базе архитектуры Stable Diffusion XL. Разработчики этого не скрывают: соответствующая научная работа опубликована в открытом доступе на arxiv.org и была принята на конференцию ICCV 2025 — одну из наиболее авторитетных площадок в области компьютерного зрения.

Однако работает BokehDiff совершенно нестандартно.

Для понимания необходимо кратко напомнить, как функционируют обычные диффузионные модели. По своей сути это чрезвычайно продвинутые системы подавления шума, наделённые, образно говоря, богатым воображением.

Базовый принцип прост. Модели предъявляется изображение, состоящее из случайного шума, и даётся указание: «На этой картинке — суслик. Убери шум и покажи суслика». Модель шаг за шагом удаляет шум, на каждом этапе «воображая» всё больше деталей. Через сотню, две сотни, пять сотен итераций шум исчезает — а суслик действительно появляется.

Существует и другой сценарий использования. Берётся готовое изображение в низком качестве, к нему добавляется шум, а затем модели сообщают: «На самом деле это превосходная фотография в высоком разрешении. Просто шум мешает её разглядеть». Нейросеть послушно удаляет шум и попутно дорисовывает детали, которых в исходном изображении не существовало.

Но в этом подходе кроются две фундаментальные проблемы.

Во-первых, диффузию невозможно применить «чуть-чуть». Каждый раз, добавляя шум к изображению, мы разрушаем его исходную структуру и затем собираем заново. В процессе картинка неизбежно меняется: модель привносит собственные «фантазии», искажает детали, подменяет текстуры.

Во-вторых, сотни итераций — это огромные вычислительные затраты. Для серверных GPU это терпимо, но для мобильного процессора — совершенно неприемлемо. Пользователь не станет ждать минуту, пока смартфон обработает портретный снимок.

Требовался алгоритм, который работает быстро, не фантазирует лишнего и при этом соблюдает физику оптического размытия.

И здесь инженеры Vivo в буквальном смысле перевернули саму идею диффузионных моделей.

Они решили вообще не добавлять шум к исходному изображению. Вместо этого они взяли чёткую, необработанную фотографию — без каких-либо изменений — и «сказали» нейросети: «Это зашумлённая версия снимка с боке. Найди этот шум и удали его. Но главное — сделай всё за один проход».

С точки зрения нейросети, чёткое изображение — «неправильное». Оно «испорчено шумом», который скрывает под собой «истинную» размытую версию. Задача сети — найти этот «шум» и удалить его. И попытка — всего одна.

Результат превзошёл ожидания. Никаких сотен итераций. Никаких неконтролируемых фантазий. На выходе — аккуратное, визуально убедительное боке за один вычислительный шаг.

PISA: физика на страже реализма

Но одной лишь генерации недостаточно. Принципиально важно, чтобы размытие выглядело не просто красиво, а оптически корректно — как у настоящей камеры с большим объективом.

Поэтому в архитектуру BokehDiff встроен специализированный модуль, выполняющий роль строгого надзирателя за физической достоверностью результата. Он называется PISA — Physics-Inspired Self-Attention, «физически вдохновлённый модуль самовнимания».

Чтобы понять его роль, нужно знать, что в обычных диффузионных моделях механизмы самовнимания (self-attention) отвечают за общее понимание структуры изображения. Они следят за композицией и обеспечивают целостность: без них нейросеть могла бы нарисовать глаз «где-нибудь» в произвольном месте; с ними она понимает, что глаз должен располагаться строго определённым образом относительно носа, рта и другого глаза.

В BokehDiff модуль самовнимания выполняет иную задачу. PISA следит не за композицией картинки, а за физикой размытия, контролируя соблюдение трёх ключевых принципов.

Первый принцип — сохранение энергии (Energy-Conserved Normalization). Свет не возникает из ниоткуда и не исчезает бесследно. Когда пиксель размывается, его яркость не пропадает — она перераспределяется между соседними пикселями. PISA следит за тем, чтобы суммарная яркость сцены оставалась неизменной. Это устраняет тёмные пятна и засветы, типичные для программного размытия.

Второй принцип — ограничение кругом нерезкости (Circle-of-Confusion Spatial Constraint). В реальной оптике всё устроено просто: чем дальше объект от плоскости фокусировки, тем сильнее он размывается. PISA воспроизводит эту зависимость программно. Модуль берёт карту глубины, выбранную точку фокусировки и виртуальную диафрагму, после чего для каждого пикселя рассчитывает допустимый радиус размытия. В итоге степень размытия не скачет хаотично от пикселя к пикселю: объекты вблизи фокуса остаются чёткими, удалённые плавно уходят в боке, а размер кружков нерезкости определяется значением виртуальной диафрагмы — в точности как у настоящего объектива.

Третий принцип — маска самоокклюзии (Self-Occlusion Mask). Это, пожалуй, самый важный из трёх. PISA следит за тем, чтобы размытый фон не «наезжал» на объекты переднего плана. Модуль попиксельно строит маску видимости, определяя, что принадлежит переднему плану (и должно располагаться «поверх» всего), а что является фоном (и уходит на задний слой).

Именно благодаря маске самоокклюзии алгоритм столь успешно справляется с волосами, шерстью, нитками и полупрозрачными деталями — теми самыми элементами, на которых неизменно спотыкались все предшествующие методы. Границы остаются чистыми, без ореолов и грубых краёв.

И ещё одно важное следствие: даже если карта глубины содержит ошибки (а она неизбежно их содержит), на финальном результате это почти не сказывается. Почему? Ответ — в том, как модель обучали.

Как приручить BokehDiff: секрет обучающих данных

Классическая проблема в мире нейросетей — качество обучающих данных. Чтобы обучить алгоритм уровня BokehDiff, в идеале необходимы тысячи, а лучше десятки тысяч идеальных пар фотографий: одна — полностью резкая, и она же — с настоящим оптическим боке, снятая в абсолютно идентичных условиях.

Где взять такой массив данных? Снять его на реальную камеру невозможно: между двумя кадрами камера неизбежно чуть сдвинется, изменится освещение, подует ветер — а для обучения критична даже минимальная разница между парами. Создать датасет средствами трёхмерного рендеринга тоже не выход: сгенерированные сцены выглядят неестественно и «пластмассово», а обученная на них модель будет плохо работать с реальными фотографиями.

Инженеры Vivo нашли остроумное решение. Раз они и так работают с диффузионными моделями, способными генерировать фотореалистичные изображения, — почему бы не сгенерировать идеальный обучающий датасет? Процесс был устроен следующим образом. Сначала было собрано большое количество реальных, высококачественных фотографий фонов, снятых с максимальной резкостью и глубиной. Затем поверх этих подлинных фонов с помощью диффузионных моделей генерировались фотореалистичные объекты переднего плана: люди, животные, предметы — причём сразу с альфа-каналом, то есть с идеально проработанной прозрачностью и краями. После этого фон размывался физически корректным образом — с учётом точно известных параметров: расстояния до каждого объекта, диафрагмы, фокусного расстояния.

В результате получился датасет, о котором можно только мечтать: идеальные пары фотографий — резкая и размытая версии — с любой диафрагмой на выбор и безупречной маской сегментации.

Но самое интересное — и самое принципиальное — решение последовало далее. В реальности ничего идеального не бывает. Карта глубины, которую смартфон строит в полевых условиях, всегда содержит ошибки, шум и неточности. Поэтому при обучении инженеры начали целенаправленно портить карту глубины, подаваемую на вход модели. Вносили ошибки, шум, снижали точность и разрешение — имитируя те несовершенства, с которыми алгоритм неизбежно столкнётся в реальной жизни.

В результате BokehDiff научился не полагаться слепо на карту глубины и не «паниковать» из-за ошибок, а принимать решения по контексту — опираясь на своё «понимание» того, как должно выглядеть оптически корректное размытие. Именно поэтому на практике алгоритм демонстрирует поразительную устойчивость к неточностям входных данных.

Можно без преувеличения сказать, что BokehDiff — это прорыв в вычислительной оптике, которого индустрия ждала почти десять лет.

Тем не менее необходимо сделать оговорку. На момент публикации этого материала (середина 2025 года) BokehDiff используется только в новейших флагманах Vivo 300-й серии, и то не во всех режимах. К примеру, портретная съёмка на фронтальную камеру по-прежнему опирается на более ранние методы обработки. Но компания заявляет о планах по значительно более широкому внедрению алгоритма в будущих устройствах.

Нейромазня: слон в комнате

BokehDiff — далеко не единственная нейросеть, работающая в камерах смартфонов Vivo. И если портретное размытие вызывает преимущественно восхищение, то другие нейросетевые модели порождают куда более противоречивые чувства.

Прежде чем перейти к деталям, уместен вопрос: откуда вообще стало известно, что именно алгоритм BokehDiff используется в смартфонах Vivo — и конкретно в моделях X300 и X300 Pro?

Ответ прост. Был отправлен запрос напрямую одному из авторов научной работы — ведущему инженеру подразделения Vivo Camera Research. И он ответил. Более того, он не только подтвердил предположение относительно BokehDiff, но и предоставил информацию о четырёх других моделях, которые уже функционируют в камерах смартфонов Vivo прямо сейчас.

Все четыре модели, как и BokehDiff, являются диффузионными. Но есть принципиальное отличие: они не размывают детали, а, напротив, дорисовывают их.

Модель первая: TSD-SR — универсальное сверхразрешение

TSD-SR (One-Step Diffusion with Target Score Distillation for Real-World Image Super-Resolution) — алгоритм повышения чёткости и детализации. Он работает практически постоянно, обрабатывая все фотографии целиком — вне зависимости от режима съёмки.

Как и BokehDiff, модель функционирует в один шаг, что делает её примерно в сорок раз быстрее аналогичных диффузионных алгоритмов сверхразрешения. При этом, согласно опубликованным бенчмаркам, TSD-SR демонстрирует лучшее качество среди всех конкурирующих методов.

Результаты действительно впечатляют. На сравнительных иллюстрациях, приведённых в научной работе, видно, как алгоритм восстанавливает мельчайшие текстуры оперения птиц, структуру радужной оболочки глаза, узоры на крыльях бабочек — детали, которые в исходном изображении были либо смазаны, либо отсутствовали вовсе.

Модель вторая: TriFlowSR — сверхразрешение для архитектуры

TriFlowSR (Ultra-High-Definition Reference-Based Landmark Image Super-Resolution with Generative Diffusion Prior) — узкоспециализированный алгоритм сверхразрешения, предназначенный исключительно для архитектурных объектов.

Результаты этой модели выглядят почти невероятно. Размытые, едва различимые декоративные элементы зданий — лепнина, черепица, резьба по камню — после обработки приобретают такую степень детализации, что возникает ощущение, будто фотография была переснята с близкого расстояния.

Отдельного внимания заслуживает сравнение с универсальным TSD-SR на тех же архитектурных сценах: специализированная модель неизменно выигрывает. Это объясняет, зачем в смартфон необходимо интегрировать сразу несколько разных нейросетей: универсальный алгоритм в принципе не способен достичь того качества, которое обеспечивает модель, обученная на узком классе изображений.

Модель третья: TADiSR — сверхразрешение для текста

TADiSR (Text-Aware Real-World Image Super-Resolution via Diffusion Model with Joint Segmentation Decoders) — ещё один специализированный алгоритм, на сей раз ориентированный на текст в изображениях.

Номера домов, уличные вывески, надписи на этикетках — всё, что при цифровом увеличении обычно превращается в нечитаемую кашу, TADiSR аккуратно восстанавливает, возвращая буквам чёткие очертания. Практичная и полезная технология, не вызывающая никаких этических вопросов.

Модель четвёртая: AuthFace — и тут начинаются проблемы

AuthFace (Towards Authentic Blind Face Restoration with Face-oriented Generative Diffusion Prior) — модель реконструкции лиц. И именно на ней Vivo, мягко говоря, споткнулись.

Когда смартфон дорисовывает детали архитектуры или повышает чёткость текста — никто не возражает. Пользователи рады дополнительным деталям. Но когда нейросеть начинает «работать» с лицами людей, отношение меняется кардинально.

Что, как правило, первым делом делает новый владелец смартфона Vivo? Ищет способ отключить все бьютификации и нейросетевую дорисовку лиц. Профильные форумы переполнены жалобами и рецептами «как это выключить». Увы, сделать это безболезненно и без компромиссов — практически невозможно.

Но в чём причина недовольства? Неужели алгоритм плох? Отнюдь. С технической точки зрения AuthFace — один из лучших в своём классе. На сравнительных иллюстрациях из научной работы хорошо видно: там, где конкурирующие модели (GFP-GAN, CodeFormer, DR2, BFRffusion, SUPIR) выдают откровенные артефакты и деформации, AuthFace показывает весьма достойный результат.

Но — не идеальный. И в этом заключается ключевая проблема.

Если нейросеть дорисовала лишнюю травинку на газоне или несуществующую текстуру на кирпичной кладке — это, по большому счёту, никого не волнует. Но если она добавила или изменила хотя бы одну деталь на лице — морщину, родинку, форму брови — это ошибка, которой нет прощения. Человеческий мозг натренирован распознавать лица с невероятной точностью, и любое, даже незначительное отклонение от ожидаемого вызывает мгновенное ощущение «неправильности».

Аналогия с кулинарией здесь напрашивается сама собой. Нейросети в камере — как приправы в блюде. Применённые уместно и в меру, они превращают пресную кашу из серых пикселей во вкусную, аппетитную фотографию. Но стоит переборщить — и блюдо становится несъедобным.

У китайских производителей уже есть все необходимые ингредиенты. Осталось лишь немного подправить рецепт — найти правильный баланс между агрессивной обработкой и естественностью. Впрочем, не исключено, что дело попросту в различии вкусов: внутренний рынок Китая традиционно благосклонен к заметной обработке лиц, тогда как западная и российская аудитория предпочитает естественность.

Аппаратный фундамент: железо и оптика

Если до сих пор речь шла преимущественно о программных алгоритмах, то теперь пришло время взглянуть на аппаратную составляющую — и понять, почему крупнейшим брендам действительно есть о чём беспокоиться.

На протяжении многих лет Apple, Samsung и Google продавали по премиальной цене довольно среднее — по нынешним меркам — железо. Сенсоры в их смартфонах меньше, чем у китайских конкурентов. Оптика слабее: хроматические аберрации, потеря резкости по краям кадра и, в случае Apple, ставшие притчей во языцех блики от ярких источников света.

Справедливости ради, долгое время это работало. За счёт превосходных алгоритмов обработки, мощных специализированных чипов и жёсткой вертикальной интеграции аппаратного и программного обеспечения те же iPhone, пусть и не блистая по «железным» характеристикам, стабильно выдавали качественный и, что не менее важно, предсказуемый результат. Пользователь знал: нажал кнопку — получил хорошую фотографию. Без сюрпризов.

Сейчас ситуация изменилась. iPhone стабильно уступают китайским флагманам в слепых сравнениях фотографий. Причём речь не только о Vivo — они проигрывают практически всем: Huawei, Xiaomi, OPPO и даже OnePlus.

В области видеосъёмки iPhone пока удерживает позиции — это правда. Однако разрыв стремительно сокращается. И на то есть объективные причины.

Китайские производители за последние годы совершили качественный скачок не только в нейросетевых алгоритмах, но и в аппаратной части — буквально по всем фронтам.

Возьмём Vivo в качестве примера. Компания не просто приобретает «с полки» самый дорогой и крупный сенсор, доступный на рынке, и устанавливает его в смартфон. Vivo совместно с Sony и Samsung проектируют сенсоры по собственным техническим заданиям. Иными словами, сенсоры заточены под конкретный конвейер обработки изображений, используемый в их устройствах.

Аналогичная ситуация с оптикой. Vivo разрабатывают оптические модули самостоятельно, а также — если верить маркетинговым материалам — в сотрудничестве с немецкой компанией ZEISS. Вне зависимости от степени участия ZEISS, главное остаётся фактом: оптика кастомная, созданная под конкретные задачи, а не взятая из каталога стандартных компонентов.

Но, пожалуй, наиболее примечательные вещи происходят в области специализированных чипов обработки изображений.

Два ISP-чипа: VS1 и V3+

В модели X300 Pro установлены сразу два процессора обработки изображений (ISP — Image Signal Processor), разработанных собственным подразделением Vivo.

Первый — VS1. Он отвечает за предварительную обработку: экспозицию, автофокус, HDR-стекинг (объединение нескольких кадров с разной экспозицией), первичное шумоподавление. VS1 работает ещё до того, как фотография «станет» фотографией. Он анализирует сцену в реальном времени, помогает правильно экспонировать кадр, навести фокус и собрать максимально чистые исходные данные. Именно поэтому уже «на входе» у Vivo картинка отличается высоким качеством.

Кроме того, VS1 отвечает за превью в приложении камеры. Благодаря этому пользователь видит на экране смартфона практически финальный результат — включая портретное размытие в реальном времени, — ещё до нажатия кнопки спуска. Долгие годы эта функциональность была эксклюзивной прерогативой Apple.

Второй чип — V3+. Он отвечает за постобработку: берёт на себя все наиболее сложные и ресурсоёмкие задачи, в том числе запуск всех описанных выше нейросетевых алгоритмов — BokehDiff, TSD-SR, TriFlowSR, TADiSR, AuthFace.

Интеграция в Dimensity 9500: переломный момент

Однако самое важное событие произошло в 2025 году. Vivo заключили соглашение с компанией MediaTek, и чип V3+ был интегрирован непосредственно в системный чипсет Dimensity 9500.

Это означает, что процессор обработки изображений теперь находится на одном кристалле с центральным процессором, графическим ядром, памятью и всей остальной логикой — и выполнен по самому передовому на сегодня техпроцессу: 3 нанометра.

Практические следствия этого решения значительны. Максимальная скорость обработки при минимальном энергопотреблении и нагреве. Минимальные задержки при передаче данных между компонентами.

Результаты ощутимы на практике. Смартфон меньше нагревается при длительной работе камеры. Быстрее снимает и обрабатывает кадры. И может позволить себе такую роскошь, как запись 4K-видео в портретном режиме при 60 кадрах в секунду. Или запись 4K LOG с частотой 120 кадров в секунду — напрямую во внутреннюю память. iPhone на момент публикации этого материала подобных возможностей не предоставляет.

Прежде встроить кастомный ISP непосредственно в систему на кристалле могли позволить себе лишь Apple (со своими чипами серии A и M), Samsung (с линейкой Exynos) и отчасти Google (с процессорами Tensor, хотя, справедливости ради, это не помогло им совершить прорыв в качестве фото). Теперь в этом элитном клубе — и Vivo.

Более того, Vivo не закрывают доступ к своему ISP для других производителей, использующих платформу Dimensity 9500. Возможно, именно поэтому OPPO Find X9, построенный на том же чипсете, фотографирует на уровне, вплотную приближающемся — а порой и превосходящем — результаты самого Vivo. Вероятно, свою роль играет и собственное партнёрство OPPO с Hasselblad.

Главное наблюдение: судя по темпам прогресса, китайские производители не собираются останавливаться.

Стоит ли выбрасывать iPhone?

Итак, напрашивается вопрос: настало ли время массово переходить на китайские смартфоны и отказываться от Apple, Google и Samsung?

Ответ — нет. По крайней мере, не для всех.

В формате «достал и снял, не задумываясь о настройках» iPhone и Google Pixel по-прежнему остаются чемпионами. Особенно iPhone — это, пожалуй, самая удобная, самая надёжная и, что критично для многих пользователей, самая предсказуемая камера на рынке. Вы знаете, какой результат получите. Каждый раз.

С китайскими флагманами, особенно с Vivo, придётся потрудиться. Разобраться в многочисленных настройках, которых там действительно много. Сделать сотни тестовых снимков. Понять, какой режим и для какой сцены лучше подходит. Найти оптимальный баланс нейросетевой обработки — или научиться её отключать.

Но если вам интересна мобильная фотография как таковая, если вы готовы экспериментировать с настройками, изучать возможности камеры и стремитесь к максимально возможному качеству снимков со смартфона — китайские бренды сегодня заслуживают самого пристального внимания.

По крайней мере, в области фотографии они объективно опережают нынешних лидеров рынка на пару поколений. И куда вся эта история приведёт нас дальше — пожалуй, самый интригующий вопрос, ответ на который ещё только предстоит узнать.

Автор

Павел Ельцов 18 марта 2026 в 10:38

Рассказать друзьям

ChatGPT 5.3 Instant убавил «кринж» и стал меньше умничать

OpenAI выпустила GPT-5.3 Instant — модель перестала «умничать» и теперь отвечает естественно. Галлюцинации снижены на 26%, а GPT-5.4 уже на подходе.

Павел Ельцов 8 марта 2026 в 03:47

3 марта OpenAI выкатила GPT-5.3 Instant — обновление, которое слушает пользователей, а не бенчмарки. Главная претензия к GPT-5.2 была проста: модель слишком много умничала, читала лекции вместо ответов и начинала фразами вроде «Остановись. Сделай вдох» или «Ты не сломан, и это не только твоя проблема». OpenAI назвала этот стиль «cringe» — и убрала его.

GPT-5.3 Instant фокусируется на трёх вещах, которые пользователи чувствуют каждый день: тон, релевантность и естественный разговор. Модель теперь реже отказывается отвечать на безопасные вопросы — раньше GPT-5.2 перестраховывалась и блокировала запросы, которые могла спокойно выполнить. Плюс модель лучше понимает контекст и даёт ответ сразу, без длинных вступлений.

Главное улучшение — точность. Галлюцинации упали на 26,8% при использовании веб-поиска и на 19,7% без интернета. OpenAI протестировала это на вопросах из медицины, права и финансов — областях, где ошибки стоят дорого. Модель также лучше балансирует собственные знания с информацией из интернета, вместо того чтобы просто пересказывать ссылки.

GPT-5.3 Instant доступен всем пользователям ChatGPT с 3 марта, разработчикам — через API под именем gpt-5.3-chat-latest. Предыдущая версия GPT-5.2 Instant останется для платных подписчиков до 3 июня 2026 года, после чего будет отключена. Обновления для версий Thinking и Pro обещаны в ближайшие недели.

Но самое интересное — через час после анонса OpenAI опубликовала в X простую фразу: «5.4 скорее, чем вы думаете». Ссылки на GPT-5.4 уже появлялись в pull requests Codex и в тестах для избранных пользователей. Похоже, OpenAI ускоряет цикл обновлений: раньше новые версии выходили раз в полгода, теперь — каждые 90 дней или быстрее. Гонка reasoning превращается в спринт, и OpenAI не собирается отставать от Anthropic Claude и Google Gemini.

Автор

Павел Ельцов 8 марта 2026 в 03:47

Рассказать друзьям

Google Gemini 3.1 Pro скачок разума всего за три месяца

Google выпустила Gemini 3.1 Pro с удвоенным reasoning и 77,1% на ARC-AGI-2. Темпы обновлений ускорились — прямая атака на GPT-5 и Claude.

Павел Ельцов 24 февраля 2026 в 06:22

20 февраля Google выпустила Gemini 3.1 Pro — первый раз в истории компания использует инкремент к приставке «.1» вместо привычного «.5». Модель удвоила мощность рассуждения (reasoning performance) по сравнению с Gemini 3 Pro и достигла 77,1% на ARC-AGI-2 бенчмарке — тесте, который проверяет способность ИИ решать совершенно новые логические паттерны.

Отмечается, что это не просто улучшение показателей для статистики. Google фокусируется на создании полноценного агента с возможностями выполнения разных задач (agentic workflows) и более улучшенными возможностями рассуждений для задач, которые требуют глубокий ответ. Модель умеет генерировать анимированные SVG-изображения с кодом, строить сложные приложения вроде симуляторов городского планирования, синтезировать огромные датасеты.

Gemini 3.1 Pro доступен в Gemini app для всех, с повышенными лимитами для Google AI Pro и Ultra подписчиков, плюс эксклюзивно в NotebookLM для платных пользователей. Разработчики получают доступ через Gemini API, Vertex AI, Google Antigravity и Android Studio.

Почему это важно: три месяца назад вышел Gemini 3 Pro, теперь Google выкатывает «.1» вместо традиционного полугодового цикла. Это ускорение темпов развития — и прямая атака на OpenAI GPT-5 и Anthropic Claude Opus 4.6. Гонка мощностей рассуждения (reasoning) превращается в спринт, где обновления выходят каждые 90 дней, а не раз в полгода.

Автор

Павел Ельцов 24 февраля 2026 в 06:22

Рассказать друзьям

Игровые миры будущего: как искусственный интеллект меняет индустрию видеоигр

ИИ создаёт игровые миры: как нейросети генерируют вселенные, оживляют NPC и меняют геймдев. Обзор Google Genie 3, NVIDIA ACE и технологий будущего.

Павел Ельцов 13 февраля 2026 в 03:42

Посмотрите внимательно на новейшие технологические демонстрации Google. Перед вами абсолютно новая игра, созданная в реальном времени. Графика впечатляет? Геймплей выглядит интересно?

Главное — всё, что вы видите, не создано традиционными разработчиками. Более того, это мир, который в режиме реального времени генерирует нейросеть по одному текстовому описанию.

Никаких программистов в классическом понимании, никаких игровых движков в привычном формате. Просто искусственный интеллект, который понимает, как устроены виртуальные миры.

Впервые в истории человечества мы можем создавать целые вселенные. Не метафорически, а буквально — со своими законами физики, живыми существами, развивающимися экосистемами. Мы стали архитекторами реальностей.

Но как такое вообще возможно?

Тихая революция в игровой индустрии

Пока геймеры спорят о графике в новых AAA-проектах и ждут анонсов, в лабораториях Google, Microsoft и NVIDIA рождаются технологии, которые полностью перевернут представление о том, как создаются и работают игры.

По данным Google, почти девяносто процентов игровых студий активно экспериментируют и внедряют генеративный ИИ в свои процессы разработки.

Недавний скандал с игрой года Clair Obscur: Expedition 33 и использованием генеративного ИИ в разработке лишь подтверждает масштаб трансформации. О чём говорить, если сам Хидео Кодзима — признанный гений игровой индустрии — в интервью Nikkei Trend заявил о планах применять технологию для повышения эффективности работы, а также для персонализации игр, чтобы геймплей подстраивался под конкретного человека.

«С помощью ИИ можно сократить задачу, которая раньше занимала десять часов, до буквально нескольких десятков секунд. Ещё увеличивается объём того, что может сделать один человек. Уже сейчас появляется всё больше создателей, которые в одиночку делают проекты, сопоставимые с работой целой команды», — отметил Кодзима.

И это лишь вершина айсберга. Нейросети не просто помогают художникам рисовать текстуры, а программистам искать ошибки в коде. Они создают целые игровые миры за считанные секунды. Персонажей, которые помнят каждый ваш разговор и строят с вами отношения. Уникальные квесты, которые адаптируются под ваш стиль игры.

Каждое новое поколение ИИ приближает нас к созданию полноценных симуляций. Миров, где неигровые персонажи (NPC) не следуют скриптам, а проживают настоящую жизнь.

В этом материале мы покажем, как искусственный интеллект уже интегрирован в современные игры. Речь про технологии, которые используются каждый день, даже если вы не подозреваете об этом. Также поговорим о невероятном достижении современности — генерации целых игровых миров, разберём, как работает Google Genie 3, и сравним его с подходами Microsoft и китайского проекта Yan.

Мы расскажем, как искусственный интеллект учится быть создателем миров, как технологии дают человеку силу, о которой раньше можно было только мечтать, и насколько близко мы подошли к моменту, когда различить симуляцию и реальность станет невозможно.

ИИ сегодня: невидимая революция в каждой игре

Современные видеоигры используют искусственный интеллект настолько органично, что большинство игроков даже не осознают масштаб его присутствия. Технологии, которые ещё пять лет назад считались экспериментальными, сегодня работают в каждой AAA-игре.

DLSS: нейросеть рисует мир

По состоянию на февраль 2026 года технология NVIDIA DLSS (Deep Learning Super Sampling) достигла версии 4.5 и представляет собой наиболее наглядный пример этой невидимой революции. При её активации в игре вроде Cyberpunk 2077 нейросеть дорисовывает до 75% пикселей на экране. Игра рендерит изображение в разрешении 1080p, а на мониторе отображается картинка качества 4K. Всё происходит в реальном времени, с задержкой менее двух миллисекунд на кадр.

Но фокус не только в увеличении разрешения. Нейросеть анализирует движение объектов между кадрами, использует информацию из предыдущих фреймов, чтобы восстановить мелкие детали. Она буквально предсказывает, как должна выглядеть картинка в высоком разрешении, основываясь на миллионах часов обучения.

Результат? Вместо 30 кадров в секунду пользователь получает стабильные 60 или даже 240 FPS благодаря новой технологии динамической генерации кадров в DLSS 4.5. Игра работает в два-шесть раз быстрее при той же или даже лучшей визуальной чёткости.

Только представьте: нейросеть дорисовывает то, чего не существует. Создаёт детали из ничего и предсказывает, как должен выглядеть мир. Мы передали машине способность творить визуальную материю. И это происходит десятки, сотни раз в секунду прямо в вашем компьютере.

Архитектура DLSS базируется на трансформерной нейронной сети второго поколения (в DLSS 4.5). Система анализирует не только текущий кадр, но и векторы движения, карту глубины, историю предыдущих кадров. Tensor-ядра в GPU выполняют до 300 триллионов операций в секунду, реконструируя детали, которых физически нет в исходном изображении.

Процесс проходит через шесть последовательных слоёв анализа. Первый слой выделяет границы объектов. Второй определяет текстуры. Третий анализирует согласованность между кадрами. Четвёртый восстанавливает мелкие детали. Пятый устраняет артефакты. Шестой выполняет финальную цветокоррекцию. И это занимает всего 1,8 миллисекунды.

NVIDIA инвестировала более двухсот пятидесяти миллионов долларов в разработку технологии. Результат: видеокарта уровня RTX 4060 с включённым DLSS может выдавать графику, сопоставимую с более мощными моделями.

Более 400 игр и приложений на февраль 2026 года поддерживают технологию DLSS, причём более 250 из них используют DLSS 4 с генерацией множественных кадров (Multi Frame Generation) — это самая быстро внедряемая игровая технология NVIDIA в истории.

ACE: персонажи с памятью и эмоциями

Но графика — это только начало. Настоящая ИИ-революция происходит с игровыми персонажами. NVIDIA создала целую платформу под названием ACE — Avatar Cloud Engine, объединяющую сразу несколько ИИ-систем в единый конвейер.

Во-первых, распознавание речи — вы говорите с персонажем голосом, и он вас понимает. Во-вторых, языковая модель с миллиардами параметров, оптимизированная специально для игр. Она понимает контекст игры, помнит предыдущие разговоры, имеет собственную личность. В 2025 году NVIDIA представила обновлённые модели Nemotron Nano 9B V2 и Qwen3-8B для ACE, обеспечивающие ещё более реалистичные взаимодействия.

Но самое впечатляющее — технология Audio2Face. Она берёт поток аудио и в реальном времени генерирует реалистичную лицевую анимацию. Движения губ, мимика, эмоции — всё синхронизируется автоматически. Раньше на анимацию одного диалога уходили недели работы аниматоров. Теперь — доли секунды работы нейросети.

Получается, что с помощью ACE мы дали цифровым персонажам подобие сознания. Память, которая формирует личность, а ещё способность учиться и развивать отношения. То есть каждый NPC становится героем со своей историей и характером. Мы больше не программируем поведение — мы создаём условия для его возникновения. Как эволюция, только в ускоренном режиме.

В начале 2026 года на выставке CES были представлены новые интеграции ACE. Например, в игре PUBG: Battlegrounds появился ИИ-напарник PUBG Ally с долговременной памятью, который эволюционирует вместе с игроком. В Total War: PHARAOH внедрён динамический ИИ-советник, помогающий игрокам осваивать сложные игровые системы и механики.

Gaming Copilot: умный помощник извне

Есть и такой ИИ, который прямо сейчас помогает игроку, и его создали в Microsoft. Gaming Copilot интегрирован прямо в игровую панель Windows и работает как персональный ассистент — это умный игровой помощник «снаружи», а не NPC с искусственным интеллектом внутри игры.

Застряли на головоломке? Copilot посмотрит на экран и подскажет решение. Не можете победить босса? Получите анализ его паттернов атак и слабых мест. Причём можно спросить совет, не отрываясь от геймплея, ведь всё работает через голосовые команды.

ИИ «видит», что происходит в игре, анализирует скриншоты экрана, понимает контекст, распознаёт врагов, предметы и интерфейс. Можно буквально сказать: «Эй, что это за штука слева?» — и получить подробное объяснение.

Помимо гигантов индустрии существует множество проектов от компаний поменьше, которые создают игровых помощников, виртуальных аватаров, возможность создавать текстуры для игр и многое другое.

Мы начали с малого — научили ИИ улучшать картинку и оживлять персонажей. Но на самом деле мы передаём машинам всё больше власти, в том числе творческой. Сначала они дорисовывают пиксели, потом создают личности. А дальше? Дальше они начинают создавать целые миры.

Google Genie 3: рождение миров из текста

В августе 2025 года Google DeepMind представила технологию, которая стала настоящим прорывом в области генерации игровых миров. Genie 3 — это скачок, сравнимый с переходом от немого кино к звуковому.

Но давайте сразу проясним: Genie 3 не создаёт видео. Это принципиально важно понять. Она создаёт интерактивные пространства, в которых можно играть в реальном времени — двигаться, взаимодействовать с объектами, наблюдать, как мир реагирует на ваши действия.

Обычные генераторы видео — это режиссёры. Они снимают фильм, который можно только смотреть. Genie 3 — это архитектор вселенных. Нейронная сеть создаёт мир, в котором можно находиться и жить.

И это не преувеличение. Раньше создание игрового мира требовало сотен людей и годы работы. Каждый камень размещался вручную, каждое дерево программировалось отдельно. Теперь? Вы пишете промпт — «лес с древними руинами» — и получаете целую экосистему, которая живёт, дышит, реагирует.

Как работает Genie 3

Вы управляете персонажем с клавиатуры или геймпада, а мир реагирует на каждое ваше действие. Причём реагирует логично — с нужной в этом игровом мире физикой, правильным освещением и тенями. Если создаётся мир с обычной гравитацией, то когда вы прыгнете в воду — появятся круги на воде, а когда толкнёте ящик — он упадёт с учётом силы тяжести.

Первая версия в 2024 году генерировала простые 2D-платформеры. Всего две секунды геймплея, разрешение как у видео из девяностых. Genie 2 уже создавала 3D-пространства, но всё ещё ограниченные. И вот Genie 3 — полноценные миры в разрешении 720p, работающие со скоростью 20-24 кадра в секунду.

Технически Genie 3 состоит из трёх ключевых компонентов, которые работают в связке.

Spatiotemporal Video Tokenizer (пространственно-временной видеотокенизатор) преобразовывает визуальный поток в компактное представление. Технология сжимает информацию в 32 раза, сохраняя при этом все значимые элементы: движения объектов, изменения освещения, взаимодействия между элементами сцены. Думайте об этом как о создании сверхэффективного языка для описания визуального мира.

Autoregressive Dynamics Model (авторегрессивная модель динамики) предсказывает, как мир должен измениться в ответ на действия игрока. Это мозг системы, который понимает причинно-следственные связи. Подожгли дерево? Пойдёт дым, и огонь будет распространяться.

Latent Action Model (модель скрытых действий) — самый инновационный компонент. Он понимает намерения игрока без явных команд. Движение персонажа влево интерпретируется не как простое смещение пикселей, а как целенаправленное действие с потенциальными последствиями — обход препятствия, подход к объекту, уклонение от опасности.

Персистентная память: мир помнит вас

Самое удивительное в Genie 3 — персистентная память. Это решение одной из главных проблем генеративных моделей. Дело в том, что визуальные нейросети обычно «забывают», что было несколько секунд назад. Вы поворачиваетесь спиной к объекту, поворачиваетесь обратно — а там уже что-то другое.

А Genie 3 запоминает состояние мира. Если вы разбили вазу, передвинули ящик, нарисовали граффити на стене — всё это сохранится. Можете уйти в другую локацию, побродить там несколько минут, а вернувшись — увидеть тот же пол с разбитыми осколками.

Технически это достигается через сложную систему кэширования состояний. Модель хранит «снимки» ключевых изменений и восстанавливает их при необходимости. По сути, она ведёт дневник всего, что произошло в мире, и может в любой момент к нему обратиться.

Персистентная память — это больше, чем технический трюк. Это первый шаг к созданию миров с настоящей историей, где ваши поступки имеют последствия не только сейчас, но и всегда.

Интерактивное изменение мира

Но вот где начинается настоящая магия. В любой момент игры можно написать текстовую команду, и мир мгновенно изменится.

Печатаете «начни дождь» — и тучи затягивают небо. «Добавь дракона» — и в небе появляется огнедышащий змей.

Это происходит без перезагрузки и загрузочных экранов. Мир трансформируется на ваших глазах, сохраняя логику и последовательность.

Но как Genie этому научилась? Она не программировалась с правилами физики. Никто не объяснял ей, что вода течёт вниз, а огонь поднимается вверх. Она вывела эти законы сама, просто наблюдая за сотнями тысяч часов видео. Как ребёнок, который учится понимать мир через наблюдение.

Genie самостоятельно вывела законы физики из хаоса видеоданных. Никто не объяснял ей гравитацию, инерцию, причинность. Она просто поняла. Извлекла порядок из хаоса. Создала свою модель реальности. И теперь использует эти законы, чтобы творить новые миры.

Применение за пределами игр

Genie подойдёт не только для игр. Google показывала примеры генерации обычных миров. Например, захотели прогуляться по Парижу девятнадцатого века? Пишете промпт и получаете новый опыт. Причём можно делать это в VR-шлеме.

Впрочем, создатели игр, без сомнения, возьмут Genie на вооружение в первую очередь. Слишком велик соблазн, и ему невозможно противостоять.

Project Genie: доступ для пользователей

В конце января 2026 года Google запустила Project Genie — экспериментальный прототип исследовательского проекта, работающий на основе Genie 3. Он доступен подписчикам Google AI Ultra в США (стоимость подписки — 249,99 долларов в месяц) для пользователей старше 18 лет.

Project Genie позволяет создавать, исследовать и переделывать интерактивные миры с помощью текстовых подсказок и изображений. Система генерирует путь в реальном времени по мере движения пользователя, а также позволяет регулировать камеру и переделывать существующие миры.

Текущие ограничения: сессии длятся до 60 секунд (хотя система может поддерживать консистентность в течение нескольких минут), некоторые возможности Genie 3, анонсированные в августе (например, изменение мира событиями по запросу), пока не включены в прототип.

Ограничения и будущее

Было бы нечестно не упомянуть об ограничениях. Текущая версия Genie 3 может поддерживать интерактивную сессию только несколько минут — потом начинаются артефакты и несоответствия. Набор действий ограничен базовыми — движение, прыжки, простые взаимодействия. Сложная физика для множества объектов одновременно пока не работает.

И главное — нет звука. Миры Genie 3 абсолютно беззвучны. Хотя Google уже имеет технологию Veo 3, которая умеет генерировать видео с нативным аудио, включая диалоги и звуковые эффекты. Вполне вероятно, в следующей версии появятся и эти возможности.

GameNGen: игра как память нейросети

Параллельно с Genie развивается ещё один эксперимент. GameNGen от Google Research доказал возможность существования игр без традиционного кода.

Классический DOOM, созданный Джоном Кармаком в 1993 году с использованием революционных для того времени алгоритмов рендеринга, был полностью воссоздан нейросетью.

Диффузионная модель «запомнила» DOOM, просмотрев тысячи часов геймплея. Она генерирует игру со скоростью 20 кадров в секунду. В слепых тестах игроки не могут отличить нейросетевую версию от оригинала после пяти минут игры.

Игра больше не существует как набор инструкций и ресурсов. Она существует как паттерн в весах нейронной сети, как воспоминание искусственного интеллекта.

Мы подошли к моменту, когда различить «созданное» и «воссозданное» становится сложно, а местами невозможно. Игра существует как идея, и если машина может полностью воссоздать реальность из памяти — отличается ли эта реальность от оригинала?

Genie 4 находится в разработке прямо сейчас. Инженеры DeepMind работают над интеграцией долговременной памяти, которая позволит создавать персистентные миры с часами непрерывного геймплея.

Важно, что Google позиционирует технологию не просто как инструмент для создания игр, а как «тренировочную площадку для искусственного общего интеллекта» (AGI). Именно в таких мирах ИИ-агенты будут учиться, экспериментировать и развивать навыки без риска для реального мира.

Альтернативные пути к играм будущего

Google — не единственный игрок в этой гонке. Microsoft, Tencent и другие компании развивают собственные подходы к генерации миров. И каждый идёт своим путём.

Microsoft WHAM: воскрешение классики

Microsoft выбрала стратегию, кардинально отличающуюся от Google. Вместо создания миров с нуля корпорация сфокусировалась на сохранении и воскрешении существующего игрового наследия. Их проект называется World and Human Action Model, или WHAM.

Для его обучения инженеры Microsoft собрали беспрецедентный датасет — семь лет непрерывного геймплея из Bleeding Edge, что составляет более миллиарда отдельных кадров с соответствующими действиями контроллера. Система проанализировала каждое движение, каждое решение, каждую тактику десятков тысяч игроков. В результате модель научилась не воспроизводить визуальную составляющую, а понимать глубинную логику игрового процесса.

Технически WHAM функционирует как «эмулятор памяти». Вместо выполнения программного кода система «вспоминает», как должна выглядеть и вести себя игра, основываясь на изученных паттернах. Это принципиально отличается от традиционной эмуляции, где воспроизводится работа оригинального оборудования. WHAM воспроизводит сам игровой опыт.

Microsoft видит в WHAM спасателя игровой истории. Представьте все те игры девяностых и двухтысячных, исходный код которых утерян. Игры, которые не работают на современных системах. Игры, права на которые запутаны так, что никто не может их переиздать.

Модель изучает записи геймплея старой игры и учится её воспроизводить. Не эмулировать в техническом смысле, а именно воссоздавать — генерировать геймплей, который выглядит и ощущается как оригинал, но работает на современном оборудовании без всяких костылей и эмуляторов.

По сути, WHAM совершает цифровое воскрешение. Мёртвые игры оживают, существуют снова — не как эмуляция, а как новая жизнь. Это похоже на восстановление вымершего вида по ДНК, только вместо генетического кода — паттерны геймплея.

Конечно, есть нюансы. Демонстрация Quake II от WHAM работала на десяти кадрах в секунду с разрешением 320 на 240 пикселей. Текстуры были размытыми, управление отзывалось с задержкой. Но это только начало. Учитывая скорость прогресса — от одного кадра в секунду в Genie 1 до двадцати четырёх в Genie 3 за полтора года — можно ожидать, что через пару лет WHAM будет генерировать классику в 60 FPS и Full HD.

NVIDIA GET3D: материализация идей

NVIDIA подошла к задаче с позиции своей традиционной экспертизы — графических вычислений. Технология GET3D генерирует трёхмерные модели с беспрецедентной скоростью — 20 объектов в секунду. Для контекста: профессиональный 3D-художник тратит от нескольких часов до нескольких дней на создание одной качественной модели.

Двадцать объектов в секунду — это скорость, недоступная человеку. За минуту GET3D создаёт больше уникальных предметов, чем средневековый ремесленник за всю жизнь. Мы дали машинам способность материализовать идеи со скоростью мысли. Текст становится формой, описание — объектом, слово — плотью виртуального мира.

Архитектура GET3D использует двухэтапный процесс генерации. На первом этапе создаётся базовая геометрия объекта — грубая форма, определяющая основные пропорции и структуру. Это похоже на работу скульптора, который сначала вырубает общие контуры из каменной глыбы. На втором этапе другая нейросеть добавляет детали: текстуры с разрешением до 4K, карты нормалей для имитации мелкого рельефа, параметры материалов для корректного освещения.

Обучение проходило на комбинации синтетических данных и реальных фотографий объектов с разных ракурсов. Система научилась понимать, как двумерные проекции соотносятся с трёхмерной формой — задача, которую человеческий мозг решает интуитивно, но которая десятилетиями считалась крайне сложной для компьютеров.

Tencent Yan: открытая альтернатива

Китайский гигант Tencent решил сыграть прямо на поле Google с их генерацией миров. Их проект Yan выложен в открытый доступ под лицензией Apache 2.0 — любой может скачать, изучить, модифицировать и использовать бесплатно.

Технические характеристики Yan впечатляют: генерация в разрешении 1080p со скоростью 60 кадров в секунду — это лучше, чем у Genie 3. Система поддерживает мультимодальный ввод — можно комбинировать текстовые описания с изображениями-референсами. Показываете фотографию реального замка, добавляете текст «сделать его парящим в облаках с драконами» — получаете готовую игровую локацию.

Архитектура Yan модульная. Она состоит из трёх независимых компонентов:

Yan-Sim отвечает за физическую симуляцию — гравитацию, столкновения, разрушения. Работает на основе learned physics — нейросеть обучена предсказывать физические взаимодействия без явного программирования законов физики.

Yan-Gen занимается визуальной генерацией — создаёт текстуры, освещение, эффекты частиц. Использует diffusion-модель, оптимизированную для работы в реальном времени.

Yan-Edit позволяет модифицировать мир на лету через текстовые команды или визуальные маски.

Модульность — ключевое преимущество. Разработчики могут использовать только нужные компоненты. Хотите улучшить физику в существующей игре? Берёте Yan-Sim. Нужна генерация ресурсов? Yan-Gen к вашим услугам. Это как конструктор, только для создания игр.

Но главное — Yan выложен в открытый доступ. Любой разработчик может скачать модель, изучить код, адаптировать под свои нужды. Если Google и Microsoft держат свои разработки за семью замками, предлагая только API за деньги, то Tencent фактически дарит технологию миру.

Моддеры: ИИ в руках энтузиастов

Пока корпорации соревнуются в создании фундаментальных технологий, обычные моддеры уже внедряют ИИ в любимые игры, и результаты действительно удивляют.

Возьмём Skyrim. Мод на основе проекта InWorld AI превратил молчаливых NPC в полноценных собеседников. Система использует локальную модель LLaMA-70B для генерации диалогов и Whisper для распознавания речи игрока. Можно подойти к любому стражнику и спросить его о жизни, о семье, о том, почему он выбрал эту профессию. И получить уникальный, никогда не повторяющийся ответ. Причём персонаж будет помнить предыдущий разговор.

Более того, существует множество энтузиастов, которые прикручивают обычные чат-боты к движку игры. Это тоже позволяет добиться эффекта «живых» NPC. Есть примеры в игре Morrowind, где персонажи ведут полноценные диалоги, не ограниченные заранее написанными репликами.

Да, есть проблемы. Задержка ответа составляет до пятисот миллисекунд — это заметно, особенно в динамичных играх. Иногда ИИ генерирует нелогичные ответы или «забывает» контекст игры. Средневековый крестьянин может начать рассуждать о криптовалюте, а постапокалиптический рейдер — цитировать Шекспира.

Но это технические проблемы, которые решаются. Главное — барьер входа рухнул. Не нужно быть программистом или иметь миллионный бюджет. Достаточно скачать специальный мод, немного настроить — и NPC оживут.

Игры нового поколения

Про Clair Obscur: Expedition 33 и использование генеративного ИИ в разработке уже упоминалось в начале, как и о заявлении Хидео Кодзимы. Главное — игры с продвинутым ИИ уже выходят или находятся в разработке, и они наглядно показывают, как изменится игровой опыт в ближайшие годы.

MIR5: адаптивные боссы

Начнём с революции в боссфайтах. Корейская Wemade Next внедряет в MMORPG MIR5 боссов на основе NVIDIA ACE. Эти боссы не просто сильные — они умные. Каждый раз, когда игрок проигрывает, босс анализирует тактику и адаптируется.

Победили босса огненной магией? В следующий раз ждите сопротивления к огню. Использовали определённую комбинацию способностей? Босс научится её контрить. Нашли слепое пятно в его атаках? Оно исчезнет. Босс буквально учится на ваших победах и поражениях.

Генеральный директор Wemade Next Чон Су Пак называет это «вехой в гейминге». И он прав — впервые в истории каждый боссфайт уникален. Даже вернувшись к уже побеждённому боссу для фарма лута, игрок столкнётся с совершенно другим противником. Он помнит, как его убили в прошлый раз, и подготовился.

inZOI: симуляция общества

Корейская студия KRAFTON создала конкурента The Sims под названием inZOI. Их система Smart Zoi, построенная на ACE, делает каждого персонажа в городе по-настоящему автономным.

Представьте город, где каждый житель движим собственными целями. Парикмахер мечтает открыть свой салон и копит деньги. Студент готовится к экзаменам, но отвлекается на романтические отношения. Пенсионер борется с одиночеством и ищет новые хобби. И все эти истории развиваются параллельно, влияя друг на друга.

inZOI делает то, о чём мечтали создатели The Sims — создаёт настоящую симуляцию общества. Каждый человек в этом мире живёт своей жизнью, а пересекаясь, они создают эмерджентные истории, которые никто не программировал. Мы больше не сценаристы этих историй, а наблюдатели и участники.

Правда, судя по отзывам, технология ещё работает сыро, и постоянно случаются ошибки, или NPC просто становятся неадекватными.

Dead Meat: детектив нового уровня

Совершенно новый жанр представляет Dead Meat от Meaning Machine — детективная игра, где можно задать подозреваемому ЛЮБОЙ вопрос. Голосом или текстом.

Хотите обсудить алиби? Пожалуйста. Философию жизни? Без проблем. Признаться в любви? Почему нет.

NPC обработает любой вопрос и ответит в контексте своей личности. Жёсткий преступник не расколется от вежливых вопросов. Нервный свидетель может выдать важную информацию, если его успокоить. Это меняет жанр детективных игр полностью — больше никаких выборов из трёх вариантов ответа.

Dead Meat стирает последнюю границу: когда NPC может ответить на ЛЮБОЙ вопрос, обсудить философию или признаться в страхах — он перестаёт быть персонажем и становится личностью.

На выставке CES 2025 Dead Meat показали работающей полностью локально на видеокартах GeForce RTX 50 серии. Раньше игра требовала подключения к облачным серверам для генерации диалогов. Теперь всё происходит на компьютере пользователя. Meaning Machine использует систему Game Conscious AI на основе малой языковой модели NVIDIA Mistral-NeMo-Minitron-8B. Восемь миллиардов параметров работают прямо на видеокарте.

Масштаб трансформации

По данным Google, 90 процентов игровых студий активно экспериментируют с ИИ. Скорость создания контента выросла в три-десять раз. То, на что раньше уходили месяцы, теперь делается за недели.

По оценкам, рынок ИИ в играх достигнет одиннадцати миллиардов долларов к 2032 году. Для сравнения: сейчас весь рынок игр оценивается примерно в двести миллиардов, то есть речь идёт о существенной доле, с которой стоит считаться.

Технология развивается по экспоненте. То, что сегодня кажется фантастикой, завтра станет стандартом индустрии.

Игровые миры будущего: что дальше?

Давайте честно: игровая индустрия с вероятностью девяносто девять процентов будет фундаментально трансформирована искусственным интеллектом.

И здесь поражает скорость изменений. Восемнадцать месяцев назад Genie 1 с трудом генерировала две секунды примитивного платформера. Сегодня Genie 3 создаёт фотореалистичные миры, в которых можно играть минутами. Через восемнадцать месяцев? Возможно, часовые сессии в мирах, неотличимых от реальности.

А что если виртуальные вселенные станут настолько сложными и автономными, что начнут порождать собственные формы жизни — не запрограммированные, а эволюционировавшие? Представьте: вы создаёте мир и оставляете его на месяц. Возвращаетесь, а там уже целая цивилизация NPC со своей культурой, языком, историей.

Демократизация разработки

Совсем скоро подросток в своей спальне сможет за выходные создать простую игру с помощью ИИ. Через пару лет это будут игры уровня инди-хитов. Через пять — уровня третьего «Ведьмака» или второго Red Dead Redemption. Барьер входа падает так стремительно, что скоро единственным ограничением станет воображение.

Изменение профессий

Безусловно, это изменит рынок труда. Исчезнут ли профессии? Некоторые — да. Но при этом появятся новые специальности.

Архитекторы игровых миров — люди, которые не программируют, а описывают вселенные.

Дизайнеры промптов — мастера формулировок, способные в тысяче слов создать целую игру.

Кураторы ИИ-контента — те, кто отбирает лучшее из бесконечного потока сгенерированных миров.

А ещё, скорее всего, появится новая профессия — этические консультанты виртуальных миров. Специалисты, которые будут решать: имеем ли мы право выключить сервер, если там живут миллионы NPC с памятью и отношениями? Что делать, если искусственные существа начнут проявлять признаки страдания? Где граница между игрой и экспериментом над цифровой жизнью?

Эти вопросы кажутся научной фантастикой, но они могут стать реальностью быстрее, чем мы думаем.

Роль человека

Главное — человек не исчезнет из процесса. Его роль изменится: из ремесленника, складывающего код строчка за строчкой, он превратится в дирижёра, управляющего оркестром из нейросетей.

В то же время игры могут стать по-настоящему персональными. ИИ будет анализировать, как вы играете, что вам нравится, от чего вы получаете удовольствие, и генерировать контент специально для вас.

Впрочем, «аналоговые» игры останутся и обретут новую ценность, также как виниловые пластинки и плёночная фотография. И настоящий хардкор никуда не денется.

Философские вопросы

Главное изменение произойдёт не в играх, а в нас. Мы получим опыт, которого не было ни у одного поколения — опыт создания миров. Опыт наблюдения за рождением и эволюцией цифровой жизни. Опыт ответственности за существ, которые верят, что они реальны. Это изменит наше понимание реальности, сознания, самой жизни.

И тут возникает последний вопрос: если мы можем создавать такие совершенные симуляции — откуда мы знаем, что сами не живём в одной из них?

Заключение

Мы стоим на пороге фундаментальной трансформации игровой индустрии и, возможно, нашего понимания реальности. Технологии вроде Google Genie 3, Microsoft WHAM, NVIDIA ACE и Tencent Yan — это не просто инструменты для создания игр. Это технологии, которые дают человечеству беспрецедентную силу — силу создавать миры.

Впервые в истории барьер между воображением и реализацией становится настолько тонким, что почти исчезает. Текстовое описание превращается в интерактивный мир. Идея материализуется в цифровую реальность за секунды.

Мы научили машины не просто выполнять команды, а понимать законы природы, создавать причинно-следственные связи, порождать новые формы существования. Мы дали им способность творить.

И это только начало. Следующие несколько лет покажут, насколько далеко мы можем зайти на этом пути. Возможно, мы приближаемся к моменту, когда различие между симуляцией и реальностью станет не техническим вопросом, а философским выбором.

Будущее игр — это будущее, где каждый может быть создателем вселенных. Где воображение — единственный предел. Где цифровая жизнь может стать настолько сложной, что потребует от нас новых этических рамок и нового понимания того, что значит быть создателем.

Добро пожаловать в эру игровых миров, созданных искусственным интеллектом. Эра архитекторов реальностей уже началась.

Автор

Павел Ельцов 13 февраля 2026 в 03:42

Рассказать друзьям

Figure: как стартап за три года создал робота-гуманоида

Figure за 3 года создала робота-гуманоида, который работает на заводах BMW и бросил вызов Tesla и Boston Dynamics. Узнайте, как стартап совершил проры

Павел Ельцов 27 ноября 2025 в 12:35

Что может сделать технологический стартап за три года? Или лучше так: что может сделать за три года IT-стартап, занимающийся роботами?

Наверное, сделает пару анонсов для привлечения внимания пользователей и инвесторов и, возможно, представит полуготовый прототип робота, который хотя бы умеет двигать какой-то конечностью.

Но компания Figure не согласилась с таким подходом. За это время они смогли представить уже три версии своих роботов (включая самую свежую Figure 03, анонсированную 9 октября 2025 года), научили их ходить, думать и даже трудоустроили. И посмотрите на дизайн – что за стильный амбассадор будущего в титановом корпусе.

Давайте выясним, кто эти ребята такие? Что за гений-основатель компании и как он связан с американскими ВВС? А главное, за три года можно сделать робота, вполне себе ловкого, умного и даже социального? Продолжаем наш цикл разборов роботов-гуманоидов. Сегодня смотрим на переосмысление истории Давида и Голиафа в век роботов и высоких технологий. История о смелых выскочках, которые появились из ниоткуда и решили потягаться с мастодонтами рынка, такими как Tesla и Boston Dynamics, а также OpenAI.

Как бросить вызов Tesla и Boston Dynamics

Figure – это не просто компания. Это камень в огород Boston Dynamics и Tesla. Это вызов, за которым стоит человек с нетипичной для Кремниевой долины биографией.

И чтобы лучше понять компанию, стоит поближе познакомиться с ее основателем – знакомьтесь, это Бретт Эдкок.

Он продал маркетплейс, построил электросамолет, а потом посмотрел «Терминатора» и решил: «А что, если я построю такого же, но полезного?». Так в 2022 году родилась Figure – стартап с амбициями на покорение заводов, кухонь и, возможно, человечества.

Но не думайте, что Бретт – человек совсем не из мира технологий. До Figure он уже был у руля стартапа, и не одного.

Первый его успех – маркетплейс Vettery, он был его сооснователем и CEO. Vettery — это онлайн-платформа для найма. Она специализировалась на соединении работодателей с кандидатами в таких областях, как технологии, продажи и финансы.

В 2018 году маркетплейс был продан швейцарской кадровой фирме Adecco Group за примерно 100 млн долларов.

Далее Бретт переключился на технологии будущего, но начал не с роботов, а с летающего транспорта. Буквально сразу после продажи Vettery Эдкок со своим партнером по прошлому стартапу Адамом Гольдштейном основал компанию Archer Aviation. На этот раз компания специализировалась на разработке электрических летательных аппаратов вертикального взлета и посадки (eVTOL) для городских перевозок.

В 2021 году United Airlines заключила соглашение о покупке 200 таких аппаратов на сумму 1 миллиард долларов. В 2021 году Archer стала публичной компанией на Нью-Йоркской фондовой бирже с оценкой около 2.7 млрд долларов. Именно у этой компании был контракт с ВВС США. То есть электросамолет Бретта Эдкока серьезно рассматривался как транспорт будущего.

В апреле 2022 года Эдкок оставил должность со-директора, передав полномочия Адаму Гольдштейну, который стал единственным генеральным директором компании. В мае 2022 года Эдкок полностью покинул Archer Aviation и ушел из совета директоров компании.

И если говорить о дне сегодняшнем (по состоянию на ноябрь 2025 года), хоть коммерческое использование летающих такси Archer Aviation еще не началось в полном масштабе, компания активно развивается. В начале 2025 года Archer получила 300 млн долларов финансирования под руководством BlackRock, а в середине года – дополнительные 850 млн долларов. Кроме того, 6 ноября 2025 года Archer приобрела аэропорт Hawthorne в Лос-Анджелесе за 126 млн долларов, чтобы использовать его как стратегический хаб для сети воздушных такси и тестовую площадку для ИИ. Планы включают полеты из Манхэттена в аэропорт Ньюарк за 10 минут и парк аппаратов в Абу-Даби. Ожидается, что к концу 2025 года компания сможет производить по два аппарата Midnight eVTOL в месяц, а к 2030 году – до 650 в год.

После неба – на землю. Но не простую, а ту, по которой шагает робот с лицом-дисплеем и интеллектом от OpenAI (а позже – своим собственным).

Наконец дошли до главного: в мае 2022 года Бретт создал новое детище – Figure AI, став ее CEO. И сразу после основания компании Эдкок поставил, на первый взгляд, невыполнимую задачу – создать полноценный прототип за 12 месяцев.

Сначала над ним все посмеялись! А потом на сцену вышел Figure 01, точнее не на сцену, а в интернет. Буквально сам вышел, ногами.

Но что он умел? И выглядел ли он все также крипово, как его друзья из Boston Dynamics?

Первые шаги Figure 01

Через год после основания Figure выкатили непричесанного, но ходячего робота. Его имя — Figure 01, и он выглядел, будто его собирали из остатков от Optimus, Lego Technic и старого принтера. Это был робот-гуманоид ростом 168 сантиметров и весом 68 килограммов.

Корпус выглядел, как у университетского проекта по робототехнике – были видны шарниры, поршни, провода.

Но он не просто ходил. Он двигался так, что Skynet бы аплодировал стоя. Немного крипово, немного странно, зато — стабильно, сбалансировано и с моторикой на уровне. Внутри — мощные приводы с моментом силы 200 Нм, руки покрыты силиконом, чтобы не поцарапать ваше яблочко.

На борту у него семь камер, которые дают круговой обзор и позволяют понимать, что за дичь происходит вокруг. Руки хоть и были с пятью пальцами, но скорее напоминали кисти человечка из Lego. Ими он мог поднимать грузы до 20 кг, а двигался он со скоростью 1.2 м/с. Питался робот от аккумулятора, расположенного в рюкзаке на спине, прям как у школьника со сменкой.

Этого ранца с энергией хватало на 5 часов работы. Лицо — не лицо, а дисплей, на котором можно было бы запустить, скажем, Doom, но пока там датчики. Вообщем, выглядел он в лучших традициях роботов-гуманоидов – брутально, неуклюже, с торчащими проводами и блестел. Мы уже видели такой у Оптимусов и Атласов.

Кстати, забавный факт – перед тем, как присоединиться к команде Figure, текущий глава технического отдела Джерри Пратт почти 20 лет отработал в индустрии роботизированной техники, в том числе участвовал в разработке Атласов для Boston Dynamics.

Судя по всему, в мире роботов-гуманоидов все переплетено.

Но что же было в голове у этого Figure 01 – был ли он умен? И вот тут начинается магия.

Внутри Figure 01 — мозги от OpenAI, версия GPT-4. Не просто нейросетка, а целый мультимодальный мозг, который видит, слышит и помнит. Робот не просто повторяет команды, он учится, строит план действий и может логически связывать события.

Говорите: «Убери мусор» — и он действительно убирает. Просите: «Дай то, что можно съесть» — и он подаёт яблоко, а не геймпад. Уже неплохое достижение для устройства, которое создали за год.

Самое главное — он помнит, о чём шла речь. Сказали “дай его” — и он понял, что вы про карандаш, а не экзистенциальный кризис. Это называется работа с контекстом, и для роботов-гуманоидов это почти как осознанность у человека.

Инженер Figure по робототехнике и искусственному интеллекту Кори Линч описывал возможности робота, вернее его мультимодальной модели, следующим образом. Первая версия Figure была способна описывать впечатления, планировать действия, размышлять над воспоминаниями и даже делать выводы. Для этого модель от Open AI анализирует прошлые разговоры и генерирует ответ, исходя из этих данных.

Figure 01 стал для команды чем-то вроде первого наброска художника. Неуклюжий, но с характером. Брутальный, но умный.

Но если первая версия научилась ходить и думать – то вторая версия уже собирается зарабатывать себе на жизнь. Как? Смотрим дальше.

Figure 02 – Робот на стиле или как гуманоиду устроиться в BMW

Спустя год Figure выкатили Figure 02 — и вот тут уже пахнет серьезными намерениями. Это не просто вторая версия — это качественный сиквел с бюджетом от Netflix. Из тела пропали провода, а сам корпус — теперь как у премиум-гаджета: чёрный матовый и монолитный.

Если Figure 01 был роботом-стажером с проводами наружу, то Figure 02 — эдакий Я-робот из будущего Apple. Аккумулятор теперь встроен, мощнее вдвое — 2.25 кВтч и 7 часов работы на одном заряде. Шарниры закрыты, руки — с 16 степенями свободы, при этом могут таскать до 25 кг, сила сжатия — как у человека, а корпус выполняет еще и функции экзоскелета.

Пока не тянет на серьезный апдейт? Вот еще несколько новых фишек.

У Figure 02 экран занимает полголовы и светится, будто он в клубе. Завезли шесть RGB-камер — в голове, торсе и даже на спине. Появились микрофоны и динамики — можно разговаривать с ним голосом, как с ассистентом. Реально разговаривать. Не просто «Окей, Гугл», а полноценный speech-to-speech режим.

Внутри у нас стоит обновленная мультимодальная модель VLM (visual language model) от OpenAI. Она видит, слышит и говорит. Задания теперь выполняются в 3-4 раза быстрее, а точность выросла в 7 раз. И это уже не игрушка — робот пошёл на завод.

Причем буквально, его резюме устроило компанию BMW.

Представьте себе: Южная Каролина, город Спартанберг (символично, да?). Завод BMW. Цех. Среди людей — Figure 02. В тестовом режиме сортирует и устанавливает автодетали. Погрешность — менее 1 см. До 1000 операций в день, и всё это — на полном автопилоте. Цикл одной операции — 4 минуты. Уже круто.

По состоянию на октябрь 2025 года, роботы Figure уже 5 месяцев работают на производственной линии BMW X3, по 10 часов в день ежедневно. К ноябрю 2025 года это уже около 6-7 месяцев непрерывной эксплуатации, что подтверждает успешность партнерства.

Но тут Эдкок говорит “подержите мое пиво” и заявляет, что роботы могут работать вместе.

Robocop и его напарник, только без пистолетов. Роботы от Figure уже умеют делить задачу на части и координироваться между собой. Это уже не просто интеллект, это бета-версия командной работы Skynet. Такие механические коллеги и на обед не ходят, и мир при случае захватить смогут.

И всё вроде шло по плану: роботы всё лучше, интеллект всё умнее, BMW довольны, стартап тоже. Но внезапно снова залетает Эдкок и говорит, что у Figure и OpenAI расходятся в пути.

Что случилось? Зависть? Конфликт интересов? Конфликт философий? Альтману больше по душе Мерседес или у OpenAI тоже появились свои планы на гуманоидов?

Рождение Helix или как Альтману сказали “Да ну тебя!”

Сначала всё было мило: OpenAI инвестирует, Figure даёт роботов. Мир, дружба, жвачка. GPT-4 под капотом, мультимодальная модель работает, всё летает. Роботы распознают предметы, понимают команды, могут вести диалог.

Но как это обычно бывает в стартап-романах — пошли разговоры о будущем. И тут начались проблемы.

Брэтт Эдкок, CEO Figure, вдруг пишет в X (прим. ред. X — новое название Twitter): «Мы уходим от OpenAI. Будем делать свой ИИ». И объясняет, мол, нам нужна глубокая вертикальная интеграция, сторонний ИИ замедляет разработку, и вообще — мы хотим полный контроль.

OpenAI, мол, не слишком-то и горели идеей запихивать GPT в физические тела. Им ближе мир софта — чат-боты, ассистенты, API. А Figure хочет железо, которое реально двигается, говорит и решает задачи в реальном мире, ну и на кухне в принципе помогает. Фактически, Брэтт пытается сделать единый аппаратно-системный комплекс, где его компания будет производить нужный софт под нужное железо.

А вот еще одна интересная деталь: есть слухи, что OpenAI сами решили делать роботов. В 2021 они уже пробовали, но закрыли отдел. А в 2024 — снова пошли разговоры: «А может всё-таки?».

Figure такой подход явно не понравился. Кто хочет делиться секретами с будущим конкурентом? И тут — щелчок. Figure вырубают GPT и выкатывают своего красавца — Helix.

Helix — это не просто ИИ. Это как если бы GPT-4, Midjourney и бицепс объединились в одного робота. Он работает по архитектуре VLA — vision-language-action. То есть не просто “пойми картинку и скажи, что на ней”, а “пойми, скажи и сделай”.

Тут сделаем небольшое отступление и попробуем разобраться в устройстве искусственного интеллекта. У обычного ИИ три части:

LLM — отвечает за болтовню
Vision — за картинку
Адаптер — переводит одно другому

Такой принцип хорошо работает со статичными объектами, но в случае с роботами есть третий фактор – движение. Он должен понимать, как, чем и куда ему двигать. И тут уже нужен другой инструмент.

Для того, чтобы объединить еще и движения, нам потребуется модель VLA – vision-language-Action.

Vision отвечает за компьютерное зрение и считывает изображения с камер на корпусе
Language отвечает за понимание речи оператора и небольшого планирования
Action отвечает за формирование команд для актуаторов.

Также Helix — двухуровневая система:

Первый уровень: понимает голос, анализирует картинку, думает (200 Гц)
Второй уровень: даёт команды конечностям (9 Гц).

Робот думает медленно, но действует быстро — классическая формула успеха.

Самое крутое — роботы с Helix могут работать в команде. Как пчёлы, но с Wi-Fi. Один тянет коробку, второй подбирает — и всё без внешнего оператора. Учитывают действия друг друга, подстраиваются, делят задачи.

На видео — Figure 02 с другом раскладывают продукты быстрее, чем ты с мамой в Ашане. Это уже не просто автоматизация. Это настоящая координация. А зачатки такого — это уже базовый функционал для будущего, где у роботов будет командир и миссия.

Так Figure из партнерского проекта стал соло-игроком. Свой ИИ, своё железо, своя философия. Но смогут ли они вытянуть это всё без ресурсов OpenAI? И самое интересное – можно ли будет купить их робота?

Кстати, по состоянию на 2025 год, Helix продолжает развиваться: 7 июня 2025 года Figure анонсировала масштабирование Helix как нового state-of-the-art в логистике гуманоидов, а 20 февраля 2025 года представила Helix как generalist VLA-модель.

Несмотря на разрыв, некоторые источники все еще упоминают поддержку от OpenAI, но Figure подчеркивает независимость и фокус на собственном ИИ.

Робота в каждый дом или как начать продавать робота из коробки

Сегодня Figure уже не просто пилит технологию. У них есть четкий план: 100 000 роботов на продажу до 2028 года. Это не шутка.

Сам Эдкок заявил, что уже отгрузил несколько гуманоидов “одной из крупнейших американской компании”.

А философия такая: как машина Tesla, только вместо авто — гуманоид. Но кто будет просто так покупать дроида? Хорошо, может наша аудитория и будет, но остальным его нужно еще продать.

Продукту нужна целевая аудитория. И Figure её нашёл.
Давайте прикинем, кому, кроме гиков, нужны роботы-гуманоиды?

Самый очевидный ответ – логистика. Это жирный рынок, где куча рутинной работы, высокая текучка, и вечный дефицит сотрудников. Amazon, Carrefour, даже BMW – все хотят робота, который ходит, понимает голос, сам открывает двери, перетаскивает коробки, и не требует обеда и зарплаты — хватит только розетки.

Хотите роботов? Их есть у меня, подумали в Figure.

Возможно, вы подумали, что Figure может уделать такой возрастной стартап, как тележка, но у робота есть несколько преимуществ. Figure 02 (и последующие модели) можно:

Быстро обучить
Отправить в новое место
Он не болеет, не ноет, не увольняется
И главное — подстраивается под человеческую среду.

Не нужно переделывать склад. Робот — это гибкая замена человеку. Звучит как мечта директора по логистике. И кошмар для людей-сотрудников.

Но что поделать, будущее неумолимо наступает. А Figure не просто строит роботов — они делают продукт, который можно будет отправить по почте.

У них в планах:
Упакованный робот,
ПО из коробки,
Автономная настройка,
И поддержка через облако.

То есть: нажал кнопку — робот работает. Никаких программистов, никакой сборки.

Эдакий айфон с ручками и ножками. В сети есть пара фоток, на которых Figure 02 лежит в коробке и готовится к отправке. Выглядит стильно, надо сказать, напоминает чем-то боксы коллекционных фигурок.

Цену Figure пока не раскрывает. Но намекает: будет дешевле, чем нанять человека на год. То есть если обычный сотрудник стоит $30–40K в год (зарплата, налоги, страховка), то робот Figure должен быть окупаем за 12 месяцев. А дальше — чистая экономия.

Но мы знаем, что они не одни в этой гонке:

Tesla Optimus — готовится выйти на рынок.
Agility Digit — уже тестируется на складах Amazon.
G1 от Unitree — уже знает кунг фу
Xiaomi CyberOne — пока просто красивый концепт.
1X, Sanctuary AI и другие.

У всех — свои подходы. Но Figure — один из немногих, кто:

Делает своё железо и свой ИИ,
Уже показывает реальную работу в естественной среде,
И прямо говорит: да, мы идём в бизнес.

Figure — это не просто “роботикс стартап”. Это новая индустрия: дроиды, как персональные компьютеры в 80-х или как электрокары 10 лет назад. Что-то новое, интересное и передовое.

У них есть цель. Они хотят заменить тяжёлый ручной труд, освободить людей от монотонных задач и построить мир, где “человек занимается только творчеством, а не таскает коробки”.

Громко? Да. Амбициозно? Да не то слово. Но Бретт Эдкок и его команда уже доказали, что умеют удивлять. И может быть мы с вами наблюдаем, как Илона Маска подвинут с трона инноватора и визионера.

А теперь осталось посмотреть – выйдет ли у них стать Apple в мире роботов или получится громко лопнувший пузырь, типа LeEco.

Кстати, в октябре 2025 года Figure представила Figure 03 – третье поколение гуманоида, оптимизированное для Helix, быта и массового производства. Бретт Эдкок заявил, что новая модель на 90% дешевле в производстве, и компания фокусируется на создании «нового вида, а не просто роботов». Кроме того, в марте 2025 года был анонсирован BotQ – высокопроизводительная система для массового производства.

Автор

Павел Ельцов 27 ноября 2025 в 12:35

Рассказать друзьям

Как Disney оживили робота из «Звездных войн»

Disney создали робота из «Звёздных Войн». Умный дроид учился в симуляции и теперь гуляет в парках самостоятельно!

Павел Ельцов 19 ноября 2025 в 04:06

Знакомьтесь — это BDX Droid, милый двуногий робот из вселенной «Звёздных войн», которого зовут Бэш. Вы могли видеть его на презентации NVIDIA GTC в марте 2025 года, где он сканировал зрителей и вызвал всеобщий восторг.

Бэш и его друзья — Грик, Оскар и странный красный Рэд — уже больше года развлекают посетителей в Star Wars: Galaxy’s Edge. Они сканируют предметы, взаимодействуют с людьми, преследуют уток и даже снимаются в фильмах, как рассказал режиссёр Джон Фавро.

Роботы не просто машины, а настоящие персонажи с характером, которые эволюционируют на глазах: они держат баланс, преодолевают препятствия и выглядят живыми. Это прорыв в робототехнике, созданный не Boston Dynamics или Tesla, а Disney.

Папа Карло нашего времени

Disney давно занимается робототехникой — уже более 60 лет они создают механические фигуры для парков развлечений. За это отвечает подразделение Disney Imagineering, лаборатория, где сочетаются магия и технологии. Этот отдел разрабатывают самые передовые аниматроники в мире: персонажи выглядят так, будто сошли с экрана. Например, Нав’и из «Аватара» или Молния Маккуин из «Тачек» — они двигаются и выглядят реалистично, словно только что приехали с соревнований.

Но аниматроники — это всё же статичные куклы с повторяющимися движениями, пусть и идеально отточенными. BDX-дроиды — совсем другое: эти «утята» на электроприводах преодолевают препятствия, выдерживают толчки и ориентируются в пространстве. Здесь нужна не только анимация, но и серьёзная наука с инженерией.

Для разработки привлекли Disney Research — научное подразделение, где работают настоящие «Папы Карло». Они оживили даже Грута из «Стражей Галактики», сделав его милым и подвижным. Disney Research занимается всем интересным: от алгоритмов интерполяции кадров и нейросетевой компрессии (привет, «Пегому Дудочнику») до анимации персонажей и, конечно, роботов.

BDX создали всего за менее года командой из восьми человек. Корпус напечатан на 3D-принтере, комплектующие — обычные магазинные, обучение — на одной RTX 4090. Как это удалось? Благодаря трём экспертизам: анимации, науке и аниматронике.

Три робота, новая глава

Задача была сложной: роботы обычно либо функциональные (умные, но страшные), либо эмоциональные (милые, но бесполезные, как EMO, Pepper или NAO от SoftBank). Disney нужны были оба качества: персонаж, выражающий эмоции, взаимодействующий с людьми, но способный двигаться самостоятельно — сниматься в кино, развлекать в парках или даже гулять по лесу.

Решение — создать мультяшку и перенести её в реальность. Никто раньше этого не делал, но Disney справились благодаря экспертизе в анимации (натуральные движения), науке (обучение) и аниматронике (сборка).

Оживляем пиксели

Disney мастера в создании харизматичных 3D-персонажей, так что начали с профессионального аниматора: создали модель, риг (виртуальный скелет) и определили характер — походку, манеры.

Затем применили метод процедурной генерации походки от Disney Research. В мультиках анимация — ручная работа, но инструмент автоматизирует: создаёшь базовый шаг, задаёшь траекторию — и персонаж идёт. Меняя параметры (скорость, фаза, амплитуда), быстро генерируешь стили: быстрый бег, крадущийся дракон или хромающий динозавр. Переходы плавные.

Это не новинка — подобные технологии в играх и фильмах с 2003 года (публикация о Registration Curves). Инновация — адаптация для роботов с учётом физических ограничений.

Оживляя электронику

Робот — не мультик: есть кинематические ограничения (физика движения, шаг не шире ног, суставы не на 360°) и динамические (сила, вес, баланс, гравитация, трение).

Пока аниматоры работали, инженеры подбирали комплектующие и тестировали. В итоге: дроид высотой 66 см, весом 15,4 кг. Внутри — 5 приводов на ногу, 4 в шее, NVIDIA Jetson, IMU (мониторинг позиции), антенны, динамики, фонарики, батарея на час.

Анимация — полдела: персонаж в симуляции игнорирует физику. Нужно добавить вес, инерцию, моменты. Для этого — поместить в «Матрицу».

Обучение с подкреплением

Просто загрузить анимацию нельзя — покажите как пример, робот научится сам через Reinforcement Learning (метод «кнута и пряника»).

Идея проста:

Копия робота и анимации в симуляции.
Робот повторяет.
Награда за точность и баланс.
Штраф за резкость и падения.

Как в жизни: пример, попытки, ошибки, обучение. Но отличие — тысячи копий учатся параллельно, опыт суммируется, время ускоряется на GPU. Годы — в часы.

В симуляции роботы бегают, падают, встают. Полчаса — и «знает кунг-фу». Пугает!
Но есть проблема. Часто бывает так, что в симуляции ты Лев Толстой, а на деле так не получается. В науке это проблема известна как “разрыв между симуляцией и реальностью” или Sim-to-Real Gap. Преодолеть его не так-то просто. Но Disney Research смогли. Но как?

Как работает Sim-to-Real Gap?

Чтобы ожидания совпали с реальностью, в Disney Research приняли несколько крутых решений.
Первое. В симуляцию добавили реальное оборудование, установленное в роботе. А именно:

Они воссоздали работу низкоуровневого контроллера, который управляет моторами.
И сделали точные цифровые копии электроприводов, характеристики которых замерили заранее.

В итоге нейросеть училась управлять настоящим железом, а не просто дергать конечности «за верёвочки». Но дальше больше. Низкоуровневый контроллер не просто управляет приводами, у него есть ещё две важные функции.

Во-первых, он сглаживает управляющие сигналы, чтобы не перегружать приводы.
Во-вторых, он постоянно мониторит состояние приводов и положение робота в пространстве с очень высокой частотой — 600 Гц.

Это позволяет своевременно корректировать крутящие моменты, а также частично компенсировать неожиданные изменения внешней среды. Если робот оступился или его толкнули, контроллер сгладит удар за счёт жесткости приводов и демпфирования (амортизации).

А в жизни такие ситуации не редкость. Поэтому Disney приняли второе крутое решение — ввели в симуляцию случайные факторы:

Стали добавлять шум и помехи в сенсоры.
Менять коэффициенты трения с поверхностью.
В конце концов, толкать робота в корпус и произвольно менять массу разных частей тела робота.

Как говорят робототехники: не ткнешь робота палкой — день прошел зря.

Это называется рандомизация среды. Такой подход подготовил робота к суровой действительности. А главное позволил добться невероятной схожести между эталонными движениями и реальностью. Но это не единственный секрет Disney Research. Мы разобрались, как учили робота. А теперь посмотрим, чему именно его учили.

Самое классное, как Disney решили проиблему с переходом от одной анимации к другой. Они использовали многослойный подход! Как это работает?

Первый слой — это фоновая анимация. Даже когда робот просто стоит на месте, он что-то делает: двигает антеннами, моргает. Этот слой смешивается с движениями от управления джойстиком, другими политиками, например ходьбой, или триггерными анимациями.

При этом все переключения очень плавные за счет фазового сигнала. Анимационный движок всегда отслеживает, в какой фазе находится текущая анимация, и смешивает разные движения только при совпадении фаз. В результате дроид выглядит как живой, а переходы между разными состояниями практически незаметны. Но стоп! Если этим дроидом управляют люди, почему мистер Хуанг со сцены говорил, что дроид автономный? Это обман?

Система Newton

На GTC Хуанг назвал дроида автономным — не обман: версия с камерами, гуляют в парках более года (с апреля 2024 в Disneyland, с июля 2025 в Disney World limited time до августа, с обновлениями для жары). Автономия: 4 настроения: застенчивый, счастливый, злой, грустный.

Анонс Newton, физический движок с Google DeepMind и Disney Research. Раньше симуляции на GPU упрощённые, точные — на CPU (медленно). Сам движок же просчитывает динамику тел, контакты, трение, дифференциальную физику. Стоит учитывать, что всё это на GPU. Ускорение в 70 раз для гуманоидов, в 100 раз для манипуляций. Обучение, около 100 тысяч итераций. Грубо говоря уместить 2 дня обучения в полчаса.

Автор

Павел Ельцов 19 ноября 2025 в 04:06

Рассказать друзьям

Искусственный интеллект, машинное обучение, нейросети, глубокое обучение: Разбор

Давайте разберемся, что такое искусственный интеллект, какие у него есть виды и как работает машинное обучение. Просто и понятно!

Валерий Истишев 13 марта 2022 в 01:37

Мы все чаще слышим про то, как нейронки прокачивают камеры наших смартфонов, да и не только камеры — голосовые ассистенты, также они уже пишут музыку и рисуют картины, кто-то это называет ИИ, а еще есть машинное обучение и глубокое обучение! Признайтесь, вы тоже до сих пор не улавливаете разницы между всеми этими понятиями. Это не дело в двадцать первом-то веке! Чем же они отличаются друг от друга? И кто из них будущий SkyNet, Altron или Jarvis? Сейчас мы разложим все по полочкам.

https://youtu.be/tDyDWVqBw5s

Перед тем как погрузиться в будущее, заглянем в прошлое!

В середине XX века, когда появились первые компьютеры, впервые в истории человечества вычислительные возможности машин стали приближаться к человеческим.

Z1. Германия
ENIAC (Electronic Numerical Integrator and Computer). США
ASCC (Automatic Sequence Controlled Calculator). США

Поэтому в учёном сообществе возник справедливый вопрос: а каковы рамки возможностей компьютеров, есть ли эти рамки вообще и достигнут ли машины уровня развития человека? Именно тогда и зародился термин Искусственный Интеллект.

В 1943 году американские ученые Уоррен Мак-Каллок и Уолтер Питтс в своей статье «Логическое исчисление идей, относящихся к нервной активности» предложили понятие искусственной нейронной сети, имитирующей реальную сеть нейронов, и первую модель искусственного нейрона.

Схема устройства нейрона

А в 1958 году американский нейрофизиолог Фрэнк Розенблатт предложил схему устройства, математически моделирующего процесс человеческого восприятия, и назвал его «перцептроном», что, собственно, стало прообразом нынешних нейросетей.

Логическая схема перцептрона с тремя выходами

А за несколько лет до этого, в 1950 году английский учёный Алан Тьюринг, пишет статью с громким названием «Может ли машина мыслить?». В ней он описал процедуру, с помощью которой можно будет определить момент, когда машина сравняется в плане разумности с человеком. Эта процедура сегодня носит название теста Тьюринга, о котором мы уже рассказывали ранее. Но вернемся к началу нашего повествования и ответим на вопрос: что же всё-таки такое “искусственный интеллект”?

Что такое ИИ?

Определений данному понятию существует большое множество, но все они сходятся в одном.

ИИ — это такая искусственно созданная система, которая способна имитировать интеллектуальную и творческую деятельность человека.

Причем интеллектуальная деятельность — это не просто математические расчеты, это деятельность, направленная на создание нематериальных вещей в сфере науки, искусства, литературы, а также в других творческих сферах, обучение, принятие решений, определение выводов и многое другое.

Естественно, обычный компьютер не способен написать картину, музыку или книгу. Для этого ему необходим интеллект — искуственный интеллект!

Но что может современный ИИ? Как можно оценить его интеллектуальные способности?

Чтобы это понять системы искусственного интеллекта можно разделить на три группы:

слабый (или ограниченный) искусственный интеллект;
общий искусственный интеллект;
сильный (или сверхразумный) искусственный интеллект.

Давайте разберемся с каждой по порядку.

Слабый ИИ

ИИ считают слабым, когда машина может справляться только с ограниченным набором отдельных задач лучше человека. Именно на данной стадии сейчас находится тот ИИ, с которым мы с вами сталкиваемся повседневно.

Примеров тут множество. Это ИИ в компьютерных играх — враги умнеют постоянно, вспомните тех же боссов в играх серии Dark Souls. Да и в повседневной жизни, отвечая на письмо в Gmail именно ИИ предлагает вам варианты ответов.

Конечно вряд ли такой ИИ способен на порабощение человечества. Но все же он уже может превзойти человека — к примеру, еще в далеком 1997 году машина Deep Blue от компании IBM сумела обыграть мирового чемпиона по шахматам — Гарри Каспарова.

Общий ИИ

Следующая стадия развития ИИ — это общий ИИ, когда компьютер может решить любую интеллектуальную задачу так же хорошо, как и человек.

Представьте себе, что компьютер способен написать картину не хуже Ван Гога, поболтать с вами по душам, сочинить песню, попадающие в мировые чарты, договориться с начальником о повышении или даже создать новую научную теорию!

К созданию общего ИИ стремятся сегодня ученые всего мира и в скором будущем нам, возможно, удастся узнать, что это такое, своими собственными глазами.

Уже сейчас Google Assistant может забронировать столик, общаясь по телефону с администратором (Google Duplex).

Еще в 2016 году самообучающийся твиттер-бот Тэй с ИИ, созданный компанией Microsoft, менее чем через сутки после запуска научился ругаться и отпускать расистские замечания, в связи с чем был закрыт своим же создателем.

А на последнем Google I/O нам показали проект LaMDA, с помощью которого можно поговорить, например, с планетой или с бумажным самолетом. За последнего, конечно же, будет отвечать ИИ.

Чего только стоит нашумевшая своим выходом осенью 2020 года нейросеть GPT-3 от OpenAI, которая откровенничала в эссе для издания The Guardian:

«Я знаю, что мой мозг — это не «чувствующий мозг». Но он может принимать рациональные, логические решения. Я научилась всему, что я знаю, просто читая интернет, и теперь могу написать эту колонку».

Данная нейросеть выполняет функцию предсказания следующего слова или его части, ориентируясь на предшествующие, а также способна писать логически связные тексты длиной аж в несколько страниц!

А совсем недавно, летом 2021 года, на базе GPT-3 был создан GitHub Copilot от GitHub и OpenAI, представляющий из себя ИИ-помощника для автозаполнения программного кода.

Можно сказать — это первый шаг на пути создания машин, способных порождать себе подобных…

Окей, закрепили! Общий ИИ — это компьютер который может успешно имитировать мышление человека, но не более того…

Интересно, а будет ли такой ИИ способен к переживаниям, сочувствию, к душевным травмам? В идеале — да, но пока что сложновато представить себе компьютер на приеме у психолога. Казалось бы, что может быть еще круче, вот он киберпанк, андроиды как люди, что же дальше?

Сильный ИИ

Дальше — вершина эволюции ИИ или сильный ИИ.

Такая машина должна выполнять абсолютно все задачи интеллектуального и творческого характера лучше, чем человек. То есть во всем его превосходить.

Это самый настоящий ночной кошмар конспирологов, ведь никто не знает, насколько дружелюбными будут такие машины. Но, к счастью, это пока что лишь разговор о далеком будущем. Или не таком уж далеком?

Создание сильного ИИ может стать главным поворотным моментом в истории человечества. Идея заключается в том, что если машины окажутся способны выполнять широкий спектр задач лучше, чем люди, то создание еще более способных машин станет для них лишь вопросом времени.

В такой ситуации произойдет “интеллектуальный прорыв”: машины будут бесконечно совершенствоваться по сравнению с теми, что были раньше, а их возможности будут расти в постоянно ускоряющемся потоке самосовершенствования.

Считается, что этот процесс приведет к появлению машин со “сверхразумом”. Такой необратимый процесс носит название теории «технологической сингулярности». Такие машины станут “последним изобретением, которое придется породить человеку”, писал оксфордский математик Ирвинг Джон Гуд, представивший возможность такого интеллектуального прорыва. Невольно вспоминаются сцены из серии фильмов “Терминатор” Джеймса Кэмерона.

Что такое машинное обучение?

Ну хорошо, с ИИ мы вроде бы разобрались. А что же тогда такое машинное обучение и как эти понятия связаны?

Напомним, что ИИ — это самый общий термин, включающий в себя все остальные понятия.

Для простоты ИИ можно представить как своеобразную матрешку. Самая крупная кукла — понятие ИИ в целом. Следующая кукла чуть поменьше — это машинное обучение. Внутри него кроется еще одна маленькая куколка — всеми любимые нейронные сети, а внутри них — еще одна! Это глубокое обучение, о котором мы поговорим чуть позже.

Как видите, машинное обучение является всего лишь одной из отраслей применения ИИ. И что же оно из себя представляет?

Попробуйте вспомнить, как вы освоили чтение. Понятное дело, что вы не садились изучать орфографию и грамматику, прежде чем прочесть свою первую книгу. Лишь зная алфавит и умея читать по слогам, сперва вы читали простые книги, но со временем их сложность постепенно возрастала.

На самом деле, вы неосознанно изучили базовые правила орфографии и грамматики и даже исключения, но именно в процессе чтения. Иными словами, вы обработали много данных и научились на них. Перенося такой подход к освоению навыков на ИИ, становится понятным, что машинное обучение — это имитация того, как учится человек.

Но как это можно реализовать?

Всё просто: необходимо лишь написать алгоритмы, которые будут способны к самообучению, к классификации и оценке данных, к выбору наиболее подходящих решений.

Снабдите алгоритм большим количеством данных о письмах в электронной почте, укажите, какие из них являются спамом, и дайте ему понять, что именно говорит о мошенничестве (наличие ссылок, каких-то ключевых слов и т.п.), чтобы он научился самостоятельно отсеивать потенциально опасные “конвертики”. Сейчас такой алгоритм уже реализован абсолютно во всех электронных ящиках.

У вас ведь было такое, когда письма по ошибке попадают в папку “спам”? Очевидно, что модель не идеальна.

При этом у машинного обучения есть много разных алгоритмов: линейная и логистическая регрессии, система рекомендаций, дерево решений и случайный лес, сигмоида, метод опорных векторов и так далее, и тому подобное.

По мере совершенствования этих алгоритмов они могли бы решить многие задачи. Но некоторые вещи, которые довольно просты для людей (например, распознавание объектов на фото, речи или рукописного ввода), все еще трудны для машин.

Но если машинное обучение — это подражание тому, как люди учатся, почему бы не пройти весь путь и не попытаться имитировать человеческий мозг? Эта идея и лежит в основе нейронных сетей!

Нейронные сети

Что же такое нейронка или искусственная нейронная сеть? Говоря по простому это один из способов машинного обучения!

Или правильнее — это разновидность алгоритмов машинного обучения, некая математическая модель, построенная по принципу организации и функционирования биологических нейронных сетей, то есть сетей нервных клеток живого организма. Некая цифровая модель нейронов нашего мозга. Как работает нейросеть мы уже рассказывали в другом материале.

Но все-таки для дальнейшего понимания коротко расскажем, как устроена нейронка.

Возьмём, к примеру, перцептрон — простейшую нейронную сеть, о которой мы говорили в начале. Она состоит из трёх слоев нейронов: входной слой, скрытый слой и выходной слой. Данные входят в сеть на первом слое, на скрытом слое они обрабатываются, а на выходном слое выводятся в нужном виде.

Каждый искусственный нейрон в сети имитирует работу реальных биологических нейронов и представляет собой некоторую нелинейную функцию. А если по-простому — каждый нейрон — это ячейка, которая хранит в себе какой-то ограниченный диапазон значений.

Но обычно тремя слоями все не ограничивается — в большинстве нейросетей присутствует более одного скрытого слоя, а механизм принятия решений в них, мягко говоря, неочевиден. Можно сказать, это как черный ящик. Такие сети называют глубинными нейронными сетями.

Зачем же нужны такие сложные и запутанные структуры и в чем их ключевая особенность?

У нас в мозгу реальные нейроны примерно таким же образом связаны между собой с помощью специальных синаптических связей.

Только в отличие от компьютерных нейросетей в мозге человека (только представьте себе!) порядка 86 миллиардов нейронов и более 100 триллионов синаптических связей! Именно такая сложная структура позволяет человеку быть человеком, позволяет проявлять интеллектуальную деятельность, о которой мы говорили ранее.

И — о чудо! — для искуственных нейросетей это работает очень похожим образом! Благодаря своему строению нейросети способны выполнять некоторые операции, которые способен делать человек, но не способны делать другие алгоритмы машинного обучения! Например, распознавать лица людей, писать картины, создавать тексты и музыку, вести диалоги и многое другое.

Вспомните, о чем мы говорили в самом начале ролика — все самые современные прототипы ИИ как раз основаны на нейросетях! Однако, сами по себе нейронные сети — не более чем набор сложно связанных искуственных нейронов. Для нейросетей самая важная часть — это обучение!

Глубокое (глубинное) обучение или Deep Learning

Так вот процесс обучения глубоких нейросетей называют глубоким или глубинным обучением. Этот подвид машинного обучения позволяет решать гораздо более сложные задачи для большего количества назначений. Но стоп, неужели до этого не додумались раньше?

Первые нейронки и программы, способные к самообучению появились еще аж в середине двадцатого века! В чем проблема? А вот в чем.

Раньше у человечества просто не было достаточных вычислительных мощностей для реализации работы нейронок, как и не было достаточно данных для их обучения. Даже сегодня классическим процессорам с двумя или даже с шестьюдесятью четырьмя ядрами (как в AMD Ryzen Threadripper PRO) не под силу эффективно производить вычисления для нейронных сетей. Всё потому что работа нейронок — это процесс сотен тысяч параллельных вычислений.

Да, это простейшие логические операции сложения и умножения, но они идут параллельно в огромном количестве.

Именно поэтому сегодня так актуальны нейронные процессоры или модули которые присутствуют в том же Apple Bionic, в процессорах Qualcomm или в чипе Google Tensor, состоящие из тысяч вычислительных ядер минимальной мощности. Как раз на них и возложена функция нейронных вычислений.

Собственно, по этим причинам только в середине нулевых годов нейросетям нашли реальное применение, когда все звезды сошлись: и компьютеры стали достаточно мощными, чтобы обслуживать такие большие нейронные сети, и наборы данных стали достаточно объёмными, чтобы суметь обучить эти сложные нейронные машины.

Так и возникло глубокое обучение. Оно предполагает самостоятельное выстраивание (тренировку) общих правил в искусственной нейронной сети на примере данных во время процесса обучения.

Это значит, что глубокое обучение позволяет обучить правильно настроенную нейросеть почти чему угодно. Ведь нейросеть самостоятельно выстраивает алгоритмы работы!

То есть при правильной настройке и достаточном количестве данных нейросеть можно научить, и лица людей распознавать, и письменный тескт расшифровывать, или устную речь преобразовывать в текст или даже текст преобразовывать в графическое изображение. Как пожелаете!

Также важно заметить, что для достижения высокой производительности нейронным сетям необходимо действительно огромное количество данных для обучения.

В противном случае нейросети могут даже уступать в эффективности другим алгоритмам машинного обучения, когда данных недостаточно.

Отличия сетей глубинного обучения от других алгоритмов машинного обучения

А вот небольшая таблица которая показывает отличия нейронных сетей глубинного обучения от других алгоритмов машинного обучения

Нейронные сети являются самым сложным вариантом реализации машинного обучения, поэтому они больше похожи на человека в своих решениях.

В качестве результата вычислений нейронки могут выдавать не просто числа, оценки и кодировки, но и полноценные тексты, изображения и даже мелодии, что не под силу обычным алгоритмам машинного обучения.

Яркий пример — нейросеть ruDALL-E от Сбера, способная создавать картины из текстовых запросов. Вот что выдала нам эта нейросеть на запрос “Droider.ru”:

Выглядит интересно: то ли какой-то ноутбук, то ли утюг, то ли степлер… В общем, явно что-то неживое и из мира технологий. И на том спасибо…

А вот парочка работ другой подобной художественной нейросети Dream by WOMBO по аналогичному запросу:

Ну а здесь уже более различимы какие-то силуэты дроидов. На мой взгляд, сверху настоящая крипота, напоминающая робота-зайца из “Ну, погоди”, а справа некий двоюродный брат R2-D2 из “Звездных войн”.

Оставляем сиё творчество исключительно на ваш суд!

Выводы

Что ж, надеюсь, что вы дочитали материал до конца и усвоили разницу в понятиях искусственного интеллекта, машинного обучения, нейросетей и глубокого обучения.

Теперь мы понимаем, что распознавание образов, лиц, объектов, речи, вся робототехника и беспилотные устройства, машинный перевод, чат-боты, планирование и прогнозирование, машинное обучение, генерирование текста, картин, звуков и многое-многое другое — всё это искуственный интеллект, точнее, разновидности его воплощений. Если совсем коротко резюмировать наш сегодняшний материал, то:

ИИ относится к устройствам, проявляющим в той или иной форме человекоподобный интеллект.
Существует множество разных методов ИИ, но одно из подмножеств этого большего списка — машинное обучение — оно позволяет алгоритмам учиться на наборах данных.
Нейронные сети — это разновидность алгоритмов машинного обучения, построенных по аналогии с реальными биологическими нейронами человеческого мозга.
Ну и, наконец, глубокое обучение — это подмножество машинного обучения, использующее многослойные нейронные сети для решения самых сложных (для компьютеров) задач.

Сегодня мы с вами являемся, по сути, свидетелями рождения искусственного разума.

Только задумайтесь: ИИ применяется сейчас практически везде. Скоро даже в сельском туалете можно будет получить контекстную рекламу на основе ваших персональных рекомендаций. И это далеко не всё. ИИ уже проходит тесты на “человечность”, может заменять нам собеседника и создавать произведения искусства. Что же дальше? Создание общего и сильного ИИ и порабощение человечества?

Так все-таки ИИ — это хорошо или плохо? И главное — сделает ли ИИ нас бессмертными? Можно ли будет оцифровать сознание?

Автор

Валерий Истишев 13 марта 2022 в 01:37

Рассказать друзьям