Компания Qualcomm анонсировала новый флагманский мобильный процессор Snapdragon 8 Gen 2 — чип, который, по словам компании, значительно улучшит вычислительные фотовозможности предстоящих смартфонов. Платформа производится по техпроцессу 4 нм и поддерживается оперативную память LPDDR5x-4200. Qualcomm утверждает, что производительность CPU выросла на 40%, а GPU стал мощнее на 25%. Также известна частота процессора – 3,2 ГГц. Сообщается, что новое поколение чипсетов Snapdragon 8 Gen 2 будет производиться на мощностях TSMC.
Snapdragon 8 Gen 2 получил то, что Qualcomm описывает как свой самый продвинутый движок искусственного интеллекта (ИИ), который управляется обновленным процессором Hexagon. Это сочетание позволяет ему работать более чем в 4 раза лучше, если речь идет о функциях искусственного интеллекта. Snapdragon 8 Gen 2 также является первым из мобильных чипов Qualcomm, поддерживающим INT4, формат точности ИИ, который на 60% повышает производительность на ватт, что позволяет проводить длительные вычисления ИИ.
Также чипсет получил Snapdragon Sight, который является самым важным обновлением для фотографов. Компания утверждает, что оно «определит новую эру профессионального качества работы с камерой» благодаря Cognitive-ISP.
Любопытно, что в рамках этого анонса стало известно о новом многолетнем соглашении Qualcomm с компанией Nikon на использование ее технологии обработки изображений в чипсетах Snapdragon, начиная с 2023 года. По словам вице-президента Qualcomm по управлению продуктами Джадда Хипе, который сказал, что соглашение позволит компании использовать программную технологию обработки сигналов изображения Nikon, которая используется используется в беззеркальных камерах серии Z. По словам Хейпа, со временем обе компании будут работать вместе над более тесной интеграцией этой технологии непосредственно в сигнальный процессор Spectra ISP, используемый в чипсетах Snapdragon.
Snapdragon 8 Gen 2 может автоматически улучшать фотографии и видео в режиме реального времени с помощью того, что Qualcomm называет семантической сегментацией — процесса, с помощью которого нейронная сеть ИИ может заставить камеру контекстуально воспринимать лица, черты лица, волосы, одежду, небо и другие факторы и оптимизировать их индивидуально, чтобы каждая деталь получила индивидуальную профессиональную настройку изображения.
Snapdragon 8 Gen 2 также настроен на поддержку новых сенсоров, включая Sony, которая первой разработала технологию HDR с четырехкратным цифровым наложением. Он также будет поддерживать 200-мегапиксельный сенсор Samsung ISOCELL HP3 и получит отдельные оптимизации. В сочетании со Snapdragon 8 Gen 2, Qualcomm утверждает, что этот датчик высокого разрешения сможет обеспечить профессиональное качество фотографий и видео. Поддерживается съемка видео в 8K/30fps и в 4K/120fps.
Новый чип также является первым чипом Qualcomm, поддерживающим кодек AV1, что позволяет воспроизводить до 8K HDR при 60 кадрах в секунду.
Snapdragon 8 Gen 2, конечно же, также поддерживает игровые функции, такие как аппаратное ускорение трассировки лучей, а также функции подключения: это первый в мире процессор 5G AI в мобильной платформе — и единственный коммерческий SoC Wi-Fi 7 с поддержкой High Band Simultaneous Multi-Link. Заявлена поддержка Bluetooth 5.3. Также есть Snapdragon Sound с потоковой передачей музыки без потерь с частотой 48 кГц, который обещает лучшее пространственное аудио с динамическим отслеживанием движений головы.
Qualcomm заявляет, что мобильные процессоры нового поколения будут использоваться мировыми производителями оборудования, включая Asus, iQOO, Motorola, OnePlus, Oppo, Sharp, Sony, Vivo, Xiaomi и другими. Несмотря на отсутствие конкретного упоминания, было бы очень странно не увидеть, что Samsung также использует Qualcomm. Впрочем, наверняка, как и всегда, мы увидим флагманские устройства бренда на Qualcomm для североамериканского и южнокорейского рынков, а все остальные рынки увидят новое поколение Exynos. Первые коммерческие устройства, использующие Snapdragon 8 Gen 2, ожидаются уже к концу 2022 года.
AMD сокрушительно отвечает Intel и NVIDIA в рамках CES 2022?
AMD показал новые ПК-процессоры, мобильные чипы и обновил видеографику. В общем ударил и по Intel, и по NVIDIA. Успешно ли?
Компания AMD готова внедрить 3D V-Cache в свои настольные чипы. Эта технология, которая, по сути, позволяет AMD использовать больше кэша поверх своих процессоров, дебютирует в Ryzen 7 5800X3D. В то время как оригинальная версия этого процессора имела 36 МБ кэша L2 и L3, новая версия имеет более 100 МБ совокупного кэша. AMD утверждает, что он обеспечивает на 5% более высокую производительность в играх 1080p по сравнению с Intel 12900K, и примерно на 15% быстрее, чем Ryzen 9 5900X.
Может показаться, что это не так много, но этот чип, по сути, является лишь доказательством концепции. AMD, вероятно, необходимо доказать, что ее технология V-cache действительно работает, прежде чем она начнет интегрировать ее в будущие линейки. Компания заявляет, что 5800X3D будет доступен позже этой весной.
AMD также сообщила, что процессоры нового поколения Zen 4 Ryzen 7000 появятся во второй половине 2022 года. Они будут построены на 5 нм техпроцессе, чипы Zen 4 также будут работать на новой платформе AMD Socket AM5. Выступая на выставке CES, генеральный директор AMD Лиза Су отметила, что AM5 будет представлять собой сокет LGA, размещая тонкие контакты на материнской плате, а не на процессоре. Чипы Ryzen 7000 также будут поддерживать память DDR5 и PCIE5, как и ожидалось. Во время короткой демонстрации Су показала, как Halo Infinite плавно работает на чипе Zen 4, и отметила, что каждое ядро работает на частоте 5 ГГц.
Также компания представила свои мобильные процессоры Ryzen 6000, которые построены по 6-нм техпроцессу Zen 3+ и имеют значительное обновление — графику RDNA 2. Компания утверждает, что новые чипы смогут справиться с большинством AAA-игр в разрешении 1080p, а их игровая производительность будет более чем в два раза выше, чем у графики Radeon предыдущего поколения.
AMD утверждает, что ядро Zen 3+ может лучше достигать состояния глубокого сна для экономии энергии, а также включает лучшие функции адаптивного управления питанием. Можно ожидать и то, что чипы Ryzen 6000 будут потреблять на 30% меньше энергии во время видеоконференций. Более того, AMD утверждает, что они обеспечат до 24 часов автономного воспроизведения фильмов. Что касается безопасности, Ryzen 6000 — это первая платформа, в которую интегрирован новый чип безопасности Microsoft Pluton.
В целом, мобильные чипы Ryzen 6000 будут примерно на 11 процентов быстрее, чем Ryzen 5000, при выполнении однопоточных задач, и на 28 процентов быстрее при многопоточной работе. Новое семейство процессоров возглавит 8-ядерный/16-поточный Ryzen 9 6980HX, тактовая частота которого может достигать 5 ГГц. Учитывая, что это совершенно новая процессорная платформа, она также включает в себя другие обновления, такие как более быстрая оперативная память DDR5, которая, по словам AMD, значительно повысит производительность интегрированного GPU, а также интеграцию Wi-Fi 6E и улучшенную поддержку устройств PCIe 4.0 и USB 4.
Для большинства покупателей интегрированная графика RDNA 2 будет самым привлекательным фактором. Сообщается, что графика RDNA 2 поддерживает технологию FreeSync для сглаживания игрового процесса, а также дисплеи Dynamic HDR. AMD утверждает, что она также будет примерно на 70% быстрее, чем графика Intel Iris Xe, которая интегрирована в процессоры 11-го поколения.
AMD не говорит многого о своих чипах Ryzen 6000 серии U, которые предназначены для ультрапортативных устройств, но они, вероятно, получат преимущества от многих обновлений платформы. Самый быстрый чип серии U, Ryzen 7 6800U, будет иметь восемь ядер и частоту до 4,7 ГГц.
Но и это ещё не все, AMD начинает 2022 год с выпуска графики серии RX 6000 для более широкого спектра ноутбуков. Компания представила линейку графических процессоров Radeon RX 6000S, созданных специально для тонких и легких ноутбуков (менее 0,78 дюйма и 4,5 фунтов).
Как сообщается, основная модель RX 6600S обеспечивает 80 кадров в секунду и более при высоких настройках детализации в ряде последних игр, таких как Call of Duty: Black Ops Cold War и Deathloop. При переходе на RX 6700S вы получите 100 кадров в секунду и выше, а RX 6800S — 100 кадров в секунду и выше при максимальных настройках.
Есть и другие варианты, если для вас производительность важнее портативности. Новая Radeon RX 6850M всего на 7% быстрее, чем 6800M, но RX 6650M и 6650M XT среднего уровня на 20% быстрее, чем 6600M. Вы также найдете стартовые чипы RX 6300M и 6500M, которые заявлены на 200% быстрее, чем GeForce MX450 от NVIDIA, хотя ожидается, что этот разрыв сократится с новыми MX550 и MX570.
А для ПК-геймеров настоящим подарком станет Radeon RX 6500 XT, которая будет конкурировать с GeForce GTX 1650 от NVIDIA с заявленной производительностью на 20-60% выше в играх 1080p. И что важно, есть новая функция Radeon Super Resolution, которая лучше противостоит повышению разрешения DLSS от NVIDIA. И все же самое приятное тут — цена: всего 199 долларов США, а в продаже новая карточка появится уже с 19 января.
Google использует ИИ, чтобы создать дизайн чипов меньше чем за 6 часов
Обычно на этот процесс уходит не один месяц у людей, но искусственный интеллект позволяет драматически ускорить этот процесс.
Компания Google объявила о создании софта, который использует машинное обучение и искусственный интеллект для создания дизайн процессоров и чипов. Благодаря этому чип может быть создан всего за 6 часов. Для сравнения человеку требуются месяцы.
Интересно, что метод создания чипов описан в журнале Nature. «Наш метод мы использовали при разработке дизайна нового поколения Google TPU (тензорных процессоров)» — сказала глава отдела машинного обучения для систем Goole Азалия Мирхосейни.
По сути, ИИ рисует некий «план этажа» для более продвинутых систем, далее искусственный интеллект расставляет компоненты, включая CPU, GPU и ядра памяти. Именно на последний процесс «расстановки» у человека может уйти несколько месяцев поскольку инженеры должны продумать все ключевые характеристики, включая площадь чипа, энергопотребление и мощность, в то время как новая система обучения от Google натренирована на 10 тысячах всевозможных вариантов таких «планов этажей». За счет этого она может сделать работу меньше чем за 6 часов.
Samsung иначе «упаковал» чип: Быстрее и эффективнее
В условиях нехватки микроэлектронных компонентов по всему миру, Samsung делает новые более быстрые и эффективные «упаковки» для SoC.
Компания Samsung является одним из лидеров в области производства микроэлектроники и как и все испытывает трудности в этом направлении. При этом компания представила новый типа «упаковки» чипа, который потенциально может сделать процессор более эффективным и быстрым.
Новая технология называется I-Cube4, который является гибридом двух собственных технологий — I-Cube2 и X-Cube.
Новую технологию разработали и представили в марте 2021 года. Это гетерогенный 2,5D-чип, кристаллы в котором будут располагаться в горизонтальной плоскости.
На чипе можно распологать один или несколько логических кристалов — CPU, GPU, NPU и другие, а также несколько кристаллов высокоскоростной памяти HBM. При этом SoC сделан таким образом, что все эти кристаллы можно рассматривать как одно целое.
Такие чипы можно использовать в 5G, ЦОД, облачных решениях и вычислениях, приложений искусственного интеллекта и так далее. Главная идея в том, чтобы обеспечить скорость и эффективность работы всех ядер — логических и ядер памяти — между собой.
При этом непонятно, когда новые решения от Samsung появятся для заказа.
NVIDIA объявила о покупке Arm за 40 миллиардов долларов
Слухи об этой сделке ходили довольно давно, но поскольку речь идёт о миллиардах долларов, она должна пройти еще несколько инстанций по регулированию.
Шутка про невидимую руку капитализма может войти в моду. Можно сказать, что у NVIDIA теперь появилась рука, ведь сегодня компания объявила о приобретении Arm за 40 миллиардов долларов.
Основная идея покупки заключается в развитии экосистемных решений с искусственным интеллектом. При этом Arm останется работать в Кембридже, где создаст центр исследования и обучения ИИ, а заодно создаст суперкомпьютер на базе решений обоих компаний.
При этом NVIDIA будет сохранять нейтралитет, а Arm продолжит модель лицензирования процессоров.
Важно заметить, что совместная деятельность компаний будет направлена в первую очередь не на B2C-сегмент, а на B2D, ведь в планах NVIDIA создание мощных дата-центров для клиентов, которые будут сочетать в себе решения и идеи NVIDIA и Arm.
В рамках продажи бывший владелец Arm — японский Softbank получит 21,5 миллиард долларов в виде акций NVIDIA, а также 12 миллиардов кэшем, включая 2 миллиарда подписного бонуса. Полная сделка займёт 18 месяцев в случае ее принятия со стороны Великобритании, Китая, Европейского Союза и США.
Как работает процессор и что важно знать?
Разбираемся в том, как работают процессоры Intel, какие фишки в них есть и каким образом они построены. Как всегда — доступно и понятно!
Процессор состоит из миллиардов транзисторов сопоставимых по размеру с молекулой ДНК. Действительно размер молекулы ДНК составляет 10 нм. И это не какая-то фантастика! Каждый день процессоры помогают нам решать повседневные задачи. Но вы когда-нибудь задумывались, как они это делают? И как вообще люди заставили кусок кремния производить за них вычисления?
Сегодня мы разберем базовые элементы процессора и на практике проверим за что они отвечают. В этом нам поможет красавец-ноутбук — Acer Swift 7 с процессором Intel на борту.
Ядро процессора
Модель нашего процессора i7-1065G7. Он четырёхядерный и ядра очень хорошо видны на фотографии.
Каждое ядро процессора содержит в себе все необходимые элементы для вычислений. Чем больше ядер, тем больше параллельных вычислений процессор может выполнять. Это полезно для многозадачности и некоторых ресурсоемких задач типа 3D-рендеринга.
Например, для теста мы одновременно запустили четыре 4К-видео. Нагрузка на ядра рспределяется более менее равномерно: мы загрузили процессор на 68%. В итоге больше всего пришлось переживать за то хватит ли Интернет-канала. Современные процессоры отлично справляются с многозадачностью.
Почему это важно? Чтобы ответить на этот вопрос, давайте разберемся — как же работает ядро?
По своей сути ядро — это огромный конвейер по преобразованию данных. На входе загружаем одно, на выходе получаем другое. В его основе лежат транзисторы. Это миниатюрные переключатели, которые могут быть в всего в двух состояниях: пропускать ток или нет. Эти состояния компьютер интерпретирует как нули и единицы, поэтому все данные в компьютере хранятся в двоичном коде.
Можно сказать, что компоненты внутри компьютера общаются между собой при помощи подобия Азбуки Морзе, которая тоже является примером двоичного кода. Только компьютер отстукивает нам не точки и тире, а нолики и единички. Казалось бы, вот есть какой-то переключатель, и что с ним можно сделать? Оказывается очень многое!
Если по хитрому соединить несколько транзисторов между собой, то можно создать логические вентили. Это такие аналоговые эквиваленты функции “если то”, ну как в Excel. Если на входе по обоим проводам течет ток, то на выходе тоже будет течь или не будет или наоборот, вариантов не так уж и много — всего семь штук.
Но дальше комбинируя вентили между собой в сложные аналоговые схемы, мы заставить процессор делать разные преобразования: складывать, умножать, сверять и прочее.
Поэтому ядро процессора состоит из множества очень сложных блоков, каждый из которых может сделать с вашими данными что-то своё.
Прям как большой многостаночный завод, мы загружаем в него сырье — наши данные. Потом всё распределяем по станкам и на выходе получаем результат.
Но как процессор поймёт, что именно нужно делать с данными? Для этого помимо данных, мы должны загрузить инструкции. Это такие команды, которые говорят процессору:
это надо сложить,
это перемножить,
это просто куда-нибудь отправить.
Инструкций очень много и для каждого типа процессора они свои. Например, в мобильных процессорах используется более простой сокращённый набор инструкций RISC — reduced instruction set computer.
А в ПК инструкции посложнее: CISC — complex instruction set computer.
Поэтому программы с мобильников не запускаются на компах и наоборот, процессоры просто не понимают их команд. Но чтобы получить от процессора результат недостаточно сказать — вот тебе данные, делай то-то. Нужно в первую очередь сказать, откуда брать эти данные и куда их, собственно, потом отдавать. Поэтому помимо данных и инструкций в процессор загружаются адреса.
Память
Для выполнения команды ядру нужно минимум два адреса: откуда взять исходные данные и куда их положить.
Всю необходимую информацию, то есть данные, инструкции и адреса процессор берёт из оперативной памяти. Оперативка очень быстрая, но современные процессоры быстрее. Поэтому чтобы сократить простои, внутри процессора всегда есть кэш память. На фото кэш — это зелёные блоки. Как правило ставят кэш трёх уровней, и в редких случаях четырёх.
Самая быстрая память — это кэш первого уровня, обозначается как L1 cache. Обычно он всего несколько десятков килобайт. Дальше идёт L2 кэш он уже может быть 0,5-1 мб. А кэш третьего уровня может достигать размера в несколько мегабайт.
Правило тут простое. Чем больше кэша, тем меньше процессор будет обращаться к оперативной памяти, а значит меньше простаивать.
В нашем процессоре кэша целых 8 мб, это неплохо.
Думаю тут всё понятно, погнали дальше.
Тактовая частота
Если бы данные в процессор поступали хаотично, можно было бы легко запутаться. Поэтому в каждом процессоре есть свой дирижёр, который называется тактовый генератор. Он подает электрические импульсы с определенной частотой, которая называется тактовой частотой. Как вы понимаете, чем выше тактовая частота, тем быстрее работает процессор.
Занимательный факт. По-английски, тактовая частота — это clock speed. Это можно сказать буквальный термин. В компьютерах установлен реальный кристалл кварца, который вибрирует с определенной частотой. Прямо как в наручных кварцевых часах кристалл отсчитывает секунды, так и в компьютерах кристалл отсчитывает такты.
Обычно частота кристалла где-то в районе 100 МГц, но современные процессоры работают существенно быстрее, поэтому сигнал проходит через специальные множители. И так получается итоговая частота.
Современные процессоры умеют варьировать частоту в зависимости от сложности задачи. Например, если мы ничего не делаем и наш процессор работает на частоте 1,3 ГГц — это называется базовой частотой. Но, к примеру, если архивируем папку и мы видим как частота сразу увеличивается. Процессор переходит в турбо-режим, и может разогнаться аж до 3,9 ГГц. Такой подход позволяет экономить энергию, когда процессор простаивает и лишний раз не нагреваться.
А еще благодаря технологии Intel Hyper-threading, каждое ядро делится на два логических и мы получаем 8 независимых потоков данных, которые одновременно может обрабатывать компьютер.
Что прикольно, в новых процессорах Intel скорость частот регулирует нейросеть. Это позволяет дольше держать турбо-частоты при том же энергопотреблении.
Вычислительный конвейер
Так как ядро процессора — это конвейер, все операции через стандартные этапы. Их всего четыре штуки и они очень простые. По-английски называются: Fetch, Decode, Execute, Write-back.
Fetch — получение
Decode — раскодирование
Execute — выполнение
Write-back — запись результата
Сначала задача загружается, потом раскодируется, потом выполняется и, наконец, куда-то записывается результат.
Чем больше инструкций можно будет загрузить в конвейер и чем меньше он будет простаивать, тем в итоге будет быстрее работать компьютер.
Предсказатель переходов
Чтобы конвейер не переставал работать, инженеры придумали массу всяких хитростей. Например, такую штуку как предсказатель переходов. Это специальный алгоритм, который не дожидаясь пока в процессор поступит следующая инструкция её предугадать. То есть это такой маленький встроенный оракул. Вы только дали какую-то задачу, а она уже сделана.
Такой механизм позволяет многократно ускорить систему в массе сценариев. Но и цена ошибки велика, поэтому инженеры постоянно оптимизируют этот алгоритм.
Микроархитектура
Все компоненты ядра, как там всё организовано, всё это называется микроархитектурой. Чем грамотнее спроектирована микроархитектура, тем эффективнее работает конвейер. И тем больше инструкций за такт может выполнить процессор. Этот показатель называется IPC — Instruction per Cycle.
А это значит, если два процессора будут работать на одинаковой тактовой частоте, победит тот процессор, у которого выше IPC.
В процессорах Ice Lake, Intel использует новую архитектуру впервые с 2015 года. Она называется Sunny Cove.
Показатель IPC в новой архитектуре аж на 18% на выше чем в предыдущей. Это большой скачок. Поэтому при выборе процессора обращаете внимание, на поколение.
Система на чипе
Естественно, современные процессоры — это не только центральный процессор. Это целые системы на чипе с множеством различных модулей.
ГП
В новый Intel больше всего места занимает графический процессор. Он работает по таким же принципам, что и центральный процессор. В нём тоже есть ядра, кэш, он тоже выполняет инструкции. Но в отличие от центрального процессора, он заточен под только под одну задачу: отрисовывать пиксели на экране.
Поэтому в графический процессорах ядра устроены сильно проще. Поэтому их даже называют не ядрами, а исполнительными блоками. Чем больше исполнительных блоков тем лучше.
В десятом поколении графика бывает нескольких типов от G1 до G7. Это указывается в названии процессора.
А исполнительных блоков бывает от 32 до 64. В прошлом поколении самая производительная графика была всего с 24 блоками.
Также для графики очень важна скорость оперативки. Поэтому в новые Intel завезли поддержку скоростной памяти DDR4 с частотой 3200 и LPDDR4 с частотой 3733 МГц.
У нас на обзоре ноутбук как раз с самой топовой графикой G7. Поэтому, давайте проверим на что она способна! Мы проверили его в играх: CS:GO, Dota 2 и Doom Eternal.
Что удобно — Intel сделали портал gameplay.intel.com, где по модели процессора можно найти оптимальные настройки для большинства игр.
В целом, в Full HD разрешении можно комфортно играть в большинство игр прямо на встроенной графике.
Thunderbolt
Но есть в этом процессоре и вишенка на торте — это интерфейс Thunderbolt. Контроллер интерфейса расположен прямо на основном кристалле, вот тут.
Такое решение позволяет не только экономить место на материнской плате, но и существенно сократить задержки. Проверим это на практике.
Подключим через Thunderbolt внешнюю видеокарту и монитор. И запустим те же игры. Теперь у нас уровень производительности ноутбука сопоставим с мощным игровым ПК.
Но на этом приколюхи с Thunderbolt не заканчиваются. К примеру, мы можем подключить SSD-диск к монитору. И всего лишь при помощи одного разъёма на ноуте мы получаем мощный комп для игр, монтажа и вообще любых ресурсоемких задач.
Мы запустили тест Crystalmark. Результаты вы видите сами.
Но преимущества Thunderbolt на этом не заканчиваются. Через этот интерфейс мы можем подключить eGPU, монитор, и тот же SSD и всё это через один кабель, подключенный к компу.
Надеюсь, мы помогли вам лучше разобраться в том, как работает процессор и за что отвечают его компоненты.
Зачем нам нужны нейронные процессоры?
Нейросети и нейропроцессоры — это наше настоящее и, безусловно, наше будущее! Именно искусственный интеллект помогает смартфонам стать ещё круче!
Нейросети сейчас называют новым электричеством. Мы их не замечаем, но пользуемся каждый день. Face ID в iPhone, умные ассистенты, сервисы перевода, и даже рекомендации в YouTube — всё это нейросети. Они развиваются настолько стремительно, что даже самые потрясающие открытия выглядят как обыденность.
Например, недавно в одном из самых престижных научных журналов Nature опубликовали исследование группы американских ученых. Они создали нейросеть, которая может считывать активность коры головного мозга и преобразовывать полученные сигналы в речь. С точностью 97 процентов. В будущем, это позволит глухонемым людям «заговорить».
И это только начало. Сейчас мы стоим на пороге новой технической революции сравнимой с открытием электричества. И сегодня мы объясним вам почему.
Как работают нейросети?
Центральный процессор — это очень сложный микрочип. Он умеет выполнять выполнять кучу разных инструкций и поэтому справляется с любыми задачами. Но для работы с нейросетями он не подходит. Почему так?
Сами по себе нейросетевые операции очень простые: они состоят всего из двух арифметических действий: умножения и сложения.
Например, чтобы распознать какое-либо изображение в нейронную сеть нужно загрузить два набора данных: само изображение и некие коэффициенты, которые будут указывать на признаки, которые мы ищем. Эти коэффициенты называются весами.
Вот например так выглядят веса для рукописных цифр. Похоже как будто очень много фоток цифр наложили друг на друга.
А вот так для нейросети выглядит кошка или собака. У искусственного интеллекта явно свои представления о мире.
Но вернёмся к арифметике. Перемножив эти веса на исходное изображение, мы получим какое-то значение. Если значение большое, нейросеть понимает:
— Ага! Совпало. Узнаю, это кошка.
А если цифра получилась маленькой значит в областях с высоким весом не было необходимых данных.
Вот как это работает. Видно как от слоя к слою сокращается количество нейронов. В начале их столько же сколько пикселей в изображении, а в конце всего десять — количество ответов. С каждым слоем изображение упрощается до верного ответа. Кстати, если запустить алгоритм в обратном порядке, можно что-нибудь сгенерировать.
Всё вроде бы просто, да не совсем. В нейросетях очень много нейронов и весов. Даже в простой однослойной нейросети, которая распознает цифры на картинках 28 x 28 пикселей для каждого из 10 нейронов используется 784 коэффициента, т.е. веса, итого 7840 значений. А в глубоких нейросетях таких коэффициентов миллионы.
CPU
И вот проблема: классические процессоры не заточены под такие массовые операции. Они просто вечность будут перемножать и складывать и входящие данные с коэффициентами. Всё потому, что процессоры не предназначены для выполнения массовых параллельных операций.
Ну сколько ядер в современных процессорах? Если у вас восьмиядерный процессор дома, считайте вы счастливчик. На мощных серверных камнях бывает по 64 ядра, ну может немного больше. Но это вообще не меняет дела. Нам нужны хотя бы тысячи ядер.
Где же взять такой процессор? В офисе IBM? В секретных лабораториях Пентагона?
GPU
На самом деле такой процессор есть у многих из вас дома. Это ваша видеокарта.
Видеокарты как раз заточены на простые параллельные вычисления — отрисовку пикселей! Чтобы вывести на 4K-монитор изображение, нужно отрисовать 8 294 400 пикселей (3840×2160) и так 60 раз в секунду (или 120/144, в зависимости от возможностей монитора и пожеланий игрока, прим.ред.). Итого почти 500 миллионов пикселей в секунду!
Видеокарты отличаются по своей структуре от CPU. Почти всё место в видеочипе занимают вычислительные блоки, то есть маленькие простенькие ядра. В современных видюхах их тысячи. Например в GeForce RTX2080 Ti, ядер больше пяти тысяч.
Всё это позволяет нейросетям существенно быстрее крутиться GPU.
Производительность RTX2080 Ti где-то 13 TFLOPS (FLOPS — FLoating-point Operations Per Second), что значит 13 триллионов операций с плавающей запятой в секунду. Для сравнения, мощнейший 64-ядерный Ryzen Threadripper 3990X, выдаёт только 3 TFLOPS, а это заточенный под многозадачность процессор.
Триллионы операций в секунду звучит внушительно, но для действительно продвинутых нейронных вычислений — это как запустить FarCry на калькуляторе.
Недавно мы игрались с алгоритмом интерполяции кадров DAIN, основанном на машинном обучении. Алгоритм очень крутой, но с видеокартой Geforce 1080 уходило 2-3 минуты на обработку одного кадра. А нам нужно чтобы подобные алгоритмы работали в риалтайме, да и желательно на телефонах.
TPU
Именно поэтому существуют специализированные нейронные процессоры. Например, тензорный процессор от Google. Первый такой чип в Google сделали еще в 2015 году, а в 2018 вышла уже третья версия.
Производительность второй версии 180 TFLOPS, а третьей — целых 420 TFLOPS! 420 Триллионов операций в секунду. Как они этого добились?
Каждый такой процессор содержит 10-ки тысяч крохотных вычислительных ядер, заточенных под единственную задачу складывать и перемножать веса. Пока, что он выглядит огромным, но через 15 лет он существенно уменьшится в размерах. Но это еще фигня. Такие процессоры объединяться в кластеры по 1024 штуки, без каких либо просадок в производительности. GPU так не могут.
Такой кластер из тензорных процессоров третьей версии могут выдать 430 PFLOPS (пета флопс) производительности. Если что, это 430 миллионов миллиардов операций в секунду.
Где мы и что нас ждёт?
Но как мы уже говорили, это только начало. Текущие нейронные суперкомпьютеры — это как первые классические мейнфреймы занимавшие, целые этажи в зданиях.
В 2000 году первый суперкомпьютер с производительностью 1 терафлопс занимал 150 квадратных метров и стоил 46 миллионов долларов.
Спустя 15 лет NVIDIA мощностью 2?3 терафлопса, которая помещается в руке стоит 59$.
Так что в следующие 15-20 лет суперкомпьютер Google тоже поместится в руке. Ну или где мы там будем носить процессоры?
Кадр из режиссерской версии фильма «Терминатор-2»
А мы пока ждём момента, довольствуемся нейромодулями в наших смартфонах — в тех же Qualcomm Snapdragon’ах, Kirin’ах от Huawei и в Apple Bionic — они уже тихо делают свою работу.
И уже через несколько презентаций они начнут меряться не гигагерцами, ядрами и терафлопсами, а чем-то понятным для всех — например, распознанных котиках в секунду. Всё лучше, чем попугаи!
Helio X20 — топовый процессор, над которым трудятся инженеры MediaTek, ещё до выхода смартфонов разогревая публику. Это и отличало чипсет китайцев от Snapdragon 810, который подогревал, как правило, смартфоны.
Результаты GeekBench доказывают другие преимуществе процессора, а именно производительность: Helio X20 показал впечатляющие результаты в тесте. (далее…)
Похоже, MediaTek не оставляет шансов на реабилитацию процессора Snapdragon 820, который лишён проблем с перегревом.
Уже на следующий день после презентацииQualcomm, от тайваньской компании произошла «утечка», касающаяся спецификаций флагманского чипсета Helio X30. (далее…)