Гигант облачных вычислений в ближайшее время не вытеснит действующего игрока, но надеется снизить свою зависимость от производителя чипов.

В безликом районе на севере Остина, где преобладают безликие офисные башни корпораций, инженеры Amazon.com Inc. трудятся над одним из самых амбициозных проектов в технологической отрасли: ослабить контроль Nvidia Corp. над рынком чипов искусственного интеллекта стоимостью более 100 миллиардов долларов.

Утилитарная инженерная лаборатория Amazon состоит из рядов длинных рабочих столов с видом на разрастающиеся пригороды техасской столицы. Это место представляет собой своего рода беспорядок. Печатные платы, вентиляторы охлаждения, кабели и сетевое оборудование разбросаны по рабочим станциям в различных стадиях сборки, некоторые из них заляпаны термопастой, используемой для соединения чипов с компонентами, что не дает им перегреваться. Здесь царит атмосфера бутстрэппинга, которую ожидаешь увидеть в стартапе, а не в компании с рыночной капитализацией, превышающей 2 триллиона долларов.

Инженеры, которые здесь работают, не задумываясь спешат в Home Depot за сверлильным станком и с радостью изучают предметы, выходящие за рамки их компетенции, если это ускорит процесс. Годы борьбы за создание чипов машинного обучения с нуля, и теперь они оказались на крючке, чтобы выпустить истребитель Nvidia как можно быстрее. Речь идет не о чистой мощности. Речь идет о создании простой и надежной системы, которая может быстро превратить центры обработки данных Amazon в огромные машины искусственного интеллекта.

Инженеры в утилитарной инженерной лаборатории Amazon в Остине. 
Здесь царит атмосфера бутстрэппинга, которую можно ожидать от стартапа, а не от компании с рыночной капитализацией, превышающей 2 триллиона долларов. 

Рами Синно, общительный инженер ливанского происхождения, десятилетиями работавший в индустрии микросхем, отвечает за проектирование и тестирование микросхем. Он помог создать первые два поколения полупроводников Amazon AI и теперь спешит, чтобы к концу года последняя версия Trainium2 надежно работала в центрах обработки данных. «Что не дает мне спать по ночам, так это как добраться туда как можно быстрее», — говорит Синно.

За последние два года Nvidia превратилась из нишевого производителя чипов в основного поставщика оборудования, которое обеспечивает генеративный ИИ, что сделало компанию крупнейшей в мире по рыночной стоимости. Процессоры Nvidia стоят десятки тысяч долларов за штуку и, благодаря огромному спросу, их трудно достать. На прошлой неделе, после отчета о доходах , производитель чипов сообщил инвесторам, что спрос на его новейшее оборудование будет превышать предложение в течение нескольких кварталов, что еще больше усугубило кризис.

Крупнейшие клиенты Nvidia — поставщики облачных услуг, такие как Amazon Web Services, Microsoft Corp. Azure и Alphabet Inc. Google Cloud Platform — стремятся сократить свою зависимость от чипов Nvidia, если не заменить их. Все три готовят собственный кремний, но Amazon, крупнейший продавец арендуемой вычислительной мощности, развернул больше всего чипов на сегодняшний день.

Во многих отношениях Amazon идеально подходит для того, чтобы стать силой в области чипов ИИ. Пятнадцать лет назад компания изобрела бизнес облачных вычислений, а затем со временем начала строить инфраструктуру, которая его поддерживает. Снижая свою зависимость от одного действующего лица за другим, включая Intel Corp., Amazon вырвала многие серверы и сетевые коммутаторы из своих центров обработки данных и заменила их изготовленным на заказ оборудованием. Затем, десять лет назад, Джеймс Гамильтон , старший вице-президент и выдающийся инженер со сверхъестественным чувством времени, уговорил Джеффа Безоса заняться производством чипов.

«Мы твердо убеждены, что можем создать деталь, которая будет конкурировать с ними на равных».

Когда два года назад ChatGPT от OpenAI положил начало эпохе генеративного ИИ, Amazon считался посредственным, застигнутым врасплох и пытающимся догнать остальных. Ему еще предстоит создать собственную большую языковую модель, которая будет конкурентоспособна с ChatGPT или Claude, созданными Anthropic, в которую Amazon вложила $8 млрд. Но облачная техника, созданная Amazon — пользовательские серверы, коммутаторы, чипы — позволила генеральному директору Энди Джасси открыть супермаркет ИИ, продавая инструменты для компаний, которые хотят использовать модели, созданные другими компаниями, и чипы для компаний, обучающих свои собственные службы ИИ.

После почти четырех десятилетий работы в бизнесе Гамильтон знает, что вывести амбиции Amazon в области чипов на новый уровень будет непросто. Проектирование надежного оборудования для искусственного интеллекта — сложная задача. Возможно, еще сложнее написать программное обеспечение, способное сделать чипы полезными для широкого круга клиентов. Оборудование Nvidia может без проблем справиться практически с любой задачей искусственного интеллекта. Компания поставляет чипы следующего поколения клиентам, включая Amazon, и начала рассказывать о продуктах, которые придут им на смену через год. Отраслевые обозреватели говорят, что Amazon вряд ли вытеснит Nvidia в ближайшее время.

Джеймс Гамильтон в Day One / Amazon HQ в Сиэтле, штат Вашингтон, для Matt Day Story
Джеймс Гамильтон говорит, что Amazon может конкурировать «на равных» с Nvidia. 

Тем не менее, раз за разом команды инженеров Hamilton и Amazon демонстрировали свою способность решать крупные технические проблемы при ограниченном бюджете. «Nvidia — очень, очень компетентная компания, которая делает отличную работу, и поэтому у них будет хорошее решение для многих клиентов на долгое время», — говорит Hamilton. «Мы твердо убеждены, что можем произвести деталь, которая будет конкурировать с ними лицом к лицу».

Гамильтон присоединился к Amazon в 2009 году после работы в International Business Machines Corp. и Microsoft. Легенда отрасли , начинавший с ремонта автомобилей класса люкс в родной Канаде и добиравшийся на работу на 54-футовой лодке, Гамильтон присоединился к компании в удачное время. Amazon Web Services дебютировал тремя годами ранее, в одиночку создав отрасль для того, что стало известно как услуги облачных вычислений. AWS вскоре начнет приносить огромные деньги, что позволит Amazon финансировать ряд крупных ставок.

Тогда Amazon построила собственные центры обработки данных, но оснастила их серверами и сетевыми коммутаторами, произведенными другими компаниями. Гамильтон возглавил попытку заменить их на специализированное оборудование, начав с серверов. Поскольку Amazon собиралась закупить их миллионы, Гамильтон посчитал, что сможет снизить затраты и повысить эффективность, адаптировав устройства для своего растущего парка центров обработки данных и исключив функции, которые не нужны AWS.

Усилия были настолько успешными, что Джасси, тогда управлявший AWS, спросил, что еще компания могла бы разработать самостоятельно. Гамильтон предложил чипы, которые поглощали все больше и больше задач, которые ранее выполнялись другими компонентами. Он также рекомендовал Amazon использовать энергоэффективную архитектуру Arm, которая используется в смартфонах, делая ставку на то, что повсеместность технологии и растущее знакомство с ней разработчиков могут помочь Amazon вытеснить чипы Intel, которые долгое время использовались в серверных комнатах по всему миру.

«Все пути ведут к тому, что у нас будет команда разработчиков полупроводников», — написал он в предложении, представленном Безосу в августе 2013 года. Месяц спустя Гамильтон, который любит проводить время со стартапами и клиентами ближе к вечеру, встретился с Нафеей Бшарой за бокалом вина в пабе Virginia Inn в Сиэтле .  

Бшара, ветеран израильской индустрии производства микросхем, переехал в район залива Сан-Франциско в начале 2000-х годов и стал соучредителем Annapurna Labs, которую он назвал в честь непальской вершины. (Бшара и его соучредитель намеревались покорить гору до основания стартапа. Но инвесторы жаждали, чтобы они приступили к работе, и они так и не совершили поездку.) 

Скрытый стартап начал разрабатывать чипы для центров обработки данных в то время, когда большая часть отрасли была зациклена на мобильных телефонах. Amazon заказала процессоры у Annapurna и два года спустя приобрела стартап за, как сообщалось, 350 миллионов долларов. Это был дальновидный шаг. 

Печатная плата.

Бшара и Гамильтон начали с малого, что стало отражением их общей признательности за утилитарную инженерию. Тогда каждый сервер центра обработки данных резервировал часть своей мощности для управления, безопасности и сетевых функций. Инженеры Annapurna и Amazon разработали карту под названием Nitro, которая полностью удаляла эти функции с сервера, предоставляя клиентам доступ к его полной мощности.

Позже Annapurna воплотила в жизнь универсальный процессор Arm компании Hamilton. Названный Graviton, продукт стоил дешевле, чем конкурирующее оборудование Intel, и сделал Amazon одним из 10 крупнейших клиентов Taiwan Semiconductor Manufacturing Co., титана, производящего чипы для большей части отрасли.  

Руководство Amazon к тому времени уже было уверено, что Annapurna может преуспеть даже в незнакомых областях. «Вы обнаружите, что многие компании очень хороши в CPU или очень хороши в сетевых технологиях», — говорит Бшара. «Очень редко можно найти команды, которые хороши в двух, трех или четырех различных областях».

Пока Graviton находился в разработке, Джесси спросил Гамильтона, какие еще вещи Amazon может производить самостоятельно. В конце 2016 года Annapurna поручила четырем инженерам изучить возможность создания чипа машинного обучения. Это была еще одна своевременная ставка: несколько месяцев спустя группа исследователей Google опубликовала основополагающую статью, в которой предлагался процесс, который сделал бы возможным генеративный ИИ. 

В статье под названием «Внимание — это все, что вам нужно» были представлены трансформаторы — принцип разработки программного обеспечения, который помогает системам искусственного интеллекта определять наиболее важные фрагменты обучающих данных. Это стало основополагающим методом, лежащим в основе систем, которые могут делать обоснованные предположения о связях между словами и создавать текст с нуля.

Примерно в это же время Рами Синно работал в Arm Holdings Plc в Остине и тренировал своего сына-школьника на соревнованиях по робототехнике. Команда создала приложение, которое использовало алгоритмы машинного обучения для изучения фотографий и обнаружения цветения водорослей, которые периодически загрязняют озера Остина летом. Впечатленный тем, что дети могут делать, имея всего лишь ноутбук, Синно понял, что грядет революция. Он присоединился к Amazon в 2019 году, чтобы помочь возглавить ее усилия по производству микросхем на основе ИИ.  

Первый чип устройства был разработан для поддержки так называемого вывода — когда компьютеры, обученные распознавать закономерности в данных, делают прогноз, например, является ли часть электронного письма спамом. Этот компонент, называемый Inferentia, был развернут в центрах обработки данных Amazon к декабрю 2019 года и позже использовался, чтобы помочь голосовому помощнику Alexa отвечать на команды. Второй чип AI Amazon, Trainium1, был нацелен на компании, желающие обучать модели машинного обучения. Инженеры также переупаковали чип с компонентами, которые сделали его более подходящим для вывода, как Inferentia2.

Спрос на чипы искусственного интеллекта Amazon поначалу был слабым, что означало, что клиенты могли получить к ним доступ немедленно, а не ждать неделями больших партий оборудования Nvidia. Японские компании, стремившиеся быстро присоединиться к революции генеративного искусственного интеллекта, воспользовались ситуацией. Например, производитель электроники Ricoh Co. получил помощь в конвертации больших языковых моделей, обученных на англоязычных данных, в японский язык.

По словам Гади Хатта, одного из первых сотрудников Annapurna, который работает с компаниями, использующими чипы Amazon, спрос с тех пор вырос. «У меня нет лишних мощностей Trainium, ожидающих клиентов», — говорит он. «Все они используются».

Trainium2 — это третье поколение чипов искусственного интеллекта компании. По мнению отрасли, это момент, когда все решается. Либо третья попытка будет продана в достаточном объеме, чтобы окупить инвестиции, либо она провалится, и компания найдет новый путь. «Я буквально никогда не видел, чтобы продукт отклонялся от правила трех поколений», — говорит Навин Рао, ветеран индустрии чипов, который курирует работу над ИИ в Databricks Inc., поставщике программного обеспечения для обработки данных и аналитики.

В октябре Databricks согласилась использовать Trainium в рамках широкого соглашения с AWS. В настоящее время ИИ-инструменты компании в основном работают на Nvidia. План состоит в том, чтобы заменить часть этой работы на Trainium, который, по словам Amazon, может предложить на 30% лучшую производительность за ту же цену, по словам Рао. «Все сводится к чистой экономике и доступности», — говорит Рао. «Вот где поле битвы».

Trainium1 состоял из восьми чипов, расположенных бок о бок в глубокой стальной коробке, которая обеспечивает достаточно места для рассеивания тепла. Полный пакет, который AWS сдает в аренду своим клиентам, состоит из двух таких массивов. Каждый корпус заполнен проводами, аккуратно заключенными в сетчатую обертку.  

Ряд чипов искусственного интеллекта. 

Для Trainium2, который, по словам Amazon, имеет в четыре раза большую производительность и в три раза большую память по сравнению с предыдущим поколением, инженеры отказались от большинства кабелей, вместо этого прокладывая электрические сигналы через печатные платы. А Amazon сократила количество чипов на коробку до двух, так что инженеры, выполняющие обслуживание одного блока, снимают меньше других компонентов. Sinno стал думать о центре обработки данных как о гигантском компьютере, подход, который руководитель Nvidia Дженсен Хуанг призвал остальную отрасль принять. «Упрощение здесь имеет решающее значение, и оно также позволило нам определенно работать быстрее», — говорит Sinno.

Amazon не стала дожидаться, пока TSMC выпустит рабочую версию Trainium2, чтобы начать тестировать, как может работать новая конструкция. Вместо этого инженеры закрепили на плате два чипа предыдущего поколения, дав им время поработать над управляющим программным обеспечением и провести тест на наличие электрических помех. Это был эквивалент полупроводниковой промышленности, как если бы самолет собирали во время полета. 

Amazon начала поставки Trainium2, который она планирует объединить в кластеры до 100 000 чипов, в центры обработки данных в Огайо и других местах. Более широкое развертывание ожидается для основных центров обработки данных Amazon.

Рами Синно, отвечающий за разработку и тестирование чипов, начал думать о центре обработки данных как о гигантском компьютере.

Компания стремится выводить на рынок новый чип примерно каждые 18 месяцев, отчасти за счет сокращения количества поездок оборудования к внешним поставщикам. Напротив лаборатории от сверлильного станка стоит набор осциллографов, которые Amazon использует для тестирования карт и чипов на предмет неисправных разъемов или недостатков конструкции. Синно намекает на уже ведущуюся работу над будущими версиями: в другой лаборатории, где оглушительные вентиляторы охлаждают тестовые блоки, с потолка свисают четыре пары труб. Сейчас они закрыты, но готовы к тому дню, когда будущие чипы AWS будут выделять слишком много тепла, чтобы их можно было охладить только вентиляторами.

Другие компании тоже расширяют границы. Nvidia, которая охарактеризовала спрос на свои чипы как «безумный», стремится выпускать на рынок новый чип каждый год, что вызвало проблемы с производством ее будущего продукта Blackwell, но окажет большее давление на остальную отрасль, чтобы не отставать. Тем временем два крупнейших конкурента Amazon в сфере облачных вычислений ускоряют собственные инициативы по выпуску чипов.

Google начала создавать чип ИИ около 10 лет назад, чтобы ускорить работу машинного обучения, лежащую в основе ее поисковых продуктов. Позже компания предложила продукт облачным клиентам, включая стартапы ИИ, такие как Anthropic, Cohere и Midjourney. Ожидается, что последняя версия чипа станет широкодоступной в следующем году. В апреле Google представила свой первый центральный процессор, продукт, похожий на Graviton от Amazon. «Универсальные вычисления — это действительно большие возможности», — говорит Амин Вахдат, вице-президент Google, который руководит инженерными группами, работающими над чипами и другой инфраструктурой. По его словам, конечная цель — добиться того, чтобы чипы ИИ и общих вычислений работали вместе без сбоев.

Джеймс Гамильтон в Day One / Amazon HQ в Сиэтле, штат Вашингтон, для Matt Day Story
Кусочки пазла, обозначающие многочисленные патенты Гамильтона для Amazon.

Microsoft вошла в игру чипов ЦОД позже, чем AWS и Google, анонсировав ускоритель ИИ под названием Maia и процессор под названием Cobalt только в конце прошлого года. Как и Amazon, компания поняла, что может предложить клиентам лучшую производительность с оборудованием, адаптированным под ее ЦОД.

Руководит работой вице-президент Рани Боркар, которая проработала в Intel почти три десятилетия. Ранее в этом месяце ее команда добавила два продукта в портфолио Microsoft: чип безопасности и блок обработки данных, который ускоряет поток данных между центральными процессорами и графическими процессорами, или GPU. Nvidia продает похожий продукт. Microsoft тестировала чип ИИ внутри компании и только что начала использовать его вместе со своим парком чипов Nvidia для запуска сервиса, который позволяет клиентам создавать приложения с моделями OpenAI.

Хотя считается, что усилия Microsoft отстают от Amazon на пару поколений, Боркар говорит, что компания пока довольна результатами и работает над обновленными версиями своих чипов. «Неважно, с чего люди начинали», — говорит она. «Я сосредоточена на следующем: что нужно клиенту? Потому что вы можете быть впереди, но если вы создаете не тот продукт, который клиенту не нужен, то инвестиции в кремний настолько огромны, что я бы не хотела быть главой в этой книге».

Несмотря на все усилия по конкуренции, все три облачных гиганта поют дифирамбы Nvidia и борются за позиции, когда на рынке появляются новые чипы, такие как Blackwell.

Trainium2 от Amazon, скорее всего, будет считаться успешным, если он сможет взять на себя большую часть внутренней работы компании по ИИ, а также отдельные проекты от крупных клиентов AWS. Это помогло бы высвободить драгоценный запас высокопроизводительных чипов Nvidia от Amazon для специализированных ИИ-компаний. Чтобы Trainium2 стал безоговорочным хитом, инженерам придется правильно написать программное обеспечение — немалый подвиг. Nvidia черпает большую часть своей силы из полноты своего набора инструментов, которые позволяют клиентам получать проекты машинного обучения онлайн с небольшой настройкой. Программное обеспечение Amazon, называемое Neuron SDK, находится в зачаточном состоянии по сравнению с этим.

Даже если компании смогут без особых проблем перенести свои проекты на Amazon, проверка того, что переключение ничего не сломало, может поглотить сотни часов рабочего времени инженеров, по словам ветерана Amazon и индустрии чипов, который попросил не разглашать свою информацию. Руководитель партнера AWS, который помогает клиентам с проектами ИИ, который также попросил не разглашать свою информацию, говорит, что хотя Amazon удалось сделать свои универсальные чипы Graviton простыми в использовании, потенциальные пользователи оборудования ИИ все еще сталкиваются с дополнительными сложностями.  

«Недаром Nvidia доминирует», — говорит Чираг Декате, вице-президент Gartner Inc., отслеживающий технологии искусственного интеллекта. «Вам не нужно беспокоиться об этих деталях».  

Поэтому Amazon заручился поддержкой — поощряя крупных клиентов и партнеров использовать чипы, когда они заключают новые или возобновляют сделки с AWS. Идея состоит в том, чтобы заставить передовые команды запустить кремний на полную мощность и найти области для улучшения.

Одной из таких компаний является Databricks, которая ожидает, что на запуск и запуск потребуются недели или месяцы, но готова приложить усилия в надежде, что обещанная экономия средств осуществится. Anthropic, стартап в области искусственного интеллекта и конкурент OpenAI, согласилась использовать чипы Trainium для будущих разработок после получения $4 млрд от Amazon в прошлом году, хотя она также использует продукты Nvidia и Google. В пятницу Anthropic объявила о еще одном вливании $4 млрд от Amazon и углубила партнерство.

«Мы особенно впечатлены соотношением цены и производительности чипов Amazon Trainium», — говорит Том Браун, главный вычислительный директор Anthropic. «Мы неуклонно расширяем их использование во все более широком диапазоне рабочих нагрузок».

Гамильтон говорит, что Anthropic помогает Amazon быстро совершенствоваться. Но он трезво оценивает проблемы, говоря, что «обязательно» создавать отличное программное обеспечение, которое упрощает клиентам использование чипов AWS. «Если вы не преодолеете разрыв в сложности, — говорит он, — вы потерпите неудачу».

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *