Декодирование генеративного ИИ: тенденции рынка и технологий

Fabio Stradelli

Опубликовано 1 февр. 2024 г.

Генеративный ИИ в наши дни находится во всех заголовках новостей. Существует большой ажиотаж вокруг потенциала этих новых магистров права (Большая языковая модель) Технологии. Но также слишком много шума и модных словечек, летающих вокруг. Менеджерам и инвесторам может быть трудно прорваться сквозь болтовню, чтобы найти то, что имеет значение.

Что сейчас делают компании из этих моделей? Насколько они дорогие? Является ли GPT4 от OpenAI по-прежнему лучшим? Или Google догоняет? И кто еще выигрывает от этой тенденции? Я постараюсь всячески прояснить эти и другие моменты.

Приложения становятся все более сложными в геометрической прогрессии

По мере того, как разработчики продолжают изучать способы использования LLM для создания крутых вещей, появляется несколько новых подходов.

Агенты LLM используются все чаще и чаще для достижения более сложной сквозной автоматизации. Представьте себе команду приспешников с искусственным интеллектом, каждый из которых обладает определенными навыками и целями — например, запрашивает базу данных, обрабатывает изображение, настраивает тон голоса генерируемого контента. Возможности безграничны, а создаваемые приложения становятся все более сложными.

LLM также используются на протяжении всего процесса разработки, помогая инженерам практически в каждой задаче. При создании приложения на основе LLM в настоящее время вы можете попросить самого LLM спроектировать приложение, написать код, сгенерировать данные, которые будут использоваться для обучения, и даже протестировать выходные данные самой модели («Эй, GPT, ты думаешь, твой ответ достаточно хорош? Соответствует ли он нашим рекомендациям по контенту?»).

Таким обра��ом, вы должны представить, что каждый раз, когда приложение на основе LLM отвечает на ваш вопрос, модель запускается не один раз, а несколько раз. Как правило, на вершине даже есть мастер LLM, который управляет всеми ИИ-миньонами. В результате, все эти исполнения приводят к тому, что затраты на прогон подскакивают до новых максимумов.

Затраты на запуск приложения на основе LLM стремительно растут

Насколько дорого стоит запуск приложения на основе LLM? Давайте выполним небольшое упражнение по математике.

Предположим, что вы хотели бы (частично) автоматизируйте процессы поддержки клиентов с помощью GPT4 от OpenAI. Вы знаете, что исторически для разрешения дела требовалось в среднем 10 взаимодействий, по 500 символов на входящее сообщение и 500 символов на ответ. На момент написания статьи входные и выходные токены стоят $0,00003 и $0,00006 соответственно (1 жетон ~ 4 символа).

Контент статьи — OpenAI’s pricing table for GPT4 (as of 31st Jan 2024)

Но подождите, это еще не все. Мы только что сказали, что каждое взаимодействие на самом деле включает в себя множество агентов, просмотр и модерацию контента и так далее. Таким образом, наша предыдущая оценка, скорее всего, принесет множитель 5x или 10x сверху.

Во сколько вам обойдется решение проблемы взаимодействия с клиентами?

стоить_посредством_поддержка_случай = 10 Взаимодействия * (500 вход_Персонажи/взаимодействие * 0,25 жетонов/символ * 0.00003 $/токен + 500 вывод_Персонажи/взаимодействие * 0.25 Токены/персонаж * 0.00006 $/токен) * 10 Запуски/взаимодействие = $1.125

Решение одного запроса в службу поддержки обойдется вам до $1. Он мог бы (или не смогли) обеспечивать несколько Экономия по сравнению с вашей старой оффшорной службой поддержки. Но затраты остаются в том же порядке величины. И, конечно же, вам нужно будет построить, настроить и поддерживать модель.

Крайне важно, чтобы организации прилагали значительные усилия для Доработка бизнес-кейса перед созданием приложений на основе LLM. Необходимо убедиться, что сценарий использования обеспечивает достаточную ценность, чтобы оправдать затраты на сборку и эксплуатацию. Это звучит очевидно, но что касается организаций, вы знаете так же хорошо, как и я, что это не так. Вы не хотите поручать весь процесс принятия решений своей команде разработчиков, и вы также не хотите оставлять это на усмотрение политики. Хрустящие цифры. Избегайте сожалений.

Конфиденциальность данных по-прежнему вызывает беспокойство

Компании также беспокоятся о том, что происходит с их данными. И это справедливо.

По умолчанию все, что вы сообщите ChatGPT, будет храниться на их серверах и использоваться для обучения. Для большинства корпораций это неприемлемо. Многие компании, такие как AXA или Partners Group, внедряют свои собственные внутренняя версия ChatGPT, часто основанные на сервисах Microsoft Azure, что обеспечивает большую прозрачность и контроль над тем, что происходит с данными. Это мини-проект, реализация которого не должна занимать более 2 недель, и в то же время позволяет сотрудникам извлечь выгоду из монументального прироста производительности, предлагаемого этими новыми технологиями.

Однако пока не все живут в облаке. Что делать, если вы являетесь банком и ваши требования к конфиденциальности данных еще строже, например, вам нужно убедиться, что CID (Данные, идентифицирующие клиента) не выезжает за пределы страны?

Открытый исходный код наверстывает упущенное

Среди проблем с ценообразованием и конфиденциальностью, вполне естественно, что модели с открытым исходным кодом быстро догоняют.

Рекомендовано компанией LinkedIn

GPT-5 и запутанный путь к искусственному общему…

Ravi Bhogaraju 1 год назад

Роль настройки рефлексии в ИИ: это просто инженерия…

Jeremy Harper 1 год назад

Самый мощный магистр права

Partha Samadder, MSC, MBA 🇮🇳 1 год назад

Исследователи публикуют свои модели в течение многих лет. Но только после бума ChatGPT в ноябре 2022 года качество действительно выросло, что привело к публикации Meta своей модели LLaMa в феврале 2023 года. В течение 2023 года большинство публикуемых моделей на самом деле были с открытым исходным кодом, и эта тенденция, вероятно, сохранится.

Последними крутыми ребятами в этом районе, пожалуй, стали LLaMa2 от Meta, Mixtral от MistralAI и Falcon от TII UAE. Но новые модели появляются чуть ли не каждую неделю. Эти модели часто очень специфичны для конкретного случая использования, например, новый Code LLaMa 70B, который специально разработан для написания кода с производительностью, близкой к GPT4.

Первое, на что следует обратить внимание, это то, что модели с открытым исходным кодом намного меньше, чем GPT4. Речь идет о 2–3 порядках меньше, с параметрами 7B для облегченной версии LLaMa2 по сравнению с параметрами 1,76T для GPT4. В результате меньшего размера модели, производительность значительно ниже, но они также намного дешевле в эксплуатации. Кроме того, производительность быстро наверстывает упущенное по мере публикации моделей, специфичных для конкретных сценариев использования.

Второе, на что следует обратить внимание, это то, что эти модели могут быть развернуты где угодно. То есть на собственной инфраструктуре. У Вас есть полный контроль и прозрачность в отношении того, что происходит с вашими данными — где она находится, где обрабатывается и что с ней делает модель. Такие компании, как HuggingFace , делают очень успешный бизнес, просто предоставляя организациям доступ к этим моделям и их развертывание.

Ключевым недостатком, конечно, является то, что эти модели не управляются. Как всегда с технологиями с открытым исходным кодом, вам потребуется немного дополнительной осторожности, и совокупная стоимость владения оказывается намного больше, чем кажется изначально.

Тем не менее Я бы не стал ставить все свои деньги на OpenAI Прямо сейчас. Они и есть лучший игроком на рынке, и он, скорее всего, останется таковым какое-то время. Но они не обязательно являются наиболее коммерчески жизнеспособными. Многие создают приложения с использованием разных моделей для разных задач (вам не нужен дорогой GPT4 для простых задач), используя слои абстракции, такие как Langchain, которые помогают снизить риск привязки к поставщику.

Облако — это будущее

Независимо от того, какую модель вы выберете, запуск LLM-приложений становится все более дорогостоящим. И все же все прыгают на корабль.

Кто молча выигрывает? Ответ двоякий: Производители чипов и поставщики облачных услуг.

LLM лучше всего запускать на выделенном оборудовании, а именно на графических процессорах (Графические процессоры) и ТПУ (Тензорные процессоры). Их кластеры. И два производителя доминируют на рынке, а именно NVIDIA (для графических процессоров) и Google (для ТПУ). Спрос на эти чипы находится на рекордно высоком уровне. Неудивительно, что акции NVIDIA выросли в три раза за последние 12 месяцев.

Поскольку LLM очень сложны в работе, вы хотите разместить тысячи таких графических процессоров или TPU параллельно, чтобы запустить модель так, чтобы она ответила в разумные сроки. Это не то, что вы делаете на собственном ноутбуке или мобильном устройстве (или пока нет — это, вероятно, изменится в будущем). На самом деле, в настоящее время мало кто из компаний хочет владеть и управлять такой инфраструктурой самостоятельно. Оплата по факту использования — это новая мантра.

Вот почему облачные компании, вероятно, продолжат увеличивать свое присутствие в течение следующих лет. Топ-3 игрока — это обычные подозреваемые: АРМ (Амазонка), Google и Azure (Майкрософт). А поскольку облачный бизнес имеет такие высокие барьеры для входа, Эти компании могут быть успешными только в ближайшие годы.

Это соображение вызывает дискуссию в баре: почему Google только что провел еще один раунд увольнений по всем направлениям? Они являются вторым по величине поставщиком облачных услуг (и самый быстрорастущий), ключевым производителем инфраструктуры ТПУ, и они только что выпустили Gemini, который, возможно, является вторым лучшим LLM на рынке. Они могут интегрировать все эти элементы в Google Workspace, используя платформу, которая сравнима только с платформой Microsoft.

Официально они хотят освободить место для инвестиций в свои «большие приоритеты» в этом году. Google слишком быстро разросся в неправильных направлениях и нуждается в реструктуризации бизнеса, чтобы сосредоточиться на наиболее прибыльных направлениях. Поскольку многие ожидают еще одной реакции рынка в ближайшие месяцы, они хотят сохранить гибкость бизнеса. Но есть риск, что это повлияет на моральный дух сотрудников и, в конечном итоге, на их бизнес в среднесрочной перспективе.

ТЛ; ДОКТОР

В вихревом ландшафте генеративного ИИ распознавание влияния на рынок может показаться сложным на фоне какофонии развивающихся технологий и колеблющихся тенденций.

LLM будут играть ключевую роль в преобразовании отраслей, но понимание их стоимости и полезности — непростая задача. В условиях, когда проприетарные гиганты, такие как OpenAI и Google, управляют текущими достижениями, а конкуренты с открытым исходным кодом быстро набирают обороты, выбор технологии требует тонкого понимания как технологических возможностей, так и динамики рынка.

По мере того как приложения LLM развиваются, требуя более сложного оборудования и облачной инфраструктуры, заинтересованные стороны в области искусственного интеллекта — от разработчиков до инвесторов — должны оставаться гибкими и быть готовыми к переходу к наиболее перспективным и жизнеспособным технологиям. Молчаливые победители, производители чипов и поставщики облачных услуг, подчеркивают незаменимую основу этой технологической революции.

Мы стоим на пороге больших перемен, и будущее полно возможностей для тех, кто готов присмотреться и извлечь выгоду из мощи генеративного ИИ.

Ссылки с этой иконкой были созданы системой LinkedIn, а ссылки без нее были добавлены автором.

Чтобы просмотреть или добавить комментарий, выполните вход

Декодирование генеративного ИИ: тенденции рынка и технологий

Fabio Stradelli

Приложения становятся все более сложными в геометрической прогрессии

Затраты на запуск приложения на основе LLM стремительно растут

Конфиденциальность данных по-прежнему вызывает беспокойство

Открытый исходный код наверстывает упущенное

Рекомендовано компанией LinkedIn

Облако — это будущее

ТЛ; ДОКТОР

Другие участники также просматривали

Тревожные возможности передовых чат-ботов и способы их использования

Создайте приложение для генеративного ИИ с помощью Claude 3 - мощного LLM

AI Atlas #8: Вложения

Как генеративный ИИ думает, прежде чем говорить

GPT-5: Унификация моделей искусственного интеллекта OpenAI и повышение планки