Главная Автоматизация Amazon Swe-Polybench только что разоблачил The Dirty Secret о вашем помощнике по кодированию ИИ

Amazon Swe-Polybench только что разоблачил The Dirty Secret о вашем помощнике по кодированию ИИ

admin

Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в лидирующем отраслевом освещении искусственного интеллекта. Узнать больше


Amazon Web Services Today представила Swe-Polybench, всеобъемлющий многоязычный эталон, предназначенный для оценки помощников по кодированию искусственного интеллекта на различных языках программирования и сценариях реального мира. Блинг -марки устраняет значительные ограничения в существующих рамках оценки и предлагает исследователям и разработчикам новые способы оценки того, как эффективно агенты искусственного интеллекта ориентируются на сложные кодовые базы.

«Теперь у них есть эталон, который они могут оценить, чтобы оценить, способны ли кодирующие агенты решать сложные задачи программирования», — сказал Аноп Деорас, директор по прикладным наукам для генеративных приложений ИИ и опыта разработчиков в AWS, в интервью VentureBeat. «Real World предлагает вам более сложные задачи. Чтобы исправить ошибку или сделать построение функций, вам нужно коснуться нескольких файлов, в отличие от одного файла».

Релиз поступает в популярность инструментов кодирования с AI, причем крупные технологические компании интегрировали их в среду разработки и автономные продукты. Хотя эти инструменты показывают впечатляющие возможности, оценка их производительности оставалась сложной задачей, особенно на разных языках программирования и различной сложности задач.

Swe-Polybench содержит более 2000 куриных задач кодирования, полученных из реальных проблем Github, охватывающих четыре языка: Java (165 задач), JavaScript (1017 задач), TypeScript (729 задач) и Python (199 задач). Трингм также включает в себя стратифицированное подмножество 500 выпусков (SWE-Polybench500), предназначенное для более быстрых экспериментов.

«Разнообразие задач и разнообразие языков программирования отсутствовали», — объяснил Деорас о существующих критериях. «Сегодня в Swe-Bench есть только один язык программирования, Python, и есть одна задача: исправления ошибок. В Polybench, в отличие от Swe-Bench, мы расширили этот эталон, чтобы включить три дополнительных языка».

Новый эталон непосредственно рассматривает ограничения в SWE-Bench, который стал стандартом де-факто для оценки агента кодирования с более чем 50 материалами лидеров. Несмотря на свою новаторскую роль, Swe-Bench фокусируется исключительно на репозиториях Python, преимущественно оснащена задачами по сбору ошибок и значительно искажается в отношении одной кодовой базы-репозитория Django приходится на более 45% всех задач.

«Намеренно, мы решили немного провести представление для JavaScript и TypeScript, потому что у нас есть Swe-Bench, у которого уже есть задачи Python»,-отметил Деорас. «Таким образом, вместо того, чтобы представлять на Python, мы позаботились о том, чтобы у нас было достаточно представлений для JavaScript и TypeScript в дополнение к Java».

Почему простые показатели прохождения/провалов не рассказывают всю историю о производительности кодирования искусственного интеллекта

Ключевым инновацией в SWE-Polybench является его введение более сложных показателей оценки за пределами традиционной «скорости прохождения», которая просто измеряет, успешно ли созданный патч решает проблему кодирования.

«Оценка этих кодирующих агентов была проведена в основном с помощью показателя, называемой скоростью прохождения», — сказал Деорас. «Короче говоря, скорость прохождения, в основном, является лишь доля задач, которые успешно выполняют применение патча, которое производят агенты. Но это число является очень высоким уровнем, агрегированной статистикой. Он не говорит вам о том, что придуманные детали, и, в частности, он не говорит вам, как агент пришел к этому разрешению».

Новые метрики включают локализацию на уровне файлов, которая оценивает способность агента идентифицировать, какие файлы нуждаются в изменении в репозитории, а также извлечение уровня узлов бетонного синтаксиса (CST), которое оценивает, насколько точно агент может определить конкретные структуры кода, требующие изменения.

«В дополнение к скорости прохождения, мы имеем точность и отзыв. И для того, чтобы добраться до метрики точности и отзывов, мы смотрим на инструмент анализа программы под названием Concrete Syntax Tree», — пояснил Деорас. «Это говорит вам, как составлена ​​ваша основная структура файлов, чтобы вы могли посмотреть на то, что такое узлом класса, и в этом классе, каковы функции узлы и переменные».

Как Python остается доминирующим, в то время как сложные задачи подвергают ограничения искусственного интеллекта

Оценка Amazon несколько кодирующих агентов с открытым исходным кодом на SWE-Polybench выявила несколько моделей. Python остается самым сильным языком для всех протестированных агентов, вероятно, из -за его распространенности в учебных данных и существующих критериях. Производительность ухудшается по мере увеличения сложности задачи, особенно когда требуются изменения в три или более файла.

Различные агенты показывают различные сильные стороны по категориям задач. В то время как производительность по исправлению ошибок является относительно последовательной, между агентами существует большая изменчивость при обработке запросов функций и рефакторией кода.

Контрольный этап также обнаружил, что информативность проблемных заявлений значительно влияет на показатели успеха, что позволяет предположить, что четкие описания проблем остаются решающими для эффективной помощи в области искусственного интеллекта.

Что означает Swe-Polybench для разработчиков предприятий, работающих на нескольких языках

Swe-Polybench прибывает на критический момент в разработке помощников по кодированию ИИ. По мере того, как эти инструменты переходят от эксперимента в производственную среду, необходимость в строгих, разнообразных и репрезентативных критериях усилилась.

«Со временем развивались не только возможности LLM, но в то же время задачи стали все более и более сложными», — заметил Деорас. «У разработчиков необходимо решать все более сложные задачи синхронно, используя эти агенты».

Расширенная языковая поддержка теста делает его особенно ценной для корпоративных сред, где развитие полиглот является обычным явлением. Java, JavaScript, TypeScript и Python неизменно входят в число самых популярных языков программирования в настройках предприятия, что делает охват Swe-Polybench очень актуальным для реальных сценариев разработки.

Внутри стратегии Amazon по созданию открытой контрольной экосистемы для инструментов кодирования искусственного интеллекта

Amazon сделала все платформу Swe-Polybench публичной. Набор данных доступен для обнимающего лица, а жгут оценки доступен на GitHub. Было создано выделенная таблица лидеров для отслеживания производительности различных кодирующих агентов на эталон.

«Мы расширили конвейер сбора данных SWE-Bench для поддержки этих трех дополнительных языков»,-сказал Деорас. «Надежда состоит в том, что мы сможем дальше в будущем экстраполировать этот процесс и выходить за рамки четырех языков, выходя за рамки трех задач, о которых я говорил, так что этот эталон становится еще более полным».

По мере того, как ассистент AI Codant Market нагревается предложениями от каждой крупной технологической компании, Swe-Polybench обеспечивает решающую проверку реальности в своих фактических возможностях. Дизайн эталона признает, что реальная разработка программного обеспечения требует больше, чем простые исправления ошибок в Python-требует работы между языками, понимание сложных кодовых баз и решающий различные инженерные задачи.

Для предприятия, принимающих решения, оценивающие инструменты кодирования ИИ, Swe-Polybench предлагает что-то бесценное: способ отделить маркетинговую шумиху от подлинных технических возможностей. В конце концов, истинный тест помощника по кодированию ИИ-это не то, насколько хорошо он работает на упрощенных демонстрациях, а может ли он справляться с грязной многоязычной сложностью реальных программных проектов-добрых разработчиков борются каждый день.



Источник

Возможно вам понравиться

Оставить комментарий