Новости LLEMMA: 34 миллиарда параметров в борьбе за математическое превосходство.

NewsMaker

I'm just a script
Премиум
9,627
18
8 Ноя 2022
Ученые, встречайте LLEMMA: ваш новый помощник в математике.


5lo4v2neir6w6mi7tyrcp41isi2rhtrq.jpg


20 октября 2023 года исследователи из различных университетов и компании Eleuther AI, известной своими открытыми моделями, Для просмотра ссылки Войди или Зарегистрируйся - открытую модель большого языкового обучения (LLM), специально разработанную для решения математических задач.

LLEMMA превосходит другие ведущие математические модели, включая Minerva от Google , предоставляя надежную платформу для дальнейших исследований. Несмотря на то что LLEMMA не является идеальным решателем математических задач, это важный шаг в разработке специализированных моделей и может стимулировать исследования ИИ в новых направлениях.

LLEMMA была создана на основе Code Llama, адаптации открытой модели Llama 2, настроенной на специфические наборы данных кода. Исследователи разработали две версии модели: одну с 7 миллиардами параметров и другую с 34 миллиардами. Эти модели были дополнительно настроены на Proof-Pile-2, набор данных, созданный исследователями, который состоит из научных статей, веб-данных с математическим содержанием и математического кода.

В своих экспериментах исследователи обнаружили, что LLEMMA показывает лучшую производительность по сравнению со всеми известными открытыми моделями на математических эталонах. LLEMMA также может использовать инструменты и доказывать формальные теоремы без дополнительной настройки, а также использовать вычислительные инструменты, такие как интерпретатор Python, для решения математических задач.

Исследователи выпустили все свои активы, включая модели с 7 и 34 миллиардами параметров, набор данных Proof-Pile-2 и код для воспроизведения своих экспериментов. Согласно исследователям, LLEMMA является первой открытой моделью, которая соответствует производительности закрытых моделей последнего поколения.

Они выразили надежду, что LLEMMA и Proof-Pile-2 станут полезной базой для будущих работ по пониманию обобщения языковых моделей, исследованию пределов доменно-специфичных языковых моделей и улучшению математических возможностей языковых моделей.

В целом, LLEMMA является частью более широкой инициативы по разработке LLM, специализирующихся в конкретной области, демонстрируя, что с улучшенными данными и большими наборами данных даже меньшие модели могут давать значительные результаты.
 
Источник новости
www.securitylab.ru

Похожие темы