Программа для автоматизированной генерации персонализированных датасетов обучения SQL для дообучения fine-tuning больших языковых моделей «SQL Dataset Generator LLM»

Программа для автоматизированной генерации персонализированных датасетов обучения SQL для дообучения fine-tuning больших языковых моделей «SQL Dataset Generator LLM»

Дата выдачи

05.09.2025

Номер

2025683630

COM_RID_AUTORS

Босенко Т.М.

Подразделение

Институт цифрового образования

Программа предназначена для автоматизации процесса создания обучающих датасетов для дообучения больших языковых моделей (LLM). Область применения – разработка и исследование интеллектуальных систем обучения и тренажеров по языку запросов SQL. Функциональные возможности включают импорт и парсинг исходных SQL-задач из файлов формата .xlsx и .csv, создание записей датасета через графический интерфейс в ручном режиме, увеличения разнообразия (аугментацию) данных на основе предопределенных вариаций, фильтрацию задач по уровню сложности, а также экспорт итогового структурированного датасета в формат JSON Lines (JSONL).