Программа для автоматизированной генерации персонализированных датасетов обучения SQL для дообучения fine-tuning больших языковых моделей «SQL Dataset Generator LLM»

Программа для автоматизированной генерации персонализированных датасетов обучения SQL для дообучения fine-tuning больших языковых моделей «SQL Dataset Generator LLM»

Дата выдачи

05.09.2025

Номер

2025683630

Авторы

Босенко Т.М.

Подразделение

Институт цифрового образования

Программа предназначена для автоматизации процесса создания обучающих датасетов для дообучения больших языковых моделей (LLM). Область применения – разработка и исследование интеллектуальных систем обучения и тренажеров по языку запросов SQL. Функциональные возможности включают импорт и парсинг исходных SQL-задач из файлов формата .xlsx и .csv, создание записей датасета через графический интерфейс в ручном режиме, увеличения разнообразия (аугментацию) данных на основе предопределенных вариаций, фильтрацию задач по уровню сложности, а также экспорт итогового структурированного датасета в формат JSON Lines (JSONL).