05.09.2025
2025683630
Босенко Т.М.
Институт цифрового образования
Программа предназначена для автоматизации процесса создания обучающих датасетов для дообучения больших языковых моделей (LLM). Область применения – разработка и исследование интеллектуальных систем обучения и тренажеров по языку запросов SQL. Функциональные возможности включают импорт и парсинг исходных SQL-задач из файлов формата .xlsx и .csv, создание записей датасета через графический интерфейс в ручном режиме, увеличения разнообразия (аугментацию) данных на основе предопределенных вариаций, фильтрацию задач по уровню сложности, а также экспорт итогового структурированного датасета в формат JSON Lines (JSONL).