Корпус Usenet 1980–2013: 103B токенов без AI-загрязнения для точной настройки моделей
Датасет уникален тем, что полностью свободен от LLM-сгенерированного контента, что исключает рекурсивное вырождение при fine-tuning малых моделей. Охватывает 33 года аутентичного человеческого общения — от технических дискуссий до бытовых тем. Является качественной альтернативой современным датасетам, где доля AI-текста уже превышает 90%.
Читать статью →
Подписаться на канал
AiManual - База знаний по ИИ
28 мая 2026 03:20
Комментариев пока нет.