AiManual - База знаний по ИИ
AiManual - База знаний по ИИ

Корпус Usenet 1980–2013: 103B токенов без AI-загрязнения для точной настройки моделей

Корпус Usenet 1980–2013: 103B токенов без AI-загрязнения для точной настройки моделей

Датасет уникален тем, что полностью свободен от LLM-сгенерированного контента, что исключает рекурсивное вырождение при fine-tuning малых моделей. Охватывает 33 года аутентичного человеческого общения — от технических дискуссий до бытовых тем. Является качественной альтернативой современным датасетам, где доля AI-текста уже превышает 90%.

Читать статью →

Подписаться на канал

Комментариев пока нет.