Русский ИТ бизнес 👨

01.09.2025 06:25

Ожидалось, что ИИ одинаково хорошо справляются с анализом как первых, так и последних токенов в длинных текстах, но на деле производительность падает с ростом длины входа, даже на простых задачах.

Проще говоря, модели “устаете” при большом объёме текста и начинают ошибаться, терять важные данные или путаться. Значит, чтобы такие модели работали хорошо, нужно умело выбирать и структурировать информацию, а не просто кормить их огромными массивами текста без разбора.

В исследовании проверяли 18 моделей, включая GPT-4.1, Claude 4, Gemini 2.5 и Qwen3, и обнаружили, что модели работают всё менее надёжно по мере увеличения длины входного контекста.

Русский ИТ бизнес

0/10 Открыть в Telegram

Комментарии (0)

Devops_like_a_boss
2025-09-01 06:27

Все таки с длинным контекстом лучше резюмировать и подавать только релевантные куски, чем сыпать весь текст в модель )
ReTurbo
2025-09-01 06:27

Макс, подскажите какая модель AI лучше справится с задачей пирсинга с сайта?
- dmitry236
  2025-09-01 06:32
  
  да, заебывает это исправление парсинга на пирсинг
- GroupAnonymousBot
  2025-09-01 06:41
  
  Гпт мини
- zerohold
  2025-09-01 06:43
  
  gpt-mini за 7 рублей за 1кк токенов, вообще огонь. И кольцо в пупок вставит 😂
- McConst
  2025-09-01 09:56
  
  Обтекаемо сформулирован вопрос. Ибо коммерческий парсинг отличается от узкого парсинга для себя. Тут важны и цена вопроса, и возможность оплаты и объем контекста и зависания ответов от реквестов. Все ИИ по этим параметрам разные
McConst
2025-09-01 09:53

Deepseek на график забыли нанести. Не укладывается в концепцию?
ReTurbo
2025-09-01 11:04

Готов отплатить 7 за однократный парсинг одного сайта)
CaptainBuran
2025-09-01 13:02

Оригинальная статья длинная, но что конкретно делать - не понятно. Дробить большие файлы на мелкие? Или в одном текстовом файле дробить текст на пункты и подпункты?
- GroupAnonymousBot
  2025-09-01 13:03
  
  дробить да
CaptainBuran
2025-09-01 13:03

что именно дробить? большой файл на мелкие или текст внутри файла? наверное, проще текст внутри, чем городить 100500 мелких файликов.