Русский ИТ бизнес 👨

08.01.2026 16:35

Почему LLM типа ChatGPT лучше работают на английском, чем на русском? Легкий ликбез.

Ключевая причина - токенизация.
Для человека логическая единица - слово. Для модели - токен.

Чтобы получить токены, текст прогоняется через токенайзер, который разбивает слова и символы на подстроки и сопоставляет им числовые идентификаторы.

Модели обучены преимущественно на английском языке, потому что именно на нём представлены большие, качественные и структурированные массивы данных. Дополнительно английский язык проще с точки зрения токенизации: слова короче, морфология беднее, больше повторяющихся корней, отсутствуют падежи. В результате английские слова чаще кодируются 1–2 токенами, тогда как русские 4–6.

Далее вступает в работу механизм внимания (attention), который параллельно распределяет веса между токенами и строит связи. В фразе «у меня сломалась моя старая тойота» человеку очевидно, что сломалась машина, а не я или абстрактный объект. Модель же должна распределить внимание между всеми токенами, чтобы прийти к тому же выводу.

Attention имеет квадратичную вычислительную сложность по числу токенов. Итого: больше токенов → больше связей → выше вычислительная нагрузка и больше шума. Меньше токенов - дешевле, стабильнее и точнее обработка.

Как-то так...

Русский ИТ бизнес

0/8 Открыть в Telegram

Комментарии (0)

alekx123a
2026-01-08 16:37

ссылка на источник есть?
unkn0w_us3r
2026-01-08 16:43

Нужно переходить на русский матерный.

Руссяий - это, кстати, чей язык?
Serge1389
2026-01-08 17:01

На длинных контекстах Русский и Польский выигрывают.
vitams
2026-01-08 17:22

Я интересовался этой темой, пришёл к выводу что не влияет, внутри он не думает на английском, скорее это ближе к числам, имеет место только большой ввод или вывод на русском, но редко бывают такие задачи
709864982
2026-01-08 17:27

Зависит от обучения в большем
alekx123a
2026-01-08 17:29

https://thehill.com/policy/healthcare/5676511-ai-prescriptions-utah-doctronic/ Тем временем на недружественном Западе: Utah becomes first state to allow AI to approve prescription refills
- unkn0w_us3r
  2026-01-08 17:35
  
  А это не решается без ИИ?
  Профиль пациента > Выбор уже выписанного и получаемого лекарства > Проверка медкарты с анализами > Анкетирование состояния
  - alekx123a
    2026-01-08 17:36
    
    напишите им, дадут з/п 100 кUSD в месяц и перевезут как особо ценного специалиста
    - unkn0w_us3r
      2026-01-08 17:38
      
      Я, думаю, у них уже поработал лоббист компании-исполнителя, который убедил, что ИИ заменяет человека. А просто так бездушная машина не могла сопоставить пару баз данных