Русский ИТ бизнес 👨
Подписаться
Post media
Почему LLM типа ChatGPT лучше работают на английском, чем на русском? Легкий ликбез.

Ключевая причина - токенизация.
Для человека логическая единица - слово. Для модели - токен.

Чтобы получить токены, текст прогоняется через токенайзер, который разбивает слова и символы на подстроки и сопоставляет им числовые идентификаторы.

Модели обучены преимущественно на английском языке, потому что именно на нём представлены большие, качественные и структурированные массивы данных. Дополнительно английский язык проще с точки зрения токенизации: слова короче, морфология беднее, больше повторяющихся корней, отсутствуют падежи. В результате английские слова чаще кодируются 1–2 токенами, тогда как русские 4–6.

Далее вступает в работу механизм внимания (attention), который параллельно распределяет веса между токенами и строит связи. В фразе «у меня сломалась моя старая тойота» человеку очевидно, что сломалась машина, а не я или абстрактный объект. Модель же должна распределить внимание между всеми токенами, чтобы прийти к тому же выводу.

Attention имеет квадратичную вычислительную сложность по числу токенов. Итого: больше токенов → больше связей → выше вычислительная нагрузка и больше шума. Меньше токенов - дешевле, стабильнее и точнее обработка.

Как-то так...

Русский ИТ бизнес

Комментарии (0)

  • alekx123a
    ссылка на источник есть?
  • unkn0w_us3r
    Нужно переходить на русский матерный.

    Руссяий - это, кстати, чей язык?
  • Serge1389
    На длинных контекстах Русский и Польский выигрывают.
  • vitams
    Я интересовался этой темой, пришёл к выводу что не влияет, внутри он не думает на английском, скорее это ближе к числам, имеет место только большой ввод или вывод на русском, но редко бывают такие задачи
  • 709864982
    Зависит от обучения в большем
  • alekx123a
    https://thehill.com/policy/healthcare/5676511-ai-prescriptions-utah-doctronic/ Тем временем на недружественном Западе: Utah becomes first state to allow AI to approve prescription refills
    • unkn0w_us3r
      А это не решается без ИИ?
      Профиль пациента > Выбор уже выписанного и получаемого лекарства > Проверка медкарты с анализами > Анкетирование состояния
      • alekx123a
        напишите им, дадут з/п 100 кUSD в месяц и перевезут как особо ценного специалиста
        • unkn0w_us3r
          Я, думаю, у них уже поработал лоббист компании-исполнителя, который убедил, что ИИ заменяет человека. А просто так бездушная машина не могла сопоставить пару баз данных