- Telega.FM

Русский ИТ бизнес

2 сен 2025 14:46

Делаем гуманизатор наших ИИ- текстов... Вы знали, что есть несколько типов пробелов и тире? :) Вот и мы не знали... Тонкий пробел, цифровой пробел и т.п. Есть готовые библиотеки, но ребята решили, что им проще сделать гуманизатор самим в проекте.

Цель? Дабы ИИ- тексты не сильно бросались в глаза, а то иногда это уже вызывает отторжение :) С другой стороны, кто сейчас, будучи в здравом уме, пишет тексты руками? Разве что очень крупные издатели, которые могут позволить себе содержать умных журналистов.

Русский ИТ бизнес

👍 0

Рыхлый Консультант 2025-09-02 14:51

\s включает в себя все распространенные пробельные символы Unicode
- Ядерный Капитан 2025-09-02 14:52
  
  мыж не знаем локальных kpi для достижения уровня премирования :)
Паровой Кисель 2025-09-02 14:51

Норм идея, но все таки проще взять готовую библиотеку и адаптировать чем изобретать велосипед )
Рыхлый Консультант 2025-09-02 14:52

В теории первый проще на одну регулярку переделать, чтобы весь текст 5 раз не гонять
Прагматичный Козел 2025-09-02 14:55

А не лучше ли это всё в промпт добавить?
Закатный Писатель 2025-09-02 14:56

Вот не поверишь - знали ) Пока с этим пиздецом не столкнешься не поймешь этот адище. Я столкнулся. Убил тучу времени пока допер что надобно преобразовывать русский текст в стандартный без косяков с этим спамом. Вещь очень подлая когда надо сравнить текст из БД с таким же названием. Пришлось разбивать текст на символы и конвертировать их в ASCII чтобы сравнивать. Вроде одно и тоже, а код воротит нос типа мамой клянусь они разные. УЗнал что пробелов не один и сЦуко в разных кодировках имеют разные номера. Колхозом преобразовывал в спец. функции эти символы в номральные перед записью в БД если такое выявлялось. То есть конвертируем текст в ASCII и обратно убирая при этом косяки не дающие нам нормально записывать текст.
Длинный Огнетушитель 2025-09-02 14:57

В году 14 мне все мозги дизайнер один выебал)
- Пряный Единорог 2025-09-02 15:01
  
  Вот интересно, что при типографской вёрстке в InDesign или типа того дизайнеры наоборот матерятся, когда видят тире вместо эмдаш.
  - Длинный Огнетушитель 2025-09-02 15:27
    
    нормальные дизайнеры друг другу по рукам бьют за тирешки и висяки.
Тающий Носорог 2025-09-02 15:06

Хехе, добро пожаловать в мой мир.