Делаем гуманизатор наших ИИ- текстов... Вы знали, что есть несколько типов пробелов и тире? :) Вот и мы не знали... Тонкий пробел, цифровой пробел и т.п. Есть готовые библиотеки, но ребята решили, что им проще сделать гуманизатор самим в проекте.
Цель? Дабы ИИ- тексты не сильно бросались в глаза, а то иногда это уже вызывает отторжение :) С другой стороны, кто сейчас, будучи в здравом уме, пишет тексты руками? Разве что очень крупные издатели, которые могут позволить себе содержать умных журналистов.
Русский ИТ бизнес
Русский ИТ бизнес
2 сен 2025 14:46
-
\s включает в себя все распространенные пробельные символы Unicode-
мыж не знаем локальных kpi для достижения уровня премирования :)
-
-
Норм идея, но все таки проще взять готовую библиотеку и адаптировать чем изобретать велосипед ) -
В теории первый проще на одну регулярку переделать, чтобы весь текст 5 раз не гонять -
А не лучше ли это всё в промпт добавить? -
Вот не поверишь - знали ) Пока с этим пиздецом не столкнешься не поймешь этот адище. Я столкнулся. Убил тучу времени пока допер что надобно преобразовывать русский текст в стандартный без косяков с этим спамом. Вещь очень подлая когда надо сравнить текст из БД с таким же названием. Пришлось разбивать текст на символы и конвертировать их в ASCII чтобы сравнивать. Вроде одно и тоже, а код воротит нос типа мамой клянусь они разные. УЗнал что пробелов не один и сЦуко в разных кодировках имеют разные номера. Колхозом преобразовывал в спец. функции эти символы в номральные перед записью в БД если такое выявлялось. То есть конвертируем текст в ASCII и обратно убирая при этом косяки не дающие нам нормально записывать текст. -
В году 14 мне все мозги дизайнер один выебал)-
Вот интересно, что при типографской вёрстке в InDesign или типа того дизайнеры наоборот матерятся, когда видят тире вместо эмдаш.-
нормальные дизайнеры друг другу по рукам бьют за тирешки и висяки.
-
-
-
Хехе, добро пожаловать в мой мир.