Русский ИТ бизнес 👨
Подписаться
Делаем гуманизатор наших ИИ- текстов... Вы знали, что есть несколько типов пробелов и тире? :) Вот и мы не знали... Тонкий пробел, цифровой пробел и т.п. Есть готовые библиотеки, но ребята решили, что им проще сделать гуманизатор самим в проекте.

Цель? Дабы ИИ- тексты не сильно бросались в глаза, а то иногда это уже вызывает отторжение :) С другой стороны, кто сейчас, будучи в здравом уме, пишет тексты руками? Разве что очень крупные издатели, которые могут позволить себе содержать умных журналистов.

Русский ИТ бизнес

Комментарии (0)

  • vitams
    \s включает в себя все распространенные пробельные символы Unicode
    • splash312
      мыж не знаем локальных kpi для достижения уровня премирования :)
  • Devops_like_a_boss
    Норм идея, но все таки проще взять готовую библиотеку и адаптировать чем изобретать велосипед )
  • vitams
    В теории первый проще на одну регулярку переделать, чтобы весь текст 5 раз не гонять
  • belekbamichb
    А не лучше ли это всё в промпт добавить?
  • bonchb
    Вот не поверишь - знали ) Пока с этим пиздецом не столкнешься не поймешь этот адище. Я столкнулся. Убил тучу времени пока допер что надобно преобразовывать русский текст в стандартный без косяков с этим спамом. Вещь очень подлая когда надо сравнить текст из БД с таким же названием. Пришлось разбивать текст на символы и конвертировать их в ASCII чтобы сравнивать. Вроде одно и тоже, а код воротит нос типа мамой клянусь они разные. УЗнал что пробелов не один и сЦуко в разных кодировках имеют разные номера. Колхозом преобразовывал в спец. функции эти символы в номральные перед записью в БД если такое выявлялось. То есть конвертируем текст в ASCII и обратно убирая при этом косяки не дающие нам нормально записывать текст.
  • Ifrolove
    В году 14 мне все мозги дизайнер один выебал)
    • mtrnkwas
      Вот интересно, что при типографской вёрстке в InDesign или типа того дизайнеры наоборот матерятся, когда видят тире вместо эмдаш.
      • Ifrolove
        нормальные дизайнеры друг другу по рукам бьют за тирешки и висяки.
  • zerohold
    Хехе, добро пожаловать в мой мир.
  • Channel_Bot
    Вот за эти кавычки и тире с дефисами, так все гнать стали, а если у меня уже в ДНК заложено, перед публикацией прогонять через орфограф и главред?🤣 Бля есть правило типографики, и просто ИИ, их знает лучше чем мы.

    Любой адекватный текст, должен прогоняться на них.
    • Devops_like_a_boss
      Я в канале когда посты делаю могу с - выложить срочную новость, но потом обязательно заменю на —

      Когда с компа тупо с Википедии копирую тире
  • Channel_Bot
    И это наоборот хорошо, что знаки пунктуации расставлены правильно.
  • bonchb
    Спасибо за код Максим батькович. Я не знал что их такое количество ) Я боролся только с некоторыми проявлениями из них которые мешали жить. Теперь сконвертировал его в PHP и упростил в функцию через REGEX. Получилось коротко и емко 👌Уже записал себе в копилку.
  • idealist_realist
    Пока Макс думает как заработать на ИИ .... https://news.tek.fm/news/400799
  • McConst
    Прикольный код.
    Чёт у меня уже на подкорке отложилось, что символы замены пишутся в массив и потом проходятся циклом.
    А тут прям как в моём детстве - последовательно replace друг за другом. 😊
    При чём в js можно гнать replace().replace.replace() и т.д., - тоже понятно и наглядно.
    • bonchb
      проще все одной строкой через regex
    • Ut4J6
      видно, что люди никуда не торопятся, могут себе позволить десяток-другой проходов
  • Channel_Bot
    Учите грамотно писать, а не нейросеть по патерном бля вычеслять🤣🤣 типограф, орфограф и главред, это сервисы в первую очередь для тех авторов, которые уважают своих читателей. Сука "–", это признак грамотности и уважения к читателю, а не патерн нейросети😬🤯
    • Ut4J6
      если речь о чатах/комментариях, то рассуждение верное, если же убирать тире из описаний товаров и статей

      то может быть маркер ИИ и сотрется (что вряд ли), но вот другой маркер текст явно приобретет
      • Channel_Bot
        В комментах и чатах. Тут понятно никто не будет замарачиваться с тире, ставить правильные «кавычки», и так далее. А когда ты пишешь статью, что-то для сайта и так далее. Это должно быть.
        • Ut4J6
          Мне кажется все текстовые редакторы ставят длинные тире автоматом
          • Channel_Bot
            Не, не все, ну я вот в блог всегда статьи через типограф прогоняю.
        • dmitry236
          Конечно, поисковик смотрит такой:
          чё у тебя тут?
          200 тысяч новых страниц за месяц?
          Годится, вряд ли нейросети.

          Погоди ка, погоди ка?
          Что тут?
          Длинное ТИРЕ?

          В бан, нахуй
      • Channel_Bot
        Именно –, «» это правильно русского языка, а не патерн нейросети, щас яндекс всех так закошмарит, чтобы будем хуй, писать как член, потому что это будет патерн нейронки