Русский ИТ бизнес 👨
Подписаться
Post media
Источник знаний для chatGPT. Превалирует Reddit. Около 40% обучающих данных пришли из форумных тредов. Второй по весу источник - Wikipedia, где много фактов, но не всегда точных. Дальше идут YouTube, Google, Yelp и прочие сервисы.

Все волнуются, ведь получается, что ChatGPT не формирует экспертных знаний, а воспроизводит усреднённое мнение толпы :) Но ведь толпа в массе своей не может ошибаться, да? :)

Русский ИТ бизнес

Комментарии (0)

  • Channel_Bot
    Нееет, как вы могли такое подумать 😄
  • migpart
    Среднее мнение толпы будет превалировать в результате - когда промпт будет таким же средненьким))
    А если фильтры грамотно задашь - то и результат (выборку) получишь соответствующую)).
    • Ut4J6
      А можете привести пример?
      • migpart
        Пример чего? )
        Средненький промпт - это одна-две бытовых фразы. Как чукча слышит и видит - так чукча и воспроизводит=спрашивает.
        А профессиональный промпт - это полноценная структура, можно сказать - как аналог SQL запроса.
        И результаты будут совершенно разные в обоих случаях.
      • migpart
        Comment media
        А примеры действенных промптов - даже в роликах на ютубе замазывают)). Потомушта это и есть самая что ни на есть золотая жила.
        Вот для примера результат CustDev-a на скрине. У меня сам промпт 5 экранных страниц занимает. А результат в отдельном файле - просто песня!
        • Ut4J6
          на словах тут все чаки норисы
          • migpart
            Comment media
            Покажу какой не жалко, это всё равно промежуточный вариант). Акцентирую - сам я в Линухе вообще полный ноль. Но промпт сэкономил мне годы жизни)). Которые бы я потратил на изучение всяких форумов и мануалов.
            И второй раз акцентирую - результаты в виде маркдаун-файлов.
            • Ut4J6
              полно пошаговых мануалов, причем именно в тех частях интернета которые Вы грозились своим промтом отсечь - форумы и редиты

              в чем ценность промпта не ясно - ведь он вытащил инфу именно с форумов
              • migpart
                И очень хорошо, что их полно).
            • lord_markus
              Прочитал первый скрин, там такая хуина... хоть одно что то не верно сделанное и вскроют как консервную банку...
              • migpart
                😁👍🔥
            • lord_markus
              Вам нужна была не убунта, а proxmox и распихать всё в LXC что можно, и в виртуалки другое.
              • Ut4J6
                длинный промт всколыхнул слои нейронки и модель подняла мануалы с самого дна которые уже илом затянуло
              • migpart
                Вот миллионы таких умных, правильных и разнообразных мнений на реддите и прочем подобном форумном - я и суммирую промптами. Чем убивать своё время на проверку и верификацию каждого.

                Мне второй Сбер или Револют создавать - потребности нет. Нужные мне задачи - в данный момент ускоряются в разы. Отдельно безопасностью - я ещё не занимался, и хуяк-хуяк в продакшн -ничего не выводил.

                Зато сразу видно умников, которые по куску скрина сразу всё-всё поняли, и про цели, и про задачи. И начали свою, конечно же, на 100% правильную, точку зрения транслировать. Миллионы мух не могут ошибаться, ага-ага.
                • Ut4J6
                  обещали супер промт а показали говномух
                  • migpart
                    Не обещал)
                    • Ut4J6
                      тред начался с того, что говноконтент превалирует в весах. Вы написали что знаете как это обойти. Сейчас мы видим что конкретный промт выгащил именно этот контент, который не надо
                      • lord_markus
                        И самая главная мысль что знает лучше всех, чем другие) Хотя никто не принижал никого.
                        • Ut4J6
                          мне кажется по таким темам которые широко обсуждаются в форумах, вытащить качественный контент нереально.
                          а вот если вопрос об какой нить узкой академической теме то источник будет заведомо более качественный
                          • lord_markus
                            Проблема форумов в том что туда надо идти за специфическими знаниями, какие то узкие задачи или разбор конкретного вопроса. А собирать по ним инструкцию не самый лучший вариант. Видел уже много раз таких, приходят в чат с вопросом почему не работает мой код, ему в ответ нефиг писать нейронкой, ну и как обычно это бывает начинается говно что я пришел в сообщество, вы не помогаете, обосрал всех и ушел.
                            • alexy_os
                              Форумы в контексте обучения моделей просто пример общения, хейта, споров, манер речи, слов оборотов людей с людьми

                              Не как источник истины, а как источник языковых формул разных языковых доминант вот и всё

                              Поэтому это просто вброс и хал вар и полное отсутствие понимания как работает ИИ у тех, кто задается вопросом, а что если ии обучался на редите и форумах а там вранье. Значит и знания ии вранье

                              Вранье или не вранье решает не ии, а фактура
                              • lord_markus
                                Главное чтобы тот кто получает ответ знал эту фактуру)
                                • alexy_os
                                  Главное чтобы тот кто получает ответ, знал, что спрашивает и какая именно система с ним общается

                                  Например перплексети предоставляет источники
                                  • lord_markus
                                    Вы мой ответ вывернули и ответили тоже самое.
                                    • alexy_os
                                      Вот просто для примера, полный вынос мозга с опорой на научные фактологические знания:

                                      https://www.perplexity.ai/search/0e00e17d-625d-43d1-a645-778cb4e33562

                                      OS ни OSS вот в чем вопрос :) и при чем тут автономный суверенитет колхоза про который я весь день пишу
                          • alexy_os
                            Не стоит полагаться на «знания» там где идет гадание

                            Ни один LLM ничего «не знает» и не обладает экспертизой. Экспертизой обладает ИИ, а это совокупное ПО: RAG + tools + agents (llm) + prompt + params и ещё 100500 настроек

                            Экспертиза зависит полностью от фактуры
                            • Ut4J6
                              единственно где я это могу представить - присвоение входящему документу меток для отправки на соответствующий не ии-алгоритм
                      • alexy_os
                        Вот пример промпта который я задал в очень маленькую модель yandex saiga 8b и как будто «тупую» по сравнению с квеном

                        Какие данные для фактуры тебе нужны чтобы составить грамотное описание партии пшена на продажу

                        И результат превысил мои ожидания:
                        https://t.me/Russian_IT_Business/327541

                        Я честно говоря не ожидал такого от яндекс гпт тем более 8b… так что точность зависит от фактуры и промпта, если даже слабые модели могут в утилитарность
                        • Ut4J6
                          а какие ожидания? я хз что там надо писать вообще
                      • migpart
                        Моя мысль была в том, что кривая Гаусса - работает как для результата, так и для запроса. И если запрос сфокусировать на нужном - то ненужное отвалится. И ключевой момент - критерии "нужное" и "ненужное" напрямую зависят от абонента.
                        Кому то и гороскопы генерить пачками - тоже очень нужное.
                        • Ut4J6
                          не отвалится, либо запрос должен быть детальнее ответа,
                          что весьма сомнительно по целесообразности
            • alexy_os
              Comment media
              Сейчас Kubero dev на взлете. Полностью построен на кубернетис и хорошо структурирован. Подходит для уровня предприятия в отличии от Coolify. Полноценный PAAS на своем сервере. Потратьте время, зато получите полный контроль и возможности горизонтального или вертикального масштабирования из коробки 📦
    • alexy_os
      Не мнение, а формула речи. соединение кусков слов - в слова, слов в предложения, предложений в язык общения с пользователем или программой

      LLM не считает, а гадает. Чтобы LLM посчитала ей нужно вызвать инструмент, например язык пайтон. Тоже и с экспертизой - он обработает предложенное ему инфо и сформулирует т9 ответ, насколько возможно релевантно (нагадает). точность будет полностью зависеть от фактуры

      Почему пайтон - это не язык железа, а язык для людей и встроенный в чаты интерпретатор кода
      • migpart
        пусть так)
    • Ut4J6
      ну так оно у вас и превалирует судя по скринам
  • alexy_os
    Потому что LLM это тип системы искусственного интеллекта, которая обучена на огромных объемах текстовых данных, чтобы понимать, генерировать и прогнозировать человеческий язык

    Ему не требуется экспертиза

    Еще раз. LLM это не источник экспертных знаний

    Это болталка и чем больше параметров тем более точно и качественно болтает

    А экспертиза целиком и полностью зависит от фактуры (rag, tools, поиск в интернете и т д)
  • sophie_salt
    Откуда данные? Первочисточник