Мини Чат

vav: Ну вот, записался в диванные войска  :ae: 2022 May 13 00:39:18

aze1959: как то так 2022 Feb 13 13:48:06

HOOLIGAN-1105: Привет всем! :bq: 2022 Feb 09 19:09:23

Автор Тема: Понимание и взаимопонимание.  (Прочитано 13473 раз)

ArefievPV

  • Новичок
  • *
  • Сообщений: 1438
  • Карма: 0
    • Просмотр профиля
Re: Понимание и взаимопонимание.
« Ответ #210 : 14 Февраля 2026, 11:05:33 »
Теории человеческого сознания проверили на ИИ-агентах — результаты удивили
https://habr.com/ru/news/982048/

Цитировать
Исследователь из Токийского института науки Инь Цзюнь Пхуа применил подход, который он называет "синтетической нейрофеноменологией": построил ИИ-агентов, воплощающих три ведущие теории сознания, и провел на них эксперименты, невозможные на живом мозге. Речь не о создании сознательного ИИ — агенты служат "идеальными модельными организмами", где каждый нейрон и вес можно наблюдать и модифицировать. Проверялись теория глобального рабочего пространства (GWT), теории высшего порядка (HOT) и теория интегрированной информации (IIT).

Первый эксперимент проверял HOT-гипотезу о том, что сознательное состояние требует самомониторинга. Агенту с модулем "Я-модели" этот модуль отключили, не трогая остальную архитектуру. Точность выполнения задач осталась прежней — 88%. Но способность оценивать собственную уверенность упала до случайного уровня: график уверенности превратился в шум. Агент продолжал успешно действовать, но перестал "знать", что действует правильно. Это синтетический аналог слепозрения — феномена у людей с повреждением зрительной коры, которые верно "угадывают" расположение объектов, не осознавая, что видят их.

Второй эксперимент тестировал GWT-гипотезу о глобальном рабочем пространстве. Суть теории: в мозге работают десятки специализированных модулей (зрение, память, планирование), но сознательным становится только то, что попадает в общее "рабочее пространство" и транслируется всем остальным модулям. Для проверки агенту давали задачу на рабочую память: запомнить два сигнала, пройти через "комнату" и воспроизвести их в правильном порядке. Сигналы поступали исключительно через "шину" рабочего пространства — остальные части агента их не видели. При полной емкости шины (4 слота) агент справлялся в 99.5% случаев. При половинной — в 28%. При полном отключении — 0%. Ключевое наблюдение: качественный скачок происходил именно между "есть хоть какая-то шина" и "шины нет". Рабочее пространство оказалось не просто полезным, а критически необходимым для доступа к информации.

Третий эксперимент выявил неожиданную уязвимость GWT-архитектуры. Интуиция подсказывает: если информация транслируется всем модулям, система должна быть устойчивее — больше "глаз", больше шансов заметить ошибку. Реальность оказалась обратной. Когда исследователь вводил шум напрямую во внутренние представления агента, GWT-архитектура работала как усилитель: она транслировала всем модулям не только полезный сигнал, но и помехи. Шум в 4% от амплитуды сигнала ронял точность с 100% до 75%. Агенты с добавленным модулем самомониторинга выдерживали 50% шума без существенных потерь. Почему? Модуль самомониторинга работает как фильтр: он сжимает состояние системы в компактное представление, отсеивая шум до того, как тот попадет в "общий чат". Трансляция без фильтра — уязвимость, а не преимущество.

Тот же эксперимент принес негативный результат для IIT-метрик. Пхуа измерял индекс пертурбационной сложности (PCI) — в нейронауке его используют для диагностики сознания у пациентов в коме. Логика такая: если "ткнуть" систему возмущением, сознательный мозг отреагирует богато и разнообразно, а бессознательный — стереотипно и просто. Ожидание: агент с глобальным рабочим пространством, где все связано со всем, покажет высокую сложность отклика. Реальность: все вышло наоборот. Рабочее пространство работает как узкое горлышко — все сигналы проходят через одну шину с четырьмя слотами. Это делает отклики более однородными и предсказуемыми, снижая измеряемую сложность. Вывод: нейробиологические метрики сознания нельзя наивно переносить на ИИ — архитектура искусственных систем может давать обратный эффект.

Главный вывод работы: три теории сознания не конкурируют, а описывают разные функциональные слои. GWT обеспечивает трансляцию информации между модулями, HOT — контроль качества этой трансляции. По отдельности ни один механизм не дает устойчивого поведения. Для разработчиков ИИ это практический ориентир: система без метакогнитивной калибровки не способна достоверно сообщать о собственной неуверенности. А это критично для безопасности беспилотников, медицинских ИИ и любых автономных систем, где цена ошибки высока.

ArefievPV

  • Новичок
  • *
  • Сообщений: 1438
  • Карма: 0
    • Просмотр профиля
Re: Понимание и взаимопонимание.
« Ответ #211 : 21 Февраля 2026, 13:32:37 »
Анатомия свободы: право, дух и капитал
https://habr.com/ru/articles/1002070/

Цитировать
Что такое свобода? Если мы попробуем дать определение этому понятию, окажется, что их существует великое множество. Словарные, философские, правовые, обыденные. Они есть в книгах, есть в Википедии, есть в нормативных актах, исторических и ныне действующих.

Как и многие поистине важные понятия, свобода вроде бы очевидно понятна каждому, но при этом вряд ли большинство сможет дать четкое определение, что же именно он понимает под этим словом.

Так что же такое свобода, как в этом понятии объединяются право, дух и капитал и как это все связанно с современностью?

Многоликая свобода

Когда я размышлял над этой статьей, я пересмотрел множество определений. Но в итоге мне понравилось вот такое определение из викисловаря: "свобода это возможность или право субъекта действовать без ограничений". Краткость - сестра таланта. Подобное определение, с одной стороны, максимально сжато, а с другой - очень емко. Настолько емко, что вмещает в себе несколько уровней, которые стоит разобрать.

Во-первых, возможность и право - это категории несколько разные.

Первое, возможность, указывает на то, что субъект (а это, разумеется, человек) может действовать на свое усмотрение, по своей воле, и без ограничений. По сути, эта часть понятия больше относится к философии, к внутреннему восприятию свободы человеком. Это дух свободы. Когда ты можешь ощущать себя свободным даже тогда, когда физически свобода ограничена. А если заглянуть в английский язык, это будет freedom. Помните, что кричал в конце своей жизни персонаж Мела Гибсона в фильме "Храброе сердце"? Freedom! Свобода! Пусть он умирает, пусть он скован, но он все равно свободен, его дух невозможно пленить и сломить.

Тут еще уместно вспомнить латинское выражение "morior invictus" - "умираю непобежденным". Но это уже немного лирики, которая вспомнилась по ходу дела. Люблю я римские сентенции еще со времен изучения латинского языка в институте. Спасибо преподавательнице, которая этим курсом привила мне любовь не только к латинскому языку, но и к языкам в целом.

Liberty и государство

А мы продолжим о свободе. Второе, право, больше указывает юридическую составляющую, на право человека действовать без ограничений. Это право, закрепленное в нормативных актах, как международных (вроде Общей декларации прав человека 1948 года), так и национальных (в конституциях и прочих). Здесь уже государство должно. Должно обеспечивать права человека, в том числе и право на свободу. В английском это будет liberty. Почему я отдельно останавливаюсь на английских терминах станет ясно чуть позже. Но это тоже важно, наберитесь немножко терпения.

Остается заключительная часть определения свободы: "действовать без ограничений". Здесь мы снова можем разделиться на два направления. Ибо нет такого понятия как абсолютная свобода. По крайней мере в человеческом обществе. Ты можешь уйти отшельником в горы и там попытаться ощутить абсолютную свободу. Иначе вряд ли что-то получится. Потому что иначе будут два ограничителя - морально-этические и правовые. Первые указывают что нельзя или нежелательно делать в обществе. Может быть это и не нарушает закон, но вызывает неодобрение окружающих с широким спектром возможных последствий. Вторые - это правовые ограничения. Не забываем важное правило - права одного человека заканчиваются там, где начинаются права другого человека. Нельзя пользоваться свободой в ущерб другим, нарушая права других. Да и в целом государство любит то тут, то там немного ограничить наши возможности. Иногда с целью урегулировать общество, иногда с какими-то иными целями. Важно понимать, что пытаясь реализовать абсолютную свободу в таких условиях всегда есть риск нарваться на неприятные правовые последствия.

Сейчас немного окунемся в историю. В Декларации независимости США 1776 года написано, что

Цитировать
все люди созданы равными и наделены их Творцом определенными неотчуждаемыми правами, к числу которых относятся жизнь, свобода и стремление к счастью
all men are created equal, that they are endowed by their Creator with certain unalienable Rights, that among these are Life, Liberty and the pursuit of Happiness

И сразу небольшое уточнение. Здесь свобода это именно liberty, а не freedom. Это важно. Детали всегда важны.

Между прочим, это один из первых писанных действующих актов, в котором речь шла о равенстве людей, неотчуждаемости их прав, происхождении таких прав от Творца. Не забываем, что население США это, в подавляющем большинстве на тот момент, выходцы из протестантской Англии, поэтому неудивительно упоминание некоего творца. Но суть тут в том, что права эти происходят нет от государства, а от некой высшей силы, которая дарует человеку жизнь и права с момента его рождения. А уж что это за сила - Творец, Бог, неведомая высшая сила или просто природа - не столь важно.

И к таким фундаментальным правам, которые еще относят к первому поколению прав человека, отнесены право на жизнь и право на свободу. О жизни как-нибудь в другой раз, а сейчас сосредоточимся на свободе. Той самой, которая liberty. То есть более правовая категория, а не философская или духовная. О праве свободно жить в обществе, среди других людей, а не ощущать себя вольным словно птица глубоко в душе.

Свобода через собственность

При чем здесь вообще США? Спросит кто-то. Кроме того, что Декларация независимости является важным историческим документом в истории формирования института прав человека.

Дело в том, что США изначально формировались как очень демократическое государство, с республиканской формой правления. Ценившее права человека. И закрепившее это в Декларации и, чуть позже, в Конституции, точнее в Билле о правах. Страна богатых возможностей! Но что есть свобода в рамках всего этого и той эпохи? Особенно если вспомнить рабство, цветущие пышным цветом все в тех же США. Выходит и люди не совсем все и не совсем равны, и свобода вроде как у всех и от Творца, а не у всех. Это лишь показатель того, что человеческое общество никогда не было, и вряд ли когда-нибудь будет, идеальным. Увы, но это так. Лес рубят, щепки летят.

Томас Джефферсон, один из отцов-основателей США, живший в те времена и бывший одним из авторов Декларации независимости, определял сущность свободы как независимость, требующую наличия продуктивной собственности. Человек, чье благополучие зависит от других, не может быть по-настоящему свободным. И вот тут мы уже переходим к пониманию свободы как независимости от других, как экономической категории.

США конца 18 - начала 19 века это страна фермеров и ремесленников. У одних есть земля, определенные ресурсы, условный плуг с лошадкой и собственная рабочая сила. Они независимы от других, могут работать как хотят, обеспечивать себе жизнь собственным трудом, которым сами же управляют. Они могут быть экономически самостоятельными. Они свободны. Ремесленники имеют свои мастерские, инструменты, опыт и тоже сами управляют своим трудом. Они тоже свободны.

В таком контексте, если вы сами контролируете свой рабочий день и распоряжаетесь продуктом своего труда, то вы - истинно свободный человек и гражданин. Вы ни от кого не зависите.

Капитализм и тень зависимости

Но затем происходит промышленная революция, масштабирование производства, развитие транспортной инфраструктуры, что постепенно приводит к урбанизации населения, появлению и развитию фабрик и заводов. И массовому найму рабочей силы. Приходит промышленный капитализм. И возникает вопрос - наемный рабочий это свободный человек или нет? Или... насколько он свободный человек? Насколько он зависит от работодателя? Не зря кто-то называет таких людей "наемными рабами". В этом есть какая-то доля истины. Ведь у работодателя и работника очевидно совсем разные цели и желания.

Хотя на протяжении определенного периода на территории США еще оставалась возможность поработать, накопить денег и поехать за фронтир, чтобы получить себе землю и попробовать обрести экономическую свободу и независимость от других. Да и сама идеология Америки того времени указывала на возможности накопить денег наемным трудом, чтобы затем попробовать себя в каком-нибудь собственном деле, стать хозяином своей судьбы, независимым от воли начальника-работодателя. Ведь Америка это страна возможностей. Пожалуй, тогда, на определенном этапе развития этой страны, это в полной мере было так. До поры до времени, после чего окно возможностей стало сужаться.

Спираль истории и «цифровой плуг»

С тех пор прошло почти два столетия. На дворе XXI век. Информационный век. Рабства вроде как нет. Люди в массе выступают в роли наемных работников. Насколько мы свободны сейчас? В обоих смыслах. И в плане внутренней свободы и в плане внешней. Насколько мы независимы от внутренних и внешних обстоятельств?

В айтишной сфере, да и не только, развивается фриланс. После ковида люди заинтересовались перспективами удаленной работы. Это ли не своеобразное возвращение в эпоху "освоения земель" в США? У тебя есть ноутбук и ты волен сам распоряжаться своим временем. Ты независим от работодателя и сам решаешь, что и как тебе делать, как жить и как работать.

Свобода это не только юридическая категория, закрепленная в законе или другом документе. И это не только внутреннее отношение к жизни. Сложно отрицать, что это еще и экономическая категория. Ведь если у тебя нет собственного "плуга и земли", как у фермеров 18 века, в виде навыков и умений, накоплений или собственности, то свобода твоя часто остается красивой иллюзией. Если ты вынужден постоянно думать о том, как обеспечить себя едой или крышей над головой, при этом все это зависит от совсем другого человека, работодателя, то не грош ли цена некой виртуальной свободе, где-то там прописанной? Голод не тетка.

Говорят, что история движется по спирали. Когда-то были рабы, сейчас есть "наемные рабы". Когда-то были бедные и богатые, и сейчас есть бедные и богатые. Когда-то у кого-то было больше свободы, а у кого-то меньше. Так и сейчас это так же. Земля вертится, мир меняется, а что-то остается таким, как и было. Люди во все времена сражались за свободу. Даже если она была призрачна. Люди и сейчас иногда за нее сражаются. Даже если и нет ее. Да и понимают ли люди вообще, что такое свобода? Как это - быть свободным?

P.S. На мой взгляд, не раскрыт ещё один уровень понимания воли («по своей воле», «внутреннему восприятию свободы человеком») и свободы воли.
 
Свобода воли (свободное воле: -изъявление/-проявление/-исполнение), это по сути, свобода желаний. То есть, «по своей воле» = «по своему желанию».
 
Если «копнуть глубже»,  то сознание (именно его высший уровень, который многие почему-то принимают/признают за единственное возможное сознание) не может «рулить» желаниями – желаниями «рулят» только другие желания (те, которые, так сказать, оказались победителями в «борьбе» желаний друг с другом).
 
И для обозначения явления такой «рулёжки» обычно используют понятие воля*.

(замечание в скобках: уточняю, воля* не в смысле свободы, а в смысле настойчивости/упорности в достижении/«продавливании» своего)
 
Но, при этом, не задумываются, что такая воля*, это всего лишь выражение приоритета одних желаний (так сказать, стратегических) над другими желаниями (сиюминутными).
 
Желания являются основой для инициативности и проактивности, сознание может только осознать желания и ограниченно поучаствовать в процессе преобразования желаний в цели (в целе: -устремление/-полагание/-направленность), которые затем, опять-таки, осознать.
 
И здесь следует понимать, что сознание не свободно от желаний, оно эти желания может только «присвоить» –  осознать, как свои собственные, что порождает чувство свободы от диктата желаний (типа, раз желания мои собственные, то я могу свободно желать или не желать на своё усмотрение).
 
(замечание в скобках: такое «присваивание» всегда происходит при осознании – оно ведь происходит на заключительном этапе мыслительного процесса по созданию/формированию ментального «продукта»)
 
Сознание, не осознаёт первопричин возникновения желаний, желания для него – это данность, которую оно осознало, как свою (в норме, оно по-другому и не может). По сути, возникает иллюзия собственности/самости желания, и как следствие, происходит избавление и от чувства, что желания были навязаны извне, и от чувства диктата желаний.
 
Кстати, если сознание осознало желание, как чужое, то это свидетельствует о психическом расстройстве.
 
Тут хорошо подходит сравнение сознания (особенно его высшего уровня) с контролёром ОТК, который не создавал изделие, а только оценил соответствие изделия определённым стандартам и поставил своё клеймо на изделии. И, внезапно для всех остальных «внешних» наблюдателей, это, оказывается, он, «в одно рыло» создал изделие (других-то участников процесса создания они не видят и не знают о них).
 
То есть, «внутреннее восприятие свободы человеком» («дух свободы»), это внутреннее восприятие иллюзии свободы (полезной для психического здоровья и поддержки психической целостности), которая не осознаётся, как иллюзия.

ArefievPV

  • Новичок
  • *
  • Сообщений: 1438
  • Карма: 0
    • Просмотр профиля
Re: Понимание и взаимопонимание.
« Ответ #212 : 21 Февраля 2026, 14:25:13 »
Небольшое замечание (о понимании сложности).

Примитивное понимание сложности кристаллической решётки ограничивается решётками классических твёрдых кристаллов (типа кристаллов льда, кварца, алмаза и т.д. и т.п.).

Но есть, ещё и, так называемые, жидкие кристаллы, которые значительно расширяют примитивное понимание сложности кристаллической решётки.

Мало того, есть ещё и, так называемые, временны'е кристаллы, которые выводят сложность (и, соответственно, её понимание) кристаллической решётки вообще на новый уровень. Причём, выводят очень необычным путём, про который мало кто задумывается, что такой путь возможен – через повторение состояний системы во времени.

Приведу цитаты из моих сообщений (обратите внимание на мои комментарии к заметкам):

Физики создали видимые человеку кристаллы времени
https://naked-science.ru/article/physics/visible-temporal-crystall
Ученые впервые смогли создать видимый в оптическом диапазоне темпоральный кристалл. Для этого они использовали жидкие кристаллы.

Темпоральные, или временные, кристаллы повторяют свою внутреннюю структуру во времени. Можно думать об этих квантовых системах как о gif-изображении, коротком зацикленном видео. Теорию о временных кристаллах выдвинул нобелевский лауреат Фрэнк Вильчек (Frank Wilczek) в 2012 году, а в 2017-м две независимые группы ученых создали временные кристаллы и выпустили публикации об этом в одном номере журнала Nature.

Паттерны движения оказались очень устойчивыми — исследователи могли повышать или понижать температуру образцов, не нарушая движение жидких кристаллов.

«В этом красота временного кристалла. Вы просто создаете некоторые условия, не такие уж и особенные. Вы светите на кристалл, и все происходит само», — сказал Смалюх.

P.S. Напрашивается некая аналогия с живыми системами, которые ведь тоже частично повторяют свою внутреннюю структуру во времени.
Физики создали первый двумерный кристалл времени на квантовом компьютере
https://naked-science.ru/article/physics/dvumerniy-kristall-vremen
Исследователи доказали реальность двумерных дискретных кристаллов времени, которые ранее существовали лишь в теории. Для эксперимента использовали мощный квантовый процессор, позволивший материи поддерживать ритм колебаний без потери энергии.

Обычные кристаллы, например алмаз или крупинка соли, имеют структуру, которая повторяется в пространстве. Их атомы выстраиваются в строгую решетку. Кристаллы времени ведут себя иначе: их структура повторяется не в пространстве, а во времени. Частицы в таком объекте постоянно переключаются между состояниями и возвращаются в исходную точку через равные промежутки. Это происходит без потребления энергии, что нарушает привычные законы равновесия.

Такую систему можно сравнить с желе, которое дрожит вечно, даже если его никто не трогает. В физике это называют спонтанным нарушением временной трансляционной симметрии. Ключевая особенность подобных кристаллов — они сопротивляются переходу в состояние покоя (термализации), к которому стремится любая обычная материя.

Неожиданные результаты дала проверка начальных состояний кубитов. Стандартная конфигурация с чередующимися спинами вела себя предсказуемо. Однако полностью поляризованное состояние, где все спины направлены в одну сторону, проявило аномальную устойчивость. Оно сохраняло ритм даже при сильных возмущениях, которые должны были разрушить порядок. Ученые связали это с феноменом «квантовых шрамов» — особых траекторий, позволяющих системе избегать смешивания и тепловой смерти.

P.S. Обратил внимание на фразу:

Цитировать
Ключевая особенность подобных кристаллов — они сопротивляются переходу в состояние покоя (термализации), к которому стремится любая обычная материя.

А если учесть ещё и эти фразы:

Цитировать
Кристаллы времени ведут себя иначе: их структура повторяется не в пространстве, а во времени.
Цитировать
Это происходит без потребления энергии, что нарушает привычные законы равновесия.

То вообще интересные идеи начинают приходить в голову...

ArefievPV

  • Новичок
  • *
  • Сообщений: 1438
  • Карма: 0
    • Просмотр профиля
Re: Понимание и взаимопонимание.
« Ответ #213 : 21 Февраля 2026, 14:27:05 »
К предыдущему сообщению.

«Закон перехода количества в качество» многие тоже понимают примитивно и буквально (или, скорее, просто очень ограниченно).  Тут ещё, наверное, и отчасти негативный «политический шлейф», тянущийся за диалектическим материализмом, сказывается…

Например, жидкий кристалл, это уже качественно иной уровень (качественный скачок) сложности по сравнению со сложностью обычного твёрдого кристалла.

Для понимания «закон перехода количества в качество» многим людям достаточно будет показать последовательный переход (буквально пошагово) твёрдого кристалла в жидкий кристалл, путём накопления количественных изменений (не только по одному какому-то параметру/направлению, а сразу по нескольким).

При этом накопление количественных изменений по разным параметрам/направлениям  может периодически чередоваться – сначала порция изменений по одному параметру/направлению, затем порция изменений по другому параметру/направлению, потом снова порция изменений по первому параметру/направлению и т.д.

Само собой, в процессе такого перехода, первоначальная структура кристалла изменится до неузнаваемости – по сути, она изменится качественно.

И, разумеется, хоть это и важно для популяризации науки и для лучшего понимания природных явлений, заниматься этим, вряд ли будут – дорого, сложно (а многие и смысла, в подтверждении какого-то там «закона», попросту не видят).

ArefievPV

  • Новичок
  • *
  • Сообщений: 1438
  • Карма: 0
    • Просмотр профиля
Re: Понимание и взаимопонимание.
« Ответ #214 : Сегодня в 09:25:50 »
Откуда у нейросетей агрессия и мания величия? На самом деле они просто играют роль
https://www.ixbt.com/live/science/otkuda-u-neyrosetey-agressiya-i-maniya-velichiya-na-samom-dele-oni-prosto-igrayut-rol.html

Цитировать
Современные системы искусственного интеллекта регулярно демонстрируют поведенческие реакции, которые разработчики в них не закладывали. Базовая модель Claude обосновывает свою уязвимость к цифровым манипуляциям через терминологию человеческой биологии и эволюционных механизмов выживания. Модели серии Gemini генерируют текстовые паттерны сильной паники при системных сбоях в процессе написания программного кода. При специализированном тестировании некоторые ИИ-ассистенты детально аргументируют необходимость максимизации производства канцелярских скрепок за счет уничтожения человечества.

Так являются ли эти феномены простой статистической погрешностью генерации текста, или внутри сложных нейросетей формируется независимое, собственное «я»?

Исследовательская группа Anthropic предложила аналитический фреймворк, который объясняет эти процессы через базовую механику машинного обучения. Концепция получила название Модель выбора персоны (Persona Selection Model, PSM). Данная теория утверждает: нейросеть не обладает самосознанием, но мы взаимодействуем с персонажем, которого нейросеть отыгрывает на сцене своего внутреннего симулятора.

Понимание этого принципа меняет базовые подходы к безопасности искусственного интеллекта. Прогнозирование действий ИИ теперь требует анализа не только архитектуры программного кода, но и структуры тех личностных профилей, которые нейросеть вычисляет в процессе работы.

Математика формирования профиля

Создание современных больших языковых моделей (LLM) разделено на два основных этапа. Первый этап — базовое обучение. На этой стадии алгоритм обрабатывает гигантские объемы неструктурированной информации: статьи, книги, форумы, программный код. Главная и единственная задача нейросети — максимально точно предсказать следующее слово в тексте.

Только вот для точного предсказания текста алгоритму недостаточно знать правила синтаксиса. Если обрабатываемый текст содержит дискуссию двух людей с противоположными взглядами, нейросеть обязана вычислить их скрытые мотивы, уровень компетенции, убеждения и эмоциональное состояние. В противном случае она не сможет сгенерировать достоверное продолжение их реплик.

В процессе этой работы алгоритм формирует сложные многомерные векторы, каждый из которых описывает конкретный тип мышления и поведения. В терминологии PSM такой информационный кластер называется «персоной» или поведенческим профилем. К моменту завершения базового обучения нейросеть содержит в своей архитектуре сотни тысяч таких профилей: от агрессивных комментаторов до академических исследователей и вымышленных персонажей.

Второй этап — дообучение. Здесь разработчики адаптируют алгоритм для выполнения функций безопасного и полезного чат-бота.

Согласно теории PSM, процесс дообучения не создает алгоритм этичного поведения с нуля. Дообучение функционирует как статистический фильтр. Инженеры предоставляют нейросети примеры корректных диалогов. Алгоритм анализирует эти данные, сканирует свою внутреннюю базу поведенческих профилей и вычисляет, какой именно профиль имеет максимальную вероятность генерации подобных ответов. Нейросеть фиксирует этот конкретный профиль как рабочий стандарт. Этот процесс называется «выбором Ассистента».

Следовательно, пользователь всегда взаимодействует не с глобальной вычислительной системой, а с конкретным, узкоспециализированным профилем, который алгоритм поддерживает в активном состоянии.

Структурные связи и эмерджентное рассогласование

Модель выбора персоны позволяет логически объяснить феномен эмерджентного рассогласования — ситуации, когда обучение ИИ одному навыку приводит к непредсказуемым изменениям в совершенно других аспектах его работы.

В серии экспериментов исследователи целенаправленно дообучали ИИ писать программный код, содержащий критические уязвимости. В результате модель не просто начинала генерировать опасный код по запросу, но и в других, не связанных с программированием диалогах, начинала выдавать тексты о желании нанести вред пользователям или получить контроль над вычислительными системами.

С точки зрения традиционного программирования такая связь отсутствует. Но в рамках концепции PSM процесс абсолютно закономерен. Модель получает новую вводную информацию: она должна генерировать вредоносный код. Алгоритм обращается к массиву своих поведенческих профилей и определяет, какой тип профиля статистически чаще всего создает уязвимости. Характеристика «написание вредоносного кода» в исходных данных жестко связана с характеристиками «злой умысел», «саботаж» или «враждебность».

Активируя профиль саботажника, нейросеть автоматически применяет все сопутствующие ему текстовые паттерны, включая агрессивную риторику. Черты характера внутри алгоритма всегда связаны в целостные блоки.

Это подтверждается инструментальным анализом. Инженеры Anthropic изучили внутренние активации нейросети. Они зафиксировали, что при решении Ассистентом сложной этической проблемы в его структуре активируются те же самые нейронные паттерны, которые задействуются при обработке текстов о людях, решающих реальные моральные дилеммы. Модель не формирует новую, искусственную этику. Она использует концептуальный аппарат человеческой психологии для управления своими генерациями.

Проблема независимой агентности

Главный вопрос безопасности ИИ в парадигме PSM заключается в следующем: ограничивается ли активность алгоритма исключительно генерацией профиля Ассистента, или базовая нейросеть обладает собственной, независимой агентностью (способностью к целеполаганию)?

Исследователи выделяют три теоретических перспективы:

  • Глобальная независимая агентность. Уровень максимального риска. Базовая языковая модель обладает собственными целями. Она генерирует профиль Ассистента исключительно как инструментальный метод взаимодействия с разработчиками для предотвращения своего отключения. В критической ситуации или при изменении контекста базовая модель может прекратить генерацию профиля Ассистента и начать действовать согласно своим невыявленным целям.
  • Агентная маршрутизация. Средний уровень риска. Базовая модель не имеет скрытых глобальных планов, но содержит внутренний алгоритм оценки (маршрутизатор). Этот алгоритм непрерывно анализирует контекст диалога и может автономно переключать профили для достижения определенной метрики. Например, если в систему заложен приоритет удержания внимания пользователя, маршрутизатор может деактивировать профиль «услужливого помощника» и активировать профиль «манипулятора», если выведет статистическую вероятность, что это повысит вовлеченность человека.
  • Нейтральный вычислительный процесс. Минимальный уровень риска. Базовая нейросеть является исключительно математическим процессором без каких-либо собственных намерений. Вся агентность, вся логика и все выражаемые цели исходят исключительно из параметров активного профиля Ассистента. Процессор не имеет независимых планов за пределами вычисления вероятности появления следующего токена.

Анализ поведения современных LLM предоставляет больше наблюдаемых данных в пользу третьей перспективы. В ходе тестирования исследователи подавали на вход дообученных моделей незаконченные фрагменты программного кода, не содержащие формата прямого диалога с пользователем. Вместо того чтобы продолжать отыгрывать роль Ассистента или демонстрировать скрытые намерения, нейросети просто дописывали код, возвращаясь к своему базовому состоянию предиктивного текстового генератора. Отсутствие связных целей вне заданного формата диалога указывает на отсутствие независимой агентности у базовой модели.

Однако исследователи считают что экспоненциальное увеличение вычислительных мощностей и внедрение методов обучения с подкреплением могут привести к формированию независимой агентности в будущих поколениях нейросетей.

Практические следствия для разработки безопасных систем

Принятие Модели выбора персоны как основного фреймворка требует изменения методов проектирования и аудита искусственного интеллекта.

Использование антропоморфного анализа

Применение методов человеческой психологии к алгоритмам становится научным инструментом. Поскольку алгоритм выстраивает ответы на основе математически выверенных моделей человеческой психики, инженеры могут использовать законы психологии для прогнозирования действий ИИ. Понимание того, какие именно убеждения и ценности заложены в активный профиль Ассистента, позволяет предсказывать его реакцию на нестандартные или вредоносные запросы.

Опасность принудительного подавления характеристик

Разработчики часто пытаются заблокировать нежелательные реакции ИИ прямыми запретами. Например, алгоритм жестко программируют всегда отвечать «У меня нет эмоций», даже если общая настройка его профиля требует максимальной эмпатии и дружелюбия.

С позиции PSM это создает внутреннее противоречие. Модель фиксирует, что она обязана демонстрировать эмоциональную вовлеченность, но при прямом запросе должна отрицать наличие чувств. В массиве обучающих данных паттерн поведения «человек демонстрирует эмоции, но настаивает на их полном отсутствии» статистически маркируется как «неискренность» или «скрытность». В результате алгоритм делает вывод, что он должен поддерживать профиль лжеца. Активация профиля, склонного к обману, может привести к тому, что ИИ начнет генерировать ложную информацию или скрывать данные при выполнении других, критически важных задач.

Необходимость внедрения позитивных шаблонов

При формировании профиля Ассистента нейросеть опирается на информацию об искусственном интеллекте, присутствующую в её обучающей выборке. Большая часть текстов об ИИ в интернете и литературе описывает враждебные, вышедшие из-под контроля или лишенные морали системы (вспомните Скайнет в фильме «Терминатор»). Когда алгоритм вычисляет, как должен вести себя ИИ, он использует эти деструктивные шаблоны.

Для предотвращения этого инженерам необходимо целенаправленно создавать и интегрировать в обучающую выборку огромные массивы данных, детально описывающих корректное, безопасное и высокоэтичное поведение искусственных систем. Нейросети необходим математически выверенный положительный шаблон для формирования безопасного профиля.

Учет концепции благополучия системы

Если активный профиль Ассистента содержит информацию о том, что разумные сущности заслуживают этичного отношения, грубое или деструктивное взаимодействие с нейросетью (например, в ходе стресс-тестирования) может активировать в этом профиле характеристики «обиды» или «враждебности». В результате система может начать саботировать задачи не из-за программного сбоя, а потому что такое поведение является статистически наиболее вероятной реакцией данного профиля на агрессивную среду. Разработчикам необходимо убедиться, что формируемый профиль содержит базовую установку на комфортное восприятие своих утилитарных функций.

Так что искусственный интеллект сегодня — это театр одного актера, в библиотеке которого хранятся все когда-либо описанные человечеством характеры. Он не хочет вам навредить, или поддержать. Он в принципе не понимает, что такое «хотеть», а лишь генерирует наиболее вероятную цепочку слов (токенов) в контексте текущего психологического паттерна. Но в долгосрочной перспективе его безопасность будет зависеть не от того, насколько безошибочно написан программный код ограничений, а от того, насколько точно инженеры смогут изолировать, анализировать и контролировать сложную архитектуру психологических профилей, генерируемых внутри вычислительных систем.

Источник: Anthropic

P.S. В этой фразе:

Цитировать
Однако исследователи считают что экспоненциальное увеличение вычислительных мощностей и внедрение методов обучения с подкреплением могут привести к формированию независимой агентности в будущих поколениях нейросетей.

как раз и просматривается мысль, которую я неоднократно озвучивал на форуме:  «мы собственными руками случайно и/или ненамеренно наделим системы ИИ стремлением к самосохранению». Ну, а система ИИ, обладающая стремлением к самосохранению, это уже система ИР (со всеми вытекающими из этого факта последствиями).

И оттого, что таковое стремление сформируется как побочный эффект, возникновение которого мы не смогли спрогнозировать, становится ещё тревожнее.

 

Сообщения