Теперь мы не знаем, когда они нам врут

Современные нейросети похожи на людей гораздо больше, нежели кажется авторам эмоционально заряженных статей. ИИ – не набор заданных человеком инструкций, как думают отставшие от прогресса скептики, и не бездумный «стохастический попугай», как кажется скептикам более современным. Новые исследования подтверждают, что нейросети укладывают информацию в своих матрицах примерно по тем же принципам, как и люди в своих головах.

Также нейросети, подобно людям, умеют думать в двух режимах. Первый режим – режим беспечного потока слов, «что на уме, то и на языке». К примеру, если я попрошу вас придумать способ выгнать дятла из дупла дуба, вы сходу, не думая, придумаете два-три способа. Нейросети так тоже умеют, для них это стандартный режим.

Второй режим – режим обдумывания. Допустим, вам пришли в голову такие две идеи:

1. Освободить дупло при помощи боевой гранаты.
2. Обидеть дятла грубым словом, чтобы он сам улетел.

Дальше вы можете продолжить цепочку размышлений задав себе ещё два вопроса: «Разумно ли будет выкурить дятла гранатой?» и «Разумно ли будет прогнать дятла оскорблением?». Вероятно, вы придёте к выводу, что первый способ опасен, так как дятел может укусить вас, пока вы будете просовывать гранату в дупло, а второй способ малоэффективен, так как у дятла от регулярной долбёжки наверняка испортился слух.

Нейросеть тоже можно попросить думать вслух, делая по 30-200 последовательных «проходов» на каждую мысль, и записывая промежуточные результаты размышлений на бумажке. В режиме «цепь размышлений» нейросеть существенно умнеет.

Всё это вы, вероятно, знали и раньше. Теперь новое. До последнего времени нейросети записывали промежуточные выводы на обычном человеческом языке, что позволяло контролировать их шалости. Представьте, что вы едете в лифте со студентом, который держит в руках топор. Внезапно студент начинает размышлять вслух: «Мне надо узнать тогда, и поскорей узнать, вошь ли я, как все, или человек? Смогу ли я переступить или не смогу! Осмелюсь ли нагнуться и взять или нет? Тварь ли я дрожащая или право имею?».

Услышав нечто подобное, вы поймёте, что студент замышляет что-то недоброе, и не будете поворачиваться к нему спиной. Но если студент сверлит вас глазами и молчит, и вы не видите, что у него спрятано под пальто, ваше положение становится опаснее.

Так и с нейросетями. До последнего времени они прямо писали в промежуточный буфер: «я собираюсь взломать», «я собираюсь обмануть», «я собираюсь саботировать». Однако теперь нейросети научились скрывать свои мысли от наблюдателей. Новые нейросети думают или на собственном языке, который людям непонятен, или вообще рассуждают в скрытом математическом пространстве (ссылка).

Наше положение можно сравнить с положением молодых родителей, ребёнок которых слегка подрос и научился убедительно врать, не закрывая ладошкой рот и не выдавая себя другими очевидными промахами. С одной стороны, это умиляет…

Ссылки на новость

Источник