У нас в гостях Олесь Петрив - инженер по разработке систем машинного обучения. Олесь работает над целым рядом высокотехнологичных проектов, таких как системы аналитики соцмедиа, технологии для киностудий, системы video super-resolution, многомерные карты возможных решений, компьютерное зрение и обработка языка, электронный мерчендайзер.
Олесь также ведет авторский курс "Машинное обучение" на Prometheus.
О нем говорят все, но мало кто понимает, что это на самом деле. Давайте попробуем разобраться: Что собой представляет искусственный интеллект на всех уровнях, как его можно описать простыми, привычными человеку или хотя бы программисту словами?
Нам при словах «искусственный интеллект», скорее всего, приходят на ум ассоциации с фильмами “Терминатор”, “Матрица”, возможно, мы вспоминаем робота Санни и еще много таких фильмов, которые показывают, каким может быть холодный и сильный ум, напрочь лишенный человечности. И эти образы сформировали в наших головах устойчивое чувство недоверия и опаски к технологиям, обладающим свойством развиваться самостоятельно.
И даже глубоко опытные люди в классических ИТ технологиях очень скептически смотрят на идею, что система без пошагового контроля со стороны человека может сама разрабатывать алгоритмы действий.
Что нам об этом расскажет человек, который непосредственно создает системы искусственного интеллекта, учит их и трудоустраивает?
Что он думает о возможностях ИИ конкурировать с человеческим мозгом?
Олесь знакомит нас ближе с миром ИИ:
И много еще интересного в нашем видео
0:53 Концептуальные отличия разработки в структуре исскуственного интеллекта и классического программирования
2:17 Сравнение нейросетей и машинного обучения. Нейросети на примере биологических, их обучение и возможности на сегодня
3:37 Принцип распознания изображения. Независимость нейросети от человека
4:49 Нейронная сеть изнутри. На что влияет человек в работе сети?
6:46 Поэтапная работа программиста с данными, архитектурой, модулями, слоями, разветвлениями, последовательностями матричных мультипликаций и итерационными смещениями
8:31 Самостоятельность сети. Особенности тренировка и «переучивания» ИНС. Отличия между тестовой выборкой и реальной
10:22 Свойство нейросетей к «зазубриванию» и результаты такой работы
11:39 Математики об отсутствии контроля и анализа работы нейросети
12:50 Разработка интерпретации работы нейросети через бинарное дерево и архитектуры, которые не поддаются таким преобразованиям. Распознание «несуществующего» и аналог DeepFake (замена лица в фото, гифках и видео посредством телефона)
18:15 Как происходит замена персонажей на видео и пиксельная реалистичность. Про быстрый результат без индивидуального обучения нейросети
21:26 Дискриминатор и синтезатор в разработке, как банкир и фальшивомонетчик – их роль в улучшении работы системы. NVIDIA и люди, которых не существует
24:05 Отличия работы со статичными фото и динамичными видео. Обучение реалистичной обработки видео
29:24 Проект для Netflix как удалось воссоздать фильм Орсона Уеллса по черновикам режиссера отснятым 40 лет назад. И почему это не смогли сделать Голливудские киностудии
35:59 Белый шум, вырождение творчества и культуры из-за автоматического генерирования контента
39:49 Как вырождается контент в погоне за откликом на примере Фейсбука, и какие альтернативы
42:23 Регулирование авторского права на результаты работы и плагиат. HPІ ретрит в Голливуде
45:27 Сокращение видео-траффика путем передачи видео-контента через набор контрольных точек с воссозданием лица. Перспективы развития технологиия
47:55 Искусственный интеллект и Big Data для медицины. Отсутствие технологии в практической медицине
56:20 Neuralink – озвучивание человеческих мыслей. Как стартап Илона Маска повлияет на будущее
57:37 Использование совместного мышления, достижения и варианты развития событий
1:00:32 Наш виртуальный мир, в котором мы киборги
1:02:16 Про эксперимент с внутренним ухом и голосовыми связками - или как читать и передавать мысли
1:03:02 С чего начать разбираться в теме искусственного интеллекта
1:03:36 Отличие процессов в человеческом мозге и искусственного интеллекта. Создание электронной личности
1:07:33 Data Science conference - о чем говорят люди, которые будут менять наше будущее
0:53 Олесь, давай представим, что я - школьник, далекий от ИТ. Правда, не знаю, насколько это может быть сегодня: школьники, далекие от ИТ. Объясни мне, что такое машинное обучение, нейросети, искусственный интеллект.
Машинное обучение, нейросети - это набор алгоритмов, которые позволяют решать задачи, например, классификация, прогнозирование каких-то свойств по данным, не будучи заранее хардкорно запрограммированными. Скажем так: классические алгоритмы выглядят как? Есть какая-то задача, и программист, который принимает и пишет. Значит так: компьютер, ты пишешь сначала вот такую инструкцию, потом ты берешь такую инструкцию, такую, такую... и компьютер просто тупо выполняет последовательность инструкций, в результате решает задачу тем методом, которым программист сказал компьютеру решить задачу. Подход машинного обучения немножко отличается, где программист задает архитектуру системы, дает ей данные, говорит, какая задача и итеративно система обновляет внутреннее свое правило поведения таким образом, чтобы решить финальную задачу. Здесь от программиста зависит только правильно сформулированная задача и заданная базовая архитектура системы, которая самообучается.
2:17...и нейросети, и машинное обучение - это всё-таки одно и то же или разное?
Нет-нет, это не то что разное, это взаимовложенные понятия. Сфера машинного обучения включает в себя большое количество различных алгоритмов, которые позволяют найти решение задачи, анализируя данные. Нейросети - это только один из способов решать задачи, используя данные, тренируя так называемые нейросети. Хотя, если быть честными, то с биологическими нейросетями у того, что мы называем искусственные нейросети, общее только название. Сейчас очень популярно говорить, что искусственные нейросети - это такие маленькие модели мозга, которые учатся подобно тому, как учится мозг. Нет. То есть, во-первых, мы до конца не знаем точно, как учится мозг. Если быть объективными, мы точно знаем: мозг не учится так, как учится сейчас большинство искусственных нейронных сетей. Через так называемый propagation и метод обратного распространения ошибки. Но это довольно хорошая математическая модель для решения конкретных прикладных задач. Она не работает так, как работает мозг, но помогает нам находить там котиков, собачек на картинках, считать количество автомобилей, которые проехали там за 1 секунду видео.
Есть задачи, например, распознавать котиков на картинках и сказать: на этой картинке есть котик, а на этой вот нет. Это значит, что инженерам надо сесть и понять, какой набор визуальных признаков полностью коррелирует с наличием котика. И вот группа инженеров посидела бы, придумала бы какие-то хард-каскады там или еще что. Грубо говоря, записали бы всю эту логику, что вот если вот такие градиенты на картинке есть, вот таких нет, - это увеличивает вероятность того, что здесь есть котик, а если вот такие есть, а таких вот нет, - это уменьшает и т. д. И с переменным успехом это бы работало. И так достаточно до недавнего времени.
4:21 Это классический алгоритм.
Да, алгоритмический подход. Как правило, он состоял из того, что люди придумывали какие-то фичи, признаки, которые можно было достать из изображений, из текста, из данных, с которыми работал алгоритм, а затем определенная эвристика, определенная захардкодированная логика: как с этими признаками работать? По какому принципу их классифицировать как те, что с котиками, и те, что без котиков?
4:49 Что значит “мы подбираем параметры”? Нейросеть сама подбирает эти параметры или мы корректируем алгоритм? Какая суть человека здесь, то есть, что мы меняем?
Ну вот в таком простом варианте несколькошаровая полносвязная нейросеть. Это, если говорить объективно, это просто несколько матриц. Матрица - это табличка со значениями. Слоем нейросети мы называем матрицу значений, где на вход мы подаем вектор признаков, набор значений там тоже от минус бесконечности до плюс бесконечности, например, или там от нуля к единице набор интенсивности пикселей на изображении.
Мы берем этот вектор, умножаем на матрицу, в результате получаем какой-то другой вектор. Сначала, допустим, это матрица абсолютно случайных значений. Мы взяли какой-то вектор, умножили на матрицу случайных значений, получили другой вектор определенной размерности тоже с какими-то значениями. Допустим, наша нейросеть имеет три слоя. Это значит, что мы взяли 1 вектор, умножили на матрицу - получили новый вектор. Умножили на еще какую-то, ну там, добавили какой-то вектор, так называемый диез, умножили на еще одну матрицу - получили еще один вектор, и еще одна матрица, и еще один вектор. В результате эта последовательность: умножение на матрицу, добавление вектора, снова умножение на матрицу, добавление вектора или применение к этому вектору какой-то функции, например, отбрасывание всех значений меньше нуля. И эта последовательность умножения вектора на матрицу и является прогоном данных через нейросеть.
Процесс обучения - это процесс изменения этих параметров матрицы таким образом, чтобы после умножения вектора на эту матрицу на выходе мы получали значения, близкие к тому, что мы хотим получить.
6:46 Это понятно. Теперь все равно еще ниже на технический уровень. Что мы конкретно делаем? Мы программируем где-то? Вот эти шары нейросети - что это такое? Это матрица, это таблица базы данных, это файлик? Ну вот на техническом уровне что происходит? Ты говоришь высокоабстрактно: мы вот учим нейросеть, меняя параметры... с технической точки зрения что мы делаем?
Роль программиста в том, чтобы задать архитектуру, реализовать pipeline подачи данных, запропроцессить данные, проанализировать: вот у нас здесь есть миллион изображений, из них одна треть - какой-то шум и т.д.; отфильтровать их, посмотреть, вся ли статистика правильно отвечает, все ли лейблы соответствуют друг другу. Затем объявить архитектуру нейросети. Вариантов, какая это архитектура для решения конкретной задачи, здесь уже насколько фантазия позволяет. Архитектура нейросети будет состоять из таких вот уже модулей, которые реализованы в большинстве фреймворков. Собрав определенную последовательность этих блоков от одного - двух слоев заканчивая сотнями с различными ответвлениями рекуррентными и другими нейросетями, инженер конструирует этот computation graph - последовательность матричных мультипликаций добавлений, вычитаний и функций активации, которые на выходе выдают вектор в формате наших меток.
Итерация за итерацией вес этой нейросети смещается за счет повторения этого процесса расчета частичных производных, смещение весов в правильном направлении, подача снова…
8:31 Вот это смещение нейросеть делает сама или это как раз часть работы разработчика?
Сама нейросеть ничего не делает, потому что нет какой-то... нет субъекта нейросети, который что-то смог бы делать. Есть набор матриц, к которым мы можем добавить определенные параметры, отнять их. Этот процесс итеративно повторяется с каждой итерацией, с каждым следующим примером данных. И именно поэтому глубокие нейросети весь Deep Learning - он требует большого количества примеров, и очень часто сотни тысяч. Чем большее количество примеров, чем больше они разнообразны, тем стабильнее будет нейросеть.
Один раз задается гиперпараметр Learning Rating, один раз определяется, каким методом мы будем тренировать. Например, стохастический градиентный спуск, готовится pipeline подача данных, мы подключаем GPU, нажимаем тренировки и видим, как значение ошибки постепенно, итерация за итерацией, 1000 итераций за 1000 итераций, постепенно уменьшается и уменьшается, пока... Ну, если мы будем очень-очень долго тренировать, то на тестовой, на тренировочной выборке, на которой мы тренируем, ошибка в конце концов достигнет едва ли не нулевых значений или очень маленьких значений. Но это еще не всегда значит, что наша нейросеть поняла и все выучила, и идеально решает задачи, поскольку у нейросети есть одна из таких фундаментальных проблем, как переобучение - overfit, когда на тренировочной выборке нейросеть выдает едва ли не нулевую ошибку, идеально отличает там котика от собачки, ошибка практически нулевая. Но когда мы вбрасываем изображения, которых нейросеть не видела во время тренировки, то ошибка очень значительная.
10:22 Есть такая шутка, когда нарисован, значит, теннисный стол и там контуром ракетка нарисована. И там: “нейросеть, нарисуй мне ракетку”, а она туда котика вписала)
Как правило, если смотреть на график падения ошибки на тренировочной выборке, он плавно так падает, пытаясь приблизиться к нулю. В это же самое время на тестовой выборке, как правило, сначала все очень похоже, но в определенный момент ошибка на тестовой выборке начинает расти. В точке, где ошибка на тестовой выборке начала расти, мы считаем, что здесь модель уже начала переучиваться и просто запоминать примеры вместо того, чтобы реализовать задачу, которую мы хотим решить. Это значит, что несмотря на то, что там ошибка на тренировочной выборке почти нулевая, мы не можем использовать такие веса, потому что она будет очень страшно фейлить в реальных ситуациях. Это одна из ключевых проблем нейросетей. Поэтому часто они в некоторых задачах делают гораздо меньшее количество ошибок, чем, например, человек, но когда делают ошибки, то иногда эти ошибки просто, ну...
11:39 У многих просто людей, поклонников классической алгоритмизации, есть большое опасение отсутствия аудируемости результата.
Меня немножко как математика смущает взгляд на, как это, на эти различные нейросети и прочее типа того, что мы вот их научим, и они нам дальше будут выдавать какие-то результаты. Потом мы берём их используем там для прогнозирования продаж, например. Мы вот научили их, и они теперь прогнозируют вместо нас. Как они прогнозируют, мы не знаем, потому что мы не знаем, что внутри там происходит, но мы им верим. Вот меня как математика это смущает с точки зрения того, что, ну как мы, когда ты понимаешь, что внутри происходит, какой алгоритм ты заложил - ты можешь как-то этим управлять. Но если ты не понимаешь, какой алгоритм заложен, то рано или поздно у тебя возникнут вопросы: а что в этом чёрном ящике происходит? И действительно можно ли ему доверять. Вот научили мы этот чёрный ящик правильные результаты выдавать в определённых условиях. А условия изменились. Какие результаты он выдаёт? Вот. А он выдает результаты какие? Можно ли этим результатам верить или нельзя? Я не знаю.
12:50
Да-да, есть такой довольно обоснованный консёрн, и сейчас очень много research ведется в направлении автоматизированных методов интерпретации через параллельные конструирования, трансформацию от нейросетей в некое псевдодерево принятия решений, где трудно интерпретируемые параметры матриц трансформируются часто в довольно длинный, но набор логических бинарных решений "Да или нет". Для человека это хотя бы немного, но более понятно. Хотя с этим тоже проблемы, потому что далеко не каждую архитектуру так просто конвертировать в такую интерпретируемую форму. В случаях, когда это качество классификации, то там все проще. Можно посчитать так называемые attention карты. И увидеть, что вот какая часть на изображении максимально повлияла на то, что вот нейросеть классифицировала изображение так или иначе. Иногда это довольно контринтуитивные штуки, потому что, например, яркие примеры есть, где нейросеть со стопроцентной уверенностью говорит, что на картинке изображен волк, хотя там нет никакого волка.
Но она едва ли не 100% говорит: это волк. Потом, когда смотришь, а почему нейросеть вынесла вердикт, что это волк: потому, что на картинке был снег. И тогда: почему если снег, то волк? А потом оказывается, что в тренировочном датасете на всех изображениях там была куча собак, всяких животных и т.д., но на всех изображениях, где был волк, был снег. Снега больше нигде не было, кроме изображения волка. И, типа, вместо того, чтобы изучать нюансы того, чем волк отличается от собаки и все эти детали, нейросеть очень быстро выучила: О, если снег, то это волк!
15:00Ты полгода назад выступал на I-Forum 2019 и сегодня. В чём разница этих двух докладов? Что нового ты сегодня сказал?
На I-форуме я рассказывал о том, как генеративные нейросети в целом изменят интерактивный сторителлинг, интерактивные видосы, фотографии и то, как люди взаимодействуют, воспринимая контент. А сегодня была более такая техническая часть о том, как мы это, собственно, делаем в реальности. Не просто куда это все идет, а вот какие конкретные штуки, например, мы там в NeoCortext используем для того, чтобы сделать видео реально интерактивными, помочь конкретно модифицировать, например, черты лица. В данном докладе конкретно было о методах репрезентации лиц.
Об аналоге DeepFake, который может работать прямо на вашем телефоне - замена любых лиц в фотогифках и видео.
А есть какие-то уже кейсы практические, где это используют, такие технологии?
Да. Ну вот, например, разработали продукт REFLECT, который позволяет в один клик изменить Identity черты лица на любой фотографии или рисунке, картине. Сейчас в продакшн ранится как раз видеоверсия этого application. Ну, я думаю о DeepFake все слышали.
16:13 Но сейчас DeepFake - все видели, но мало кто представляет, как оно делается.
Как правило, это делается... это надо минимум неделю, а то и больше времени, иметь бэкграунд хотя бы в какой-то machine learning. Иметь пару мощных видеокарт, на которых тренить нейросети, создавать датасеты, и это довольно такая ресурсозатратная штука.
Вы выкладываете это прямо в мобильное приложение?
А мы делаем это в один клик. Мы сделали pipeline...
Только с фото или есть уже видео?
С фото. Уже доступен в AppStore и Play Market, а с видео сейчас Бета и буквально через месяц будет релиз. И в телефоне можно будет любую gif-ку или видео в один клик выбрать по одной фотографии человека и вставить ее в любой видеоклип gif и т.д. Мы думаем, что подобная штука... к ней должны иметь доступ.
А какое бизнес-применение?
Во-первых, это интерактивизация gif, затем возможность второй, третий или десятый раз продать контент, который уже снят. Скажем так, дать пользователям возможность выбирать, с каким актером смотреть фильм. Если хочешь посмотреть "Титаник" не с ДиКаприо, а со Скарлетт Йоханссон, почему бы нет.
18:15Давай сделаем скачок, потому что многим распознавание, котик там или не котик, - задача кажется очень тривиальной. Потому что в жизни она очень тривиальна, то есть я же хорошо разбираюсь, где собачка, где волк, а где котик. Вот. И она кажется очень простой, и, в общем-то, всё, что ты рассказал, понятно. А теперь давай к Life режиму замены видео, которое ты показывал. То есть это та же самая логика, но немножко в другой архитектуре, в более сложной. Это всё про это же?
В конце концов это матрицы, которые итеративно меняются в направлении минимизации ошибки, просто формулировка задачи несколько отличается. Если мы говорим о нейросети, о, не знаю там, по замене лиц, по замене вообще полностью тела человека на видео, одного человека на другого, то очень трудно сказать, какую классификацию здесь решает нейросеть. Потому что это не просто определить, здесь человек или нет, и нужно синтезировать что-то. Ну, во-первых, семейство архитектурное отличается от классического, от тех, которые используются в задачах классификации, даже локализации изображений. Когда нужно синтезировать изображения и синтезировать, чтобы оно было реалистичным... Ну, допустим, что вот последние: около года занимаюсь разработкой систем по высококачественной замене черт лиц на видео. Так, чтобы можно было, используя одну фотографию человека, любого заменить любым на видео с сохранением освещения и всех атрибутов и т.д. Так, чтобы поменялась только эта часть структуры лица, которая отвечает за распознавание определенной личности, а все остальные заменить.
И это довольно нетривиальная задача, особенно когда мы хотим сделать так, чтобы каждый раз, когда нужно нового человека заменить на видео, не приходилось перетренировывать всю нейросеть. Потому что такие методы уже есть, их называют DeepFake. Но каждый раз нужно, если мы хотим сделать новый DeepFake, собрать датасет одного человека, другого человека, несколько дней это все тренировать, и вообще быть как минимум machine learner-ом, чтобы знать, что ты делаешь, и возможно потом в результате что-то получится. А хочется сделать так, чтобы одна фотка - один клик - и все, без всякой перетренировки. И здесь возникает проблема в том, что мы хотим, чтобы на выходе то, что нейросеть синтезировала, было реалистичным. Если в случае с классификацией изображений там, где котики - собачки, довольно просто сформулировать, что мы хотим от нейросети, как аналитически сформулировать понятие реалистичность? Сейчас я себе даже не представляю, как можно просто взять и написать формулу реалистичности лица. Соответственно, мы хотим минимизировать ошибку, минимизировать значение функции ошибки, которую мы даже не знаем, эту функцию.
Вот мы плюс-минус его чувствуем: здесь реалистично, а здесь нет. Но четко математически сформулировать, как в контексте пикселей это выглядит, мы не можем. Соответственно, здесь используется подход, который называется генеративные соревновательные сети Generative adversarial networks (GANS).
21:26Идея очень простая: раз мы не знаем, как описать функцию реалистичности, давайте натренируем нейросеть, которая ее изучит. Что такое функция реалистичности? Мы, например, точно можем отличить нереалистичное изображение от реалистичного. Соответственно, мы можем сделать бинарные метки: вот здесь реальная фотография, а вот здесь – что-то синтезированное, непонятное, нейросетью. И вот мы имеем бинарные метки 1-0, и эта модель называется дискриминатор. И она итерация за итерацией учится отличать синтезированное изображение от реальной фотографии. Постепенно, с каждой последующей итерацией ее веса апдейтятся таким образом, чтобы отделять реальные фотографии от синтезированных изображений все эффективнее и эффективнее. И тогда тренировка состоит из двух фаз: в одной фазе мы тренируем дискриминатор, который учится отделять, а в другой фазе мы синтезируем какое-то изображение, бросаем это изображение в дискриминатор, считаем и видим, что дискриминатор говорит. И дискриминатор говорит: нет, считаю, что это фейк, ну, это синтезированное. И поскольку у нас и дискриминатор, и генератор - все нейросети, и каждая операция в процессе синтеза изображения и анализа этого изображения - это дифференцированные операции, это значит, что мы относительно финальной этой функции реализма, которую изучает дискриминатор, мы можем посчитать частные производные и посчитать градиенты в генератор. Так, чтобы изменить веса генератора таким образом, чтобы в следующий раз он выдал нечто, что, по мнению дискриминатора, будет более реалистичным. А дискриминатор затем снова поддоучить. В результате это такая получается игра из двух нейронных сетей, которые имеют противоположные задачи, как банкир и фальшивомонетчик: один становится все более и более придирчивым и внимательным к деталям, а другой учится синтезировать все лучшие и лучшие подделки, которые обойдут внимание банкира. В результате этой игры вообще вся система движется в направлении, где сначала там что-то непонятное синтезируется, а затем постепенно там появляются глаза, фон какой-то, очертания, геометрические какие-то свойства, а потом дальше, дальше, дальше... Я думаю, большинство уже видело всякие демонстрации нейросетей, которые там... NVIDIA, например, полгода назад тренировали, где синтезируются полностью синтезированные фотографии людей в суперкрутом резолюшене. Если тебе бы не сказали, что таких людей не существует, скажем так, наша внутренняя нейросеть спокойно бы решила, что это реальная фотография.
24:18Более сложный случай, когда нам нужно не просто синтезировать что-то реалистичное, а иметь определенный контроль над тем, что мы синтезируем. Например, хотим на вход модели подать изображение человека, хотим, чтобы она что-то с этим изображением сделала, и на выходе она выдала другие изображения, и чтобы мы имели определенный метод контроля над тем, что получается на выходе. Например, контролировать и изменять, там добавлять улыбку, состарить человека или делать его молодым и т.д.
24:05Добавлю немножко контекста. Правильно ли мы понимаем, что чтобы и зрителям было понятно, мы когда говорим про одно изображение, мы точно так же имеем в виду видео, где просто очень много этих изображений. Или нет? Или это разные технологии, которые создают замену в видео лица?
По сути, мы говорим об одном и том же. Часто видео, скажем так, на видео накладывается еще несколько ограничений: не всегда, когда у нас есть нейросеть, которая синтезирует одно реалистическое изображение, она будет так же визуально адекватно выглядеть, когда мы применим эту нейросеть к последовательности кадров. Потому что есть проблема так называемой темпоральной консистентности.
Одна из… вот последний год тоже активно работаем в "VideoGorillas", где мы работаем над видео Super Resolution. Это когда у нас есть на вход SD видео, там 420 ПГ качество, и нам нужно, прогнав его через нейросеть, получить forKey-версию этого видео с кучей деталей, додуманных нейросетью. Например, там есть дерево, и на SD-качестве у нас просто зеленые кляксы и намек на то, что там где-то есть какие-то веточки. На forKey-версии мы хотим видеть листочки и то, как на них свет отражается, и там текстуру этих листочков. И их нейросети нужно додумать.
Есть два источника информации: первое - это структурная информация в пределах одной картинки. Например, если нейросеть очень много примеров увидит, что если есть такая зеленая клякса на low resolution, то на high resolution, как правило, там листочки. И второй источник информации - это информация, которая есть на соседних фреймах. То есть если мы возьмем и будем на вход давать не только этот один кадр, который мы производим, но и соседние 5-7 фреймов, то на соседних фреймах есть дополнительная информация о том, что там, что на самом деле может быть между пикселями, которые нам нужно додумать. И агрегируя информацию из соседних фреймов, мы можем с большей уверенностью и достоверностью реконструировать, что было в этой части изображения, которую мы засуперрезолюшили. Если мы там в 4 раза увеличиваем, это значит, что там, где был один пиксель, нам нужно нарисовать 16 пикселей. И в SuperResolution, если его применить, вот просто взять так называемый single Image SuperResolution, где мы взяли каждый фрейм отдельно, и каждый фрейм отдельно ты смотришь - ну, четко, красиво, классно выглядит. Затем следующий - тоже четко, красиво, классно. Но за счет того, что не учитывалась темпоральная информация, и каждый кадр независимо обрабатывался, если мы проиграем это как видео, то потом окажется, что все деревья начинают так мерцать, додуманные волоски у кого-то на бороде тоже начинают двигаться, и все эти мелкие детали очень сильно начинают варьироваться от кадра к кадру. Соответственно, когда мы говорим о синтезе или какой-то обработке с видео, у нас всегда накладывается еще один констрейн, кроме того, что все это должно быть качественно, четко, красиво. У нас еще это должно быть консистентно. Визуальные признаки должны от кадра к кадру меняться органично, так же, как они в природе изменяются.
Как это решается?
Здесь уже целая куча трюков есть. Есть первое: мы можем расширить контекст входных данных, то есть вместо того, чтобы бросать один кадр, мы можем на вход нейросети вбрасывать там 7 кадров. Второй способ, который, как правило, комбинированно используется, - это дополнительные констрейны на темпоральную консистентность. То есть мы можем тренировать нейросеть с таким вот дискриминатором, а этот дискриминатор на вход получает не одно изображение, а кусочек из трех или четырех фреймов, которые прогнали через нейросеть, и он имеет на вход 3 фрейма реальных, с реального видео, i 3 фрейма синтезированные. И на реальных фреймах плавное движение, не знаю, если там у кого борода есть, то вот волоски плавно двигаются и очень плавно меняются, а на синтезированном они так от кадра к кадру сильно меняются. И модель-дискриминатор изучает: ага, это значит, синтезированная, а это - реальная. И, таким образом бекпропагейтив сигнал от этого дискриминатора в нейросеть, мы стимулируем нейросеть, кроме того, чтобы синтезировать реалистичные изображения, чтобы они еще были темпорально консистентные. Это один из способов.
29:24Что для Netflix вы делали?
С Netflix была классная история. В VideoGorillas мы сделали restore последнего фильма Орсона Уэллса - это такой голливудский кинорежиссер. История в том, что в 70-х годах он снимал свой последний фильм. Снял его, успел сделать режиссерский черновик, это даже не режиссерская версия, некий набросок из пленок, плюс-минус как он себе видел финальный монтаж фильма в невероятно плохом качестве и умер. Фильм так и не попал в продакшн, там вместе с этим куча всяких историй. После этого было несколько разных попыток за последние эти 40 лет восстановить этот фильм. Что значит «восстановить»? Это значит провести процесс мастер-ресторинга, когда берется этот черновик режиссерский, берутся... А в этом фильме было 13 000 пленок, и понятно, что никаких записей о том, с какой пленки первые 5 секунд, с какой - вторые 5 секунд, они нигде не сохранились, и нужно было, несмотря на этот маст...
А они уже оцифрованы, все эти пленки?
Да. Скажем так, во-первых, процесс оцифровки - это тоже такая очень нетривиальная процедура. Другие киностудии тоже в свое время пытались это отресторить и т.д. Но Netflix решили утереть нос старым голливудским киностудиям и показать, что мы тоже чего-то стоим: посмотрите, мы возьмем и припишем Netflix рядом с именем Орсона Уэллса. Ну, это круто.
Никакой информации о том, какой кадр вошел - не вошел. Режиссеры на старости лет, они такие очень специфические люди, и типа им не влом сделать там сто дублей, где актер поворачивается и удивляется правильным образом. И там сто дублей, и почему он выбрал именно конкретный. И есть такая штука, как Creative intent, и его нужно сохранить. И ты не можешь (сказать): "Да они все одинаковые! Какая там разница, что там этот режиссер выбрал?" Нужно конкретно именно этот найти среди сотни дублей. Причем там еще и шаг определенный правильный на этой пленке сделать. Ну, это невероятно тяжелая работа. Буквально недавно все это делалось вручную: то есть много людей сидят и мачат эти миллионы этих фреймов, пытаясь найти: это тот дубль или не тот, здесь под тем углом улыбается, или это из другой пленки.
Ну, это полный капец. Netflix попытались отресторить, и в процессе они начали понимать, почему другим киностудиям это тоже не так просто удалось и не так быстро. Потому что эти 13 000 пленок и никакой вообще информации: что, где, откуда. Они там пару процентов фильмов полувручную, кажется... ну, и увидели темпы, с которыми они ресторят, и они там вообще неоптимистичны были. То есть десятки лет восстанавливать фильм - это бред. И вот они вышли на VideoGorillas, а в VideoGorillas у нас есть Bigfoot.
32:41Это такой инструмент, который мы сделали именно для такого use case, где мы берем сканы всех пленок (13000 пленок) и Мастер, прогоняем их через детектор интерест пойнт. Interest point detector - это мы в кадре находим такие части кадра, которые могут быть максимально информативны для того, чтобы сравнить этот кадр с любыми другими кадрами. И оно там инвариантно часто к изменениям освещения, цвета и т.д. И в каждом кадре мы находим несколько сотен таких интерест пойнтов, прогоняем эти миллионы кадров со скана через детектор, потом прогоняем 200 000 кадров с Мастера, который был, считаем эту матрицу 200 тысяч на 12 миллионов и находим последовательности, где кадры Мастера, то есть режиссерской версии, линейно совпадают с последовательностями кадров со сканов. И на выходе выдаем такой json, где написано: с такого-то по такой-то кадр Мастера - пленка номер такая-то, такая-то с этого-то по сей кадр. Сам этот matching занял около чуть меньше двух суток, вот просто загнать на видеокарту, посчитать это и...
Арсений, я, по-моему, нашёл инструмент, как тебя заменить...
Вот, ну... а потом еще чуть больше недели все мы просто проверяли - смотрели, все ли правильно. И все правильно! С тех пленок, из этой информации, которая была.
Мы сбросили Netflix, они такие не до конца поняли, что произошло. Они типа дали данные, чтобы мы посмотрели, можем ли мы что-то с этим сделать, и чтобы мы дали фидбэк.
А вы сбросили уже фильм готовый?
Файл, в котором расписано, какие кадры откуда брать для того, чтобы монтировать финальный фильм. Вот. Ну, и они смонтировали финальный фильм. И он через 40 лет после смерти режиссера появился в прокате.
The Other Side of the Wind
34:51У меня всё равно возник тут очень большой такой вопрос: у каждого режиссера (он развивается, да?), если смотреть одного режиссера несколько фильмов. Как вы определили, что он в этом случае взял бы именно эти кадры? Анализ предыдущих фильмов на самом деле не дает информации полноценной о том, что из этих 100 поворотов лица он выбрал именно тот, который принял решение... Понимаешь вопрос, да?
Да-да, но мы же не угадываем. Типа, он выбрал эту пленку или не эту? У нас есть объективная метрика, насколько два кадра между собой похожи, и насколько между собой похожа последовательность кадров. Даже если, с точки зрения человека, 2 дубля выглядят между собой очень похоже, если присмотреться к деталям, то, особенно еще и не на отдельных фреймах, а на последовательности, то там очень много различий даже на почти идентичных дублях. Вот именно в контексте этих мелких деталей, ну не знаю, там под каким углом край уха по сравнению там с краем двери и т.д.
35:59Это шаг в сторону того, что в будущем сам фильм будет генерироваться нейросетью? Ну, понимаешь вопрос? То есть, если мы можем сделать это, то мы теоретически можем сделать и не просто ресторить, а генерировать картинку? Любую. Ну, то есть обучая. Если мы можем...
На самом деле да. То есть, скажем так, когда интерактивный сторителлинг дойдет до уровня, где зритель в процессе наблюдения и созерцания видео или какого-то сериала будет интерактивно согенерировать то, что он видит, гораздо ближе, чем мы думаем. То есть это горизонт ближайших максимум 10 лет.
36:53То есть для каждого человека картинка будет отличаться?
Сюжет может отличаться, картинка, набор актеров...
Хорошо. И тут мы переходим к следующему интересному вопросу: человеческий мозг, как нейросеть, тоже тренируется. Мое представление о прекрасном сгенерировано тем набором книг и фильмов, которые я прочитал. Это по сути то же самое упаковано. Мы говорим, что разные нейросети друг друга тренируют и уменьшают вот эту ошибку. То же самое происходит там, допустим, на моем или твоем примере. Наше представление о том, что хорошо, что красиво или что кардинально выбивается из этого видеоряда, формируют другие нейросети. Другие режиссеры, другие писатели и так далее. И это формирование существует только потому, что они создали что-то уникальное. И тут вопрос: если контент будет формироваться под зрителя, откуда он получит базовое понимание о красивом?
Нет, ну тут... Это уже такой философский вопрос. Но надо четко проводить границу: где представление о прекрасном сконструировано как... социумом, культурным контекстом, а где оно сконструировано математикой. Так что такие вещи как гармоники, пропорции и т.д., которые являются неотъемлемым аспектом любого из того, что мы называем прекрасным, они должны быть.
Дополню ещё вопрос: сейчас, если посмотреть на детей, уже у многих возникает вопрос, кто больше воспитывает детей: родители или алгоритмы Гугла? Да, потому что алгоритм подстраивает под них, это примитивный совсем вопрос, но это первый шаг. То есть алгоритм настраивается, и у каждого человека YouTube свой. То есть он видит контент, если мы говорим не поиск специализированный, а то, что подсовывает нам алгоритм того, что бы нам было интересно. Точно так же работает Netflix и все иже с ними, пытаются всё это использовать. Если через какое-то время, какое-то довольно близкое - через 10 лет, мы получим такую возможность, что контент будет генерироваться прямо вот с нуля. Не было такого, а мы его просто генерируем на основании понимания чего-то на самом деле. Непонятно чего. То есть были такие фильмы. И мы будем воспитывать детей, начиная с малого возраста, собственно говоря, не на том, что было сгенерировано человеческой нейросетью, а на том, что было сгенерировано математикой. Не получится ли так (это очень грубый пример), что через какое-то время мы придём к белому шуму? Ну, порог этого будет падать, падать, весы будут уравниваться, уравниваться, уравниваться... И не придем ли мы к вымиранию, собственно говоря, творчества и качества этого всего?
Да, я как-то над этим всем думал. Я бы больше переживал не о том, что там состоится деградация качества, но проблема в максимизации фидбэка, потому что в погоне за максимизацией отклика от отдельных групп мы алгоритмически создаем... Как это уже происходит с Фейсбуком: для того, чтобы максимизировать engagement, алгоритмы сортировки контента переорганизовывают ленту новостей так, чтобы максимизировать включенность сознания человека в то, что он видит. И получается так, что половину постов, которые на самом деле среди твоих друзей, ты не видишь, а видишь только то, что максимизирует вероятность твоей реакции, ты тогда напишешь комментарий или создашь свой пост. Каждый четвертый пост на Фейсбуке - это реклама, соответственно, Фейсбук нужно сделать так, чтобы люди максимально постили, комментировали и создавали нового контента, пофиг какого, главное, чтобы...
41:00 И именно это и вырождает его. По моему мнению. И не получится ли так с видеоконтентом?
Я не думаю, что это прям будет аж настолько критично. Почему? Потому что на Ютубе есть миллионы аккаунтов, миллионы YouTube-блоггеров, которые создают контент, нацеленный на невероятно разные аудитории, которые очень сильно отличаются по качеству. И, тем не менее, все равно есть каналы, которые имеют, ну, определенную марку, и есть каналы, на которых кто-то ест мороженое и имеет своих 100 тысяч просмотров. Потому что он вот нашел нишу таких вот странных людей, которых прет смотреть, как кто-то ест мороженое. И все классно, они нашли друг друга. Но это не значит, что весь YouTube превратился в вот такие нишевые, вырожденные, странные пары зрителей и контент-криейторов. Потому что есть каналы, которые поставили себе определенную планку качества контента, и они находят довольно широкую аудиторию тех, для кого принципиален определенный уровень качества контента. Я думаю, что, скажем так, товар разного качества существовал всегда.
42:23 О'кей, тогда перейдём к вопросу, возможно, ты о нём знаешь: авторское право на результаты работы. Понимаем, да? Есть фильм, который вы сделали, ревитализацию или ещё что-то, то есть он уже не совсем тот же продукт, который был до этого. Кому принадлежит авторское право на результат? А когда мы шагнем немножко дальше и будем генерировать это из условных там шума и случайных видео, переворачивая его цвета, события, последовательности, правила о том, что сколько-то процентов в авторском праве считаются плагиатом, с помощью нейросети мы можем всё это обойти. Задав вот этот вот параметр: это не должно проходить вот эту границу, и мы можем генерировать. Чье авторское право на это?
О, это сейчас одна из самых горячих тем вообще. В этом году как раз возле Лос-Анджелеса, там раз в год собираются все голливудщики на так называемый HPІ-ретрит, и это была красная нить в контексте всей этой конференции. Потому что люди реально уже сейчас задают этот вопрос, потому что мы можем синтезировать столько... Ну, все проблемы постмодернизма, они прямо в юридическом аспекте менифестировали, потому что все есть интерпретация, перегенерированная интерпретация и т.д. Сейчас ситуация такова, что технологии уже опередили юридические инструменты. Они на самом деле всегда опережали. Но сейчас разница в скорости, где люди юридически пытаются догнать технологии, и темпы, с которыми технологии бегут вперед, уже настолько велики, что становится очевидным, что здесь даже нет смысла пытаться догнать. Сейчас многие думают в контексте использования технологий для того, чтобы как-то, возможно, урегулировать эти же вопросы авторского права с использованием там блокчейнов всяких...
Если кто-то создал новый контент, даже сейчас есть пара стартапов, которые там сгрейзили неплохие деньги для того, чтобы исследовать возможность децентрализованных подписей контента, которые по крайней мере могли бы зафиксировать того, кто является оригинальным автором контента, когда он первый раз всплыл в системе.
Возникают другие вопросы: а всегда ли, если тот, кто первым распространил определенный контент, он не всегда является владельцем этого контента. И там сопутствующие проблемы возникают. Честно говоря, пока это довольно нерешенный вопрос даже с технической точки зрения проблема. А с юридической эти методы регуляции, которые есть, ну, они смешны...
45:27 С технической я читал как-то статью, что основная часть, ну, на чём зарабатывает контент понятно, мы сгенерировали что-то, показываем уникальный контент, реклама в том числе. Ну, это прямое следствие того, что мы можем делать, как у нас сейчас по результатам поиска мы получаем рекламу похожих вещей из Facebook, ну, и на всех площадках. То же самое, я так понимаю, будет и в видеопроцессинге: мы будем получать, условно говоря, если для одного человека будет показываться автомат с «Кока-колой», а для другого - автомат с «Пепси» в одном и том же видеоряде. Тут плюс-минус понятно.
Читал статью о том, что очень высокая часть использования замены лиц. На самом деле дело не только в замене, а просто в передаче и создании. Просто когда видеочат или стримы какие-то с того же YouTube, что сейчас в Китае есть уже технология, которая не передает видеопоток, а передаёт набор вот этих контрольных точек по лицу, и воссоздает на обратном устройстве, потому что это кардинально уменьшает трафик.
Да, ну в долгосрочной перспективе мы будем обмениваться, никто не будет посылать сырые данные, если эти данные вы понимаете на всех уровнях абстракции. Нет смысла посылать НЕ сжатые пиксели, если можно заинкриптить видео или фото в столь эффективно сжатую репрезентацию высокоабстрактную, которая позволяет максимально идентично или на достаточном для пользователя уровне декодировать их там в сенсорные данные.
По-моему, это огромная ниша для тех, кто... Для видеостриминга и порносайтов... Потому что основная часть их затрат - это, собственно говоря, передача трафика.
Ну да, ну в конце концов сжатие информации, оно естественно ведет к пониманию информации. То есть чем больше мы понимаем данные, что в них, из каких паттернов они состоят, тем эффективнее мы можем эти данные сжать. Сейчас довольно большая погоня за тем, чтобы быстро и очень эффективно сжимать данные, и быстро и очень эффективно их декодировать.
47:55В одной из книг Кай-Фу Ли "Сверхдержавы искусственного интеллекта" он приводит два вектора, на которые опирается искусственный интеллект: один опирается на данные, второй опирается на алгоритмы. Чего больше в этом, ты считаешь?
Как показывает практика, не имея качественных данных, какие бы у тебя не были гениальные алгоритмы, очень трудно достичь вау какого-то эффекта. То есть в большинстве реальных кейсов 80% успеха - это хорошие датасеты. Сбалансированные, разнообразные, большие по объемам, и потом эти 20% успеха - это нюансы архитектуры.
48:35А есть какие-то примеры, ну мы сейчас всегда говорим о датасетах, которые касаются изображения. А есть еще масса нейросетей, которые там оперируют какими-то данными, то есть табличными элементами, той же биг-датой, которая там пытается найти новые сущности, полезность с точки зрения аналитики. А есть ли какие-то проекты, которые оперируют тактильными ощущениями?
Николай Максименко, мой знакомый, они как-то несколько лет назад собирали довольно классный датасет, на котором замеряли там смену паттернов сердцебиения, изменение уровня потоотделения, там, если не ошибаюсь...
Для какой задачи?
Для задачи реакции на визуальные стимулы в фото- и видеоконтенте. Так чтобы можно было прогнозировать, что такая вот последовательность визуальных образов может максимизировать, не знаю, там уровень стресса, или там максимизировать сердцебиение. В медицинской сфере сейчас очень активно начинают по-новому смотреть на все данные, которые были собраны, потому что наконец плюс-минус искусственные нейросети позволяют вот просто, не знаю, есть какая-то клиника или любой, кто собрал достаточно медицинских данных, может найти закономерности, паттерны, которые, типа, дадут инсайты круче, чем миллиардные исследования старыми методами.
Есть, конечно, проблема в том, как их потом заимплементить и эффективно использовать, поскольку нужно, особенно в доказательной медицине, кроме того, что сказать диагноз, нужно сказать, почему вы сказали этот диагноз. И с этим пока есть много нюансов.
50:28Какие самые интересные применения нейросетей ты встречал в бизнесе? Ну, то есть сейчас мы очень много поговорили по поводу создания контента. Это всё развлекательные вещи, ну, развлекательные с практической точки зрения, много там технологий под ними. Это для сектора В2С, то есть это бизнес, который генерирует для конечного потребителя контент. В В2В или внутри бизнеса какие очень интересные кейсы ты можешь вспомнить?
Скажем так, не то, что там прям суперуникальный интересный, но очень очевидный кейс с выгодой для ритейла. Был у нас как-то 3 года назад проект интересный по автоматизации работы мерчендайзеров. Классическая задача, где есть куча товаров в супермаркетах. Товары стоят на своих полках не просто так, есть куча умных людей, которые их там расставляют правильным образом, для того чтобы максимизировать там продажи, эффективность и т.д. И проблема только в том, что в реальности их там люди переставляют, кто-то неправильно расставил и т.д. И есть отдельные люди, их работа заключается в том, чтобы ходить по супермаркетам и смотреть, там «Кока-кола» не стоит ли случайно, не дай Бог, рядом с «Пепси» и т.д. Есть планограмма того, как оно должно стоять, и есть реальное изображение расстановки этих товаров. Да и сейчас в большинстве случаев тоже это просто делают люди. Человек приходит, смотрит. Само собой, если у вас там есть сеть из сотни супермаркетов, то банально просто провести один цикл анализа, или у нас все там условные сырки стоят на своем месте, то это очень много времени. Один цикл аналитики того, как, где, что стоит для того, чтобы понять, как на спад продаж влияет неправильная их расстановка. Возможно нам нужно какой-нибудь холодильник переместить в супермаркете, и тогда это увеличит продажи. Уходит очень много времени. И мы делали довольно конкретный, он не супероригинальный, но с понятной выгодой для клиентов use case, где тренируется нейросеть распознавать и локализовывать товары на полках. И тогда, во-первых, не нужно мерчендайзеров, ибо любой работник супермаркета просто один, или даже можно автоматом поставить камеру, которая раз за определенное время делает фотографию полки, нейросеть автоматически детектит, где находится товар, автоматически сравнивает с планограммой, с тем, как они должны были находиться, и бросает уже отчет, что столько-то и столько-то бутылок пива стоят правильно, эти вот неправильно, а здесь вообще товар разошелся - его нет. Ну, и это превращает этот цикл аналитики с нескольких недель до чуть ли не real-time с возможностью анализировать это в сотнях различных супермаркетов.
Проблема была только в том, что... опять же: данные. Ключевая проблема была не в том даже, чтобы натренировать нейросети и весь этот pipeline собрать, а в данных. Так что, чтобы натренировать нейросеть, которая может распознавать, ну, условно есть какое-то пиво определенной марки, и у него там пиво это светлое, премиум светлое, такое-то, такое-то, и визуально оно не отличается почти ничем, маленькой надписью снизу. И перед тем, как тренировать такую нейросеть, надо собрать датасет, где люди бы взяли и все это повыделяли, к каждому товару четко указали SKU (идентификатор товарной позиции).
Например, есть одна фотография полки с пивом, и там 300 бутылок, 50 различных брендов и сортов пива. Нужно, чтобы кто-то взял эту одну фотографию и идеально все разметил, и таких фотографий желательно сотни тысяч. И если посчитать, сколько будет стоить нам взять 100 000 фотографий, и чтобы люди поразмечали. То есть это несколько сотен тысяч фотографий размеченных, там по самым экономным расчетам, когда это будет часть in-house людей делать, это миллионы долларов. Это самые неадекватные просто цифры! Ты не можешь одну фотографию одного человека разметить, потому что есть нулевая вероятность ошибки, и чем больше SKU, тем больше вероятность ошибки. А люди делают ошибки, особенно если это монотонная работа. И нужно, чтобы несколько человек это разметили, затем взять те, где вердикт людей совпал, потом еще работу человека, который это все провалидировал. Ну это жесть!
Но задачу хотелось решить, и мы взяли сделали виртуальный магазин, с фотореалистичным рейтрейсингом и рéндерингом нескольких десятков вариантов полок, вариантов освещений, деградации камеры. Наделали там тысячи этих моделей товаров и отрендерили миллионы изображений, причем с идеальными лейблами, там по пикселям сегментационными масками, картами глубины и данными, которые никогда бы люди не разметили, и всегда со стопроцентной точностью разметки без единой ошибки. Довольно непросто было сделать так, чтобы оно реально супер фотореалистично выглядело так, чтобы человек даже перепутал - это фотка или рендер. На этом мы натренировали, и оно работает. И это прикольный кейс, когда синтезированные данные позволяют сэкономить очень много денег на разметке данных.
Микс технологий, которые вызывают у меня некоторые опасения. С одной стороны, ты рассказываешь, что мы можем генерировать, создавать любой контент, который есть. А недавно Илон Маск публикует свой стартап Neuralink. Слышал? По сути, как только мы внутри получим... то есть технология не суперновая, но просто... что никто не дошел до уровня имплементации нейронитки в нейросеть человеческого мозга. Как только мы получим возможность передавать образы прямо напрямую в мозг, мне кажется, что идея о том, что мы находимся в виртуальном мире, окажется ближе, чем может показаться.
Ну, я считаю, что люди всегда находились в виртуальном мире.
Почему?
Об этом, в принципе, и Платон говорил. То есть люди всю жизнь живут в виртуальных мирах, которые они конструируют: мир языка, мир культуры, мир… Образы, которыми мы оперируем, к реальному какому-то объективно существующему физическому миру имеет такое очень отдаленное отношение.
57:37 Ну, типа, мы меняем просто немножко интерфейсы. Я не думаю, что это что-то новое. То есть мир языка и культуры, в котором мы существуем, он такой же виртуальный, как любой Neuralink может сделать или любая компьютерная игра. Работы, профессии, не знаю, там государства, социальные учреждения, друзья, жены, мужья - все эти понятия, которыми мы живем, - это абсолютно виртуальные понятия. То есть они имеют смысл только в пределах игры, в которую люди играют, к которой подключился сервер, который называется язык и культура, и на нем мы рендерим мир, в котором типа живем. И достаточно иногда там, я не знаю, уехать куда-то далеко в лес, очень далеко от цивилизации, чтобы понять, насколько это виртуальный мир, и насколько...
Интересная точка зрения...
Поэтому, типа, изменится, я думаю, упростится интерфейс. Это, конечно, открывает совершенно новые возможности в плане синхронизации... Типа, что из этого получится? Есть такой автор Питер Уоттс, если я не ошибаюсь, у него есть книжечка, которая называется "Эхопраксия". Там он описывает, как может выглядеть человечество в конце 21 века после активного развития искусственного интеллекта. И вообще, как может выглядеть постсингулярное общество, где все технологии развились далее. То есть генетика, нейрофизиологические изменения, искусственный интеллект, вычисления на квантовых компьютерах и т.д. Очень многое очень необычное может возникнуть, начиная от роевых сознаний, потому что... Уже сейчас есть реальные кейсы, когда там группу мышей через некий брейнкомпьютер и компьютерные брейнинтерфейсы, подобные тому, что делают Neuralink, удавалось превратить по сути в метаорганизм, который для решения задач использует ресурсы не одного мозга, а нескольких. Мыши, будучи подключенными к одной системе, решали локальные задачи, используя информацию, которая доступна только другим мышам. Как это выглядело для отдельной мыши? Скорее всего, это было, как какая-то определенная метафизическая интуиция, просто условный голос в голове или что-то тебя побуждает сделать А, а не сделать Б. Почему? Ты не можешь объяснить.
Я думаю, если все будет ОК, и мы не сделаем какой-то пакости для себя, и все будет развиваться плюс-минус по оптимистическому сценарию, то...
Хотя история показывает обратное...
Нет, ну да ... Но, надеюсь, нам ума хватит
1:00:32Ну, мы уже сейчас, давным-давно стали, и я не буду уникальным в этом, многие об этом говорят, что мы давно киборги. Для решения невероятного количества будничных дел в процессе жизни day-to-day мы используем расширение мозга, прямо сейчас нам для этого надо сделать определенные физические движения: достать телефон, ввести в Гугле запрос, не знаю: Я еду из точки А в точку В, и моим передвижением руководит коллективный механизм не просто абстрактного Гугла, а миллионов людей, которые влияют на то, как...
Как ты будешь объезжать пробку.
Как ты будешь двигаться. И здесь Google - это только один из медиумов. То есть на самом деле я уже являюсь частью коллективной разумной системы, которая саморегулируется через посредство разных там соцсетей, сервисов и т.д. Просто пока мы это делаем через визуальный внешний интерфейс, там телефон. И чем дальше этот интерфейс становится все меньше, меньше, компактнее. И мы двигаемся прямо в направлении уменьшения этого интервала между тем, что, когда тебе нужен доступ к ресурсам за пределами твоего мозга, если ты получил уже ответ. Так вот все эти брейнкомпьютеры и брейнкомпьютерные интерфейсы - это апогей, который сводит это к одномоментности, когда? как только тебе нужен доступ к ресурсам за пределами твоего мозга, ты тут же их получишь.
1:02:16Сейчас уже есть... Я не знаю, может на ТEDe видели, просто классная демка, где чуваки взяли сенсор, который детектил сигналы к голосовым связкам. Ну, мы когда себе в голове проговариваем слова, к голосовым связкам у нас идут такие же сигналы, как если бы мы вслух говорили. Можно детектить, что ты, грубо говоря, проговариваешь у себя в голове. Эти чуваки объединили детектор сигналов к голосовым связкам с динамиком с костной проводимостью в один такой небольшой девайс, который вот так сбоку тут и коннектится к телефону, интернету. Ну, и показывали, как человеку задают вопрос: какая там, типа, условно, погода в Гондурасе сейчас? И чувак такой говорит, какая погода в Гондурасе, потому что он подумал, задал себе этот вопрос и просто в голове услышал ответ. Ну, типа, поэтому оно не такое уж далекое будущее, как может показаться.
1:03:02Что посоветуешь для людей, которые хотят разобраться в теме ИИ. Ну вот топ каких-то нескольких книг возможно, и что регулярно следует отслеживать, какие-то ресурсы, которые регулярно об этом пишут?
Ну, в зависимости от уровня бэкграунда, я бы посоветовал... Это уже далеко не новая книга, 2009 года она, еще до всего этого хайпа и бума, книжечка называется "On intelligence", в которой, не углубляясь в нюансы конкретных реализаций, конкретных архитектур, автор, бывший основатель, кстати, такой компании Palm (Palm Inc. - американская компания-производитель карманных персональных компьютеров и смартфонов на основе Palm OS - линеек продуктов Zire, Tungsten, Treo и аксессуаров к ним. В прошлом также выпускала продукты семейства Palm. В 2010 году приобретена корпорацией Hewlett-Packard - прим. ред.).
Может, помните сенсорные экраны. В свое время он задавался вопросом: как может работать человеческий мозг? Анализируя последние там в свое время результаты исследований в области нейрофизиологии, а также методы машинного обучения и т.д., хотел проанализировать, какие точно механизмы должны быть в процессе, в основе так называемого кортикального алгоритма обучения, того, как учится человеческий мозг. Независимо от конкретных нюансов реализации того, как мы это заимплементируем, некоторые вещи точно должны быть. Это был набор ответов и вопросов, что точно должно быть, что плюс-минус может быть, а может не быть, и без каких вещей мы точно не приблизимся к хотя бы частичной эмуляции того, как работают неокортикальные колонки в мозге человека, и какими вещами мы можем поступиться в моделях, а какие принципиальные. Я думаю, что для возникновения первого такого представления, чем, во-первых, отличается человеческий мозг от всех моделей линейных нейронных сетей, которые мы сейчас используем. Ведь на самом деле чисто алгоритмически основа их работы за последние лет 40 не сильно изменилась. Ну, то есть там появились определенные фреймворки, надстройки, очень много работы по тому, как это масштабировать и запускать на реальных прикладных задачах, но ключевые концептуальные вещи - они не изменились. И они все еще очень далеко от биологии. Очень не приблизились, а возможно даже отдалились от того, как быстрее всего работают биологические методы обучения. А в данной области прорыв не такой большой, как в направлении практического применения. Мы научились решать кучу разных задач часто лучше, чем это делает человек, но приблизиться хотя бы немного в плане того, как учится человек, у нас мало успехов.
1:06:02И ты считаешь, что этот путь не через текущие алгоритмы?
Точно. Во-первых, это не только мое мнение, я слабо представляю вообще, возможно ли обучение какого-то плюс-минус человекоподобного интеллекта без тела. Потому, типа, взаимозависимость на стольких фундаментальных уровнях, что... Вообще сама идея возможного интеллекта без агента как некоего вторичного интеллекта в вакууме - это такая себе идея, как по мне. И поэтому... как инструмент по решению отдельных задач: там автопилот, в решении задач сегментации изображений и т.д. мы целую кучу инструментов таких вот создаем. Но приближает это нас к какому-то General AI, который может генерализировать на разные темы и быть полноценным агентом, и взаимодействовать с реальностью, как некий субъект, оно ни на шаг не приближает. В направлении General AI у нас не все так оптимистично, как это может показаться из заголовков новостей.
1:07:27Так, Олесь. Спасибо за интересные ответы.
Друзья! Всем привет. Первый раз мы с нашим каналом участвуем в качестве прессы. Всё, можно менять деятельность.
Так вот: мы на Data Science conference. И сегодня вот так сзади вокруг нас куча людей, которые будут менять наше будущее. Это не мотивирующие какие-то тренинги про успешный успех или выступления там каких-то инфоцыган, которых очень много, читающих с листика свои посты в Фейсбуке. Это действительно те люди, которые будут анализировать всё то, что мы с вами пишем и делаем, фотографируем, и будут менять алгоритмами наше поведение. Следим за этим всем и будем это изучать.
Исходя из того, что есть несколько технологий, которые мы обозреваем, именно поэтому мы и хотим брать довольно сложные темы, которые поменяют наше общество в будущем. Я считаю, что Data Science - наука о данных - одна из тех, которые, собственно говоря, это сделают. Потому что за этим будущее. То, что есть сегодня, через 10 лет будет кардинально отличаться во всех сферах нашей бытовой жизни, нашей корпоративной культуры, в наших энтерпрайз возможных решениях. Если вы не занимаетесь этим сегодня, вы, возможно, завтра уже не будете существовать.
Хотите быть в курсе новинок, смотрите наши видео на канале Perceptron >>>
Наши контакты >>>
SaaS сервисы
Программы 1С:Підприємство
CRM
ERP
Node.JS, .NET
1С:Підприємство
API, IPasS
Разработка Web Apps
1С:Підприємство Автоматизация
Аудит IT проектов
Интеграция 1С:Підприємство
Получайте наши информационные материалы:
Работаем на IT-рынке с 2008 года.
Наша миссия - упростить управление данными.
Copyright © 2008-2025 TQMsystems. Все права защищены. Privacy Policy | Terms of Service