Comments 23
Интересно получается — сейчас правообладатели могут отслеживать прямое использование контента, а теперь будут искать, чтобы вчинить иск — всё, вплоть до «имитаций» оригинала?
Cloud Video Intelligence API распознаёт не только существительные (тигр, животное, собака, цветок), но и некоторые глаголы (бежать, плавать, летать) в содержимом видеороликов. Здесь используются алгоритмы машинного обучения Google, созданные с использованием TensorFlow и других фремйворков


Если CVI API уже может распознавать действия (глаголы), то в не далёком будущем и распознавание состояния (прилагательных: красный, зелёный и т.п… А это, как мне видится, увеличит достоверность распознавания.

Теперь можно будет разгадывать капчу Google при помощи сервиса Google?

Знаете, для кого это особенно прекрасно? Для телеканалов.
Допустим, дают задание монтажеру — подобрать фрагмент видео 15 с., которым надо иллюстрировать видеосюжет про молодежь и сотовую связь. Если монтажер обладает памятью индийского слона — он лезет в нужный каталог с видео и находит нужный ролик, в котором, как он помнит, на 1:34:21 есть кадры с молодежью и мобильниками. А если монтажер молодой и неопытный — он начинает паниковать.

Попытки каталогизировать видео обычно проваливаются. Это не фото, которое можно описать тегами, на видео каждую секунду меняются предметы в кадре. Не будешь же писать каталог в стиле «секунда 45: бабушки, кошки, ковер на стене, секунда 48: тинейджеры курят траву в подворотне...». Так что описанная в статье технология здорово облегчит жизнь монтажерам. Это мое такое ИМХО, если есть сотрудники с ТВ-каналов — пусть подтвердят или опровергнут…
«Здорово облегчит жизнь» мягко сказано, с таким темпом монтировать тоже не надо будет, раздробят все на кусочки и собирать будут по запросам.
Непонятно, почему показатели отсортированы в таком порядке.
Как может быть, что вероятность того, что на картинке «Кошка» (44,12%) меньше, чем «Ревущие кошки» (56,41%) итд.

Чудны твои дела, машинное обучение
Вот что странно, оно на 90% уверено что это тигр и лишь на 68% что это сухопутное животное. Или я что-то не знаю о водоплавающих тиграх или как так то?
скорее всего суммируется другие определения. 68% сухопутное животное, 40% кошка, 60% усы и становится очевидно, что это вряд ли может быть к примеру лягушкой :).
Как раз наоборот. Просто для вас «тигр», это «кошка», «сухопутное животное» и у него есть «усы». Это умозаключение — есть продукт не только вашего опыта, но и возможности устанавливать логические взаимосвязи между абстракциями, как то: «тигр это животное, он в основном ходит по земле, поэтому он сухопутное». Вы только представьте себе, какое количество абстракций иерархически вовлечено в данное умозаключение: «в основном», «ходить», «земля», для описания которых вам придется привлечь еще абстракции и взаимосвязи между ними, а потом еще и еще.

У нейронных сетей в современном их состоянии нет недостатка в опыте, а вот в установлении логических взаимосвязей между абстракциями у них проблемы. Для нейросети вполне очевидно, что вот это цветастое пятно очень похоже на три тысячи цветастых пятен, что она видела ранее, и которые были подписаны «тигр», а так же оно похоже, но в меньшей степени, на сто тысяч цветастых пятен, что были подбисаны «сухопутное животное». Но у нее отсутствует понимание их взаимосвязи на логическом уровне.

Что характерно, абсолютно противоположная ситуация наблюдается в экспертных системах, там логика на высоте, но вот процесс сведения факта к абстракции — проблема.

И задача подружить этих ежа и ужа оказалась очень и очень нетривиальной проблемой.
Это кажется странным, но на самом деле логика в этом есть: как раз из-за этих шансов что это кошка и сухопутное животное увеличивается шанс что это тигр
У водоплавающих часто на фото бывают световые полосы по телу от водной ряби а тигр на фото — тоже полосат+гамма похожа на окраску рифовых рыб.
меня интересует только один вопрос, offline версия возможна?
и в догонку, хотя бы приблизительные цены
Возможна. На самом деле алгоритм прост, и школота его реализует даже на пацкале.

Проблема только в перцептивной логике и наполнении контентом. Ну и в датацентре для этого дела :)
где можно простыми словами почитать про нейросети и как это выглядит в виде кода? наглядно, то есть.
В перспективе такие API позволят освободить от работы миллионы инспекторов качества на производственных линиях, погрузчиков на складах, мойщиков окон, сортировщиков товаров, охранников и других низкоквалифицированных работников — продвинутое машинное зрение позволит отдохнуть работникам сотен разных специальностей.

В перспективе оно оставит их всех безработчными.
Only those users with full accounts are able to leave comments. Log in, please.