Pull to refresh
3
0
Send message

Почему новая модель GPT-3,5 Turbo говорит, что ее создали в российской компании Just AI?

Level of difficultyMedium
Reading time6 min
Views6.9K

И можно ли верить, что данные клиентов OpenAI отправленные через API, не используются для обучения моделей?

На днях наши знакомые ребята спросили бота на GPT-3,5 Turbo о том, кто его создал. Ответ был: «Я был создан командой Just AI». То есть нами. Хотелось ответить, что команда Just AI тайно правит миром и стоит за большими языковыми моделями. На самом деле мы очень удивились и решили разобраться, как так получилось. В этой статье расскажем о нашем мини‑расследовании и гипотезах, попутно рассказав и об инструментах, которые мы для этого использовали.

Читать далее
Total votes 7: ↑8 and ↓-1+9
Comments9

Компьютерное зрение в 2024 году: Главные задачи и направления

Reading time12 min
Views5.4K

Компьютерное зрение (Computer Vision) — это область искусственного интеллекта, которая занимается созданием программ и систем, позволяющих компьютерам анализировать и понимать визуальную информацию, такую как изображения и видео. Этот процесс выходит за рамки простого наблюдения, обучая компьютеры принимать решения на основе увиденного.

Рынок компьютерного зрения сейчас переживает бурный рост с прогнозируемым увеличением с 22 миллиардов долларов в 2023 году до 50 миллиардов к 2030 году при 21.4% совокупного годового прироста с 2024 по 2030 год.

Читать далее
Total votes 12: ↑12 and ↓0+12
Comments1

Препарируем t-SNE

Reading time10 min
Views80K
Работая над статьей «Глубокое обучение на R...», я несколько раз встречал упоминание t-SNE — загадочной техники нелинейного снижения размерности и визуализации многомерных переменных (например, здесь), был заинтригован и решил разобраться во всем в деталях. t-SNE это t-distributed stochastic neighbor embedding. Русский вариант с «внедрением соседей» в некоторой мере звучит нелепо, поэтому дальше буду использовать английский акроним.

Читать дальше →
Total votes 13: ↑12 and ↓1+11
Comments4

Нужна ли айтишнику вышка? Инфоцыганство от государства

Level of difficultyEasy
Reading time7 min
Views58K

Куда отдать абитуриента, чтобы вырос программистом? Можно ли совмещать ли работу с учебой и когда начинать? Получать ли второе высшее, если недавно устроился в IT и хочешь выучить недостающую базу? Как невообразимо благодарен за эту информацию в начале моего обучения… К сожалению, их никто не дал, поэтому мне опытным путем пришлось получить ответы.

Читать далее
Total votes 192: ↑118 and ↓74+44
Comments1040

Llama 3-70b в своем Телеграм боте — бесплатно, безлимитно и всего 20 строк кода

Level of difficultyEasy
Reading time2 min
Views23K

Да, всего 20 строк кода и бот:

1) по качеству ответов будет соизмерим с ChatGPT-4;
2) будет отвечать очень быстро т.к. подключим мы его через Groq который в среднем в 10 раз быстрее других аналогичных сервисов;
3) будет поддерживать диалог и запоминать последние сообщения.

Читать далее
Total votes 41: ↑35 and ↓6+29
Comments54

Используем Gemini для просмотра лекции

Reading time9 min
Views11K

В феврале Google мы познакомились с Gemini 1.5 Pro с контекстным окном в 1 миллион токенов. Больший размер контекста означает, что Gemini 1.5 Pro может обрабатывать огромные объемы информации за один раз — 1 час видео, 11 часов аудио, 30 000 строк кода или более 700 000 слов. Это делает его на голову выше других моделей.

Сегодня я бы хотела рассмотреть вопрос обработки видео, а именно просмотра часового видео и оценить, как хорошо модель будет извлекать информацию.

Приятного прочтения!

Читать далее
Total votes 15: ↑14 and ↓1+13
Comments12

Деградация Яндекс РСЯ: уже на ДНЕ

Level of difficultyMedium
Reading time3 min
Views43K

С каждым годом трафик в РСЯ (Рекламная Сеть Яндекса) ухудшается все больше и больше. Это происходит по двум причинам:

1. Увеличение случайных кликов в неудачных местах размещения рекламы (включая клики при попытке закрыть рекламу);

2. Рост рынка ботов до промышленных масштабов;
В этой статье я напомню, как эффективно работала РСЯ в далеком 2017 году, и на каком дне она сейчас.

Читать далее
Total votes 45: ↑35 and ↓10+25
Comments95

ANOVA, или кто комментирует?

Reading time8 min
Views24K

В комментариях проскальзывала мысль, что люди мало комментируют статьи на Habrahabr, т.к. боятся потерять карму. Получается, что в основном пишут те, у кого карма побольше. Попробуем исследовать эту гипотезу подробнее и получить результаты, подкрепленные не только интуитивно, но и статистически.
Читать дальше →
Total votes 25: ↑25 and ↓0+25
Comments28

Дисперсионный анализ (ANOVA)

Level of difficultyEasy
Reading time10 min
Views36K

Дисперсионный анализ (ANOVA) — это статистический метод, который используется для сравнения средних значений двух или более выборок. Он позволяет определить, различаются ли средние значения между группами, или же различия случайны. ANOVA используется в различных областях, включая науку, инженерию, медицину, социологию и многие другие, где необходимо доказать связь между переменными.

ANOVA является мощным инструментом, который может использоваться в статистическом анализе для оценки влияния исследуемого фактора на зависимую переменную. Это помогает установить, является ли фактор значимым, и позволяет идентифицировать взаимодействие между переменными. ANOVA также позволяет определить, насколько сильно различия между группами, что может быть полезно при выборе стратегий манипулирования факторами.

Правильное применение ANOVA может доставить большую пользу и сделать исследование намного более информативным.

Читать далее
Total votes 16: ↑14 and ↓2+12
Comments3

Как работает метод главных компонент (PCA) на простом примере

Reading time10 min
Views269K


В этой статье я бы хотел рассказать о том, как именно работает метод анализа главных компонент (PCA – principal component analysis) с точки зрения интуиции, стоящей за ее математическим аппаратом. Максимально просто, но подробно.
Читать дальше →
Total votes 17: ↑17 and ↓0+17
Comments23

Быть жестким, но не жестоким: как разойтись с сотрудником по хорошему?

Level of difficultyEasy
Reading time5 min
Views25K

Спустя года наблюдений за hr’ами и руководителями в стартапах и корпорациях я нашел достаточный путь к тому, чтобы расставаться с сотрудниками и в большей степени сохранять их лояльность ко мне как к руководителю и не оставлять плохие отзывы о компании.

Читать далее
Total votes 48: ↑38 and ↓10+28
Comments127

Как я закрыл свой бизнес по выращиванию клубники, или что бывает, если закопать 5 млн в землю

Level of difficultyEasy
Reading time10 min
Views53K

В 2018-м я собрал 1 тонну клубники, и заработал на этом 150 000 ₽, это неприятно за 5 мес. тяжелого труда агробизнесмена. Поэтому в 2019-м я решил, что если заниматься сельским хозяйством, то заниматься по-взрослому. По моим расчетам, с 18 000 саженцев клубники можно заработать 11 млн ₽ за 3 года. В статье я расскажу, что из этого вышло.

Читать далее
Total votes 131: ↑121 and ↓10+111
Comments185

Нестандартная кластеризация, часть 3: приёмы и метрики для кластеризации временных рядов

Reading time16 min
Views42K
Часть первая — Affinity Propagation
Часть вторая — DBSCAN
Часть третья — кластеризация временных рядов
Часть четвёртая — Self-Organizing Maps (SOM)
Часть пятая — Growing Neural Gas (GNG)

Пока другие специалисты по машинному обучению и анализу данных выясняют, как прикрутить побольше слоёв к нейронной сети, чтобы она ещё лучше играла в Марио, давайте обратимся к чему-нибудь более приземлённому и применимому на практике.

Кластеризация временных рядов — неблагодарное дело. Даже при группировке статических данных часто получаются сомнительные результаты, что уж говорить про информацию, рассеянную во времени. Однако нельзя игнорировать задачу, только потому что она сложна. Попробуем разобраться, как выжать из рядов без меток немного смысла. В этой статье рассматриваются подтипы кластеризации временных рядов, общие приёмы и популярные меры расстояния между рядами. Статья рассчитана на читателя, уже имевшего дело с последовательностями в data science: о базовых вещах (тренд, ARMA/ARIMA, спектральный анализ) рассказываться не будет.

Читать дальше →
Total votes 18: ↑18 and ↓0+18
Comments5

Забытая война с пейджерами

Level of difficultyEasy
Reading time5 min
Views26K

До появления смартфонов под пристальным вниманием наших родителей, школ и законодателей были пейджеры.

Сегодня мы наблюдаем, как заботливые родители и законодатели начали стремиться оградить молодёжь от вредного влияния смартфонов с помощью возрастных ограничений и запретов на использование в школе. Но интересно то, что 30 лет назад аналогичный сюжет разворачивался вокруг предков сотовых телефонов — пейджеров.

В течение 1980-х эти устройства активно набирали популярность среди подростков, а также… драг-дилеров. В те годы США переживали общественную панику, связанную с активным употреблением наркотиков молодёжью, и этот факт значительно её усилил, поскольку пейджеры начали считать одним из главных подспорьев наркобизнеса.
Читать дальше →
Total votes 102: ↑109.5 and ↓-7.5+117
Comments169

Нестандартная кластеризация 4: Self-Organizing Maps, тонкости, улучшения, сравнение с t-SNE

Reading time13 min
Views23K
Часть первая — Affinity Propagation
Часть вторая — DBSCAN
Часть третья — кластеризация временных рядов
Часть четвёртая — Self-Organizing Maps (SOM)
Часть пятая — Growing Neural Gas (GNG)

Self-organizing maps (SOM, самоорганизующиеся карты Кохонена) — знакомая многим классическая конструкция. Их часто поминают на курсах машинного обучения под соусом «а ещё нейронные сети умеют вот так». SOM успели пережить взлёт в 1990-2000 годах: тогда им пророчили большое будущее и создавали новые и новые модификации. Однако, в XXI веке SOM понемногу уходят на задний план. Хоть новые разработки в сфере самоорганизующихся карт всё ещё ведутся (большей частью в Финляндии, родине Кохонена), даже на родном поле визуализации и кластеризации данных карты Кохонена всё чаще уступает t-SNE.

Давайте попробуем разобраться в тонкостях SOM'ов, и выяснить, заслуженно ли они были забыты.


Читать дальше →
Total votes 16: ↑15 and ↓1+14
Comments1

Нестандартная кластеризация 5: Growing Neural Gas

Reading time13 min
Views18K
Часть первая — Affinity Propagation
Часть вторая — DBSCAN
Часть третья — кластеризация временных рядов
Часть четвёртая — Self-Organizing Maps (SOM)
Часть пятая — Growing Neural Gas (GNG)

Доброго времени суток, Хабр! Сегодня я бы хотел рассказать об одном интересном, но крайне малоизвестном алгоритме для выделения кластеров нетипичной формы — расширяющемся нейронном газе (Growing Neural Gas, GNG). Особенно мало информации об этом инструменте анализа данных в рунете: статья в википедии, рассказ на Хабре о сильно изменённой версии GNG и пара статей с одним лишь перечислением шагов алгоритма — вот, пожалуй, и всё. Весьма странно, ведь мало какие анализаторы способны работать с меняющимися во времени распределениями и нормально воспринимают кластеры экзотической формы — а это как раз сильные стороны GNG. Под катом я попробую объяснить этот алгоритм сначала человеческим языком на простом примере, а затем более строго, в подробностях. Прошу под кат, если заинтриговал.

(На картинке: нейронный газ осторожно трогает кактус)
Читать дальше →
Total votes 28: ↑28 and ↓0+28
Comments5

Как нейронные сети экономят бизнесу время и деньги

Reading time11 min
Views9.1K

Нейронные сети занимают все больше и больше бизнес-ниш: они считают посетителей, контролируют качество и соблюдение техники безопасности, считывают автомобильные номера и проверяют, не забыли ли вы надеть маску. Даже этот текст мог бы быть написан нейронной сетью.

Искусственная нейронная сеть (ИНС) — математическая модель, имеющая программное или аппаратное воплощение. Название пришло от сравнения с принципом работы биологических нейронных сетей. Нейронные сети не программируются в привычном смысле этого слова, они обучаются. Возможность обучения — одно из главных преимуществ нейронных сетей перед традиционными алгоритмами,так как  нейросети позволяют прогнозировать сразу несколько величин (и даже одновременно решать задачи классификации и прогнозирования) одной моделью. При этом нейросети требуют значительно большего количества ресурсов — как аппаратных, так и подготовленных данных, необходимых для обучения.

Развитие нейронных сетей связано как с развитием технологий, так и с вкладом глобального IT-сообщества в обучение различных моделей на большом количестве различных наборов данных.

Пожалуй, самая популярная область применения нейросетей сегодня — распознавание визуальных образов, аудио и видео. Они используются везде — от робота-автоответчика в банке и спецэффектов в TikTok до анализа состояния нефтепроводов и подсчета брака на заводе. Нейросети существенно облегчают труд человека и экономят бизнесу миллионы человеко-часов в год.

В этой статье мы расскажем о нейросетях, которые использовали при разработке программной платформы Digital Sense — собственного продукта Цифроматики, который позволяет строить бизнес-процессы на обработке искусственным интеллектом графических и аудиоканалов в режиме реального времени, обрабатывать данные, представлять результаты анализа в графической форме и запускать программные сценарии.

Читать далее
Total votes 7: ↑6 and ↓1+5
Comments0

Предельно дешёвая видеоаналитика для детских футбольных школ

Reading time9 min
Views20K


Привет, Хабр! Ещё до продажи Мосигры мы полезли в образование. Там оказалось чуть интереснее, чем могло показаться сначала, и на сегодня мы успели открыть 124 футбольных школы, киберспортивные секции, танцы, шахматы и всё такое. Карантин слегка подрезал нам работу до 70 активных точек. Тут надо сказать, что с учётом опыта розницы, в ДНК проекта сразу закладывали очень быструю масштабируемость, чтобы по возможности построить межгалактическую сеть дополнительного образования. А один из самых больших вопросов в такой ситуации — как контролировать качество этого самого образования.

Вот футбольные тренировки. С одной стороны, конечно, у нас есть методология, которая частично на базе испанской, а потом нам её очень сильно доработали умные дядьки в РГУФК. По идее, она даёт некий стандарт, как и чему тренеры будут учить детей, но этого мало. Каждый тренер — яркая индивидуальность. Это круто, но опасно: нужно как-то следить за прогрессом. Более того, это не только наша хотелка как организации, но и прямая хотелка родителей.

Родители в образовании обычно не чувствуют прогресса ребёнка. Есть, конечно, всякие турниры, отчётные концерты и годовые экзамены, но обратная связь длиной в полгода — плохой план. Мы решили, что нужно автоматически генерировать отчёты с каждой тренировки. И вот тут мы подходим к тому, что обычно делается руками для профессиональной футбольной команды — видеоаналитике действий игроков на поле. Садится человек и примерно за 50-100 долларов за час расшифровывает происходящее. Схема не масштабируемая: вот у нас в январе 2020 занималось 165 групп в среднем по 9 раз в месяц – это будет от 75 до 150 тысяч долларов в месяц.

Но, поскольку мы живём в веке свёрточных нейросеток, можно сделать всё с дешманской камерой (но всё же fullHD 30 FPS) прямо на школьной тренировке. И, более того, мы это уже сделали до стадии беты.
Читать дальше →
Total votes 99: ↑98 and ↓1+97
Comments53

Венгерский алгоритм, или о том, как математика помогает в распределении назначений

Reading time6 min
Views61K
Привет, друзья! В этой статье хотел бы рассказать про интересный алгоритм из дисциплины «Исследование операций» а именно про Венгерский метод и как с его помощью решать задачи о назначениях. Немного затрону теории про то, в каких случаях и для каких задач применим данный алгоритм, поэтапно разберу его на мною выдуманном примере, и поделюсь своим скромным наброском кода его реализации на языке R. Приступим!

image
Читать дальше →
Total votes 21: ↑21 and ↓0+21
Comments21

Самое бессмысленное обучение: почему благодаря школе и вузу вы «застряли» в болоте

Level of difficultyEasy
Reading time8 min
Views47K

Я просыпался. Открывал глаза и с тоской думал, что опять надо ехать на работу. Она казалось мне бессмысленной, выматывающей, но, увы, безальтернативной. Как сменить ее на что-то еще — я не знал. Чем хочу заниматься — не знал. Я жил с чувством, что влип в нелюбимую работу навсегда. Чувствовал, что застрял, но не подозревал, что выход из болота находится совсем не там, где я предполагал.

Читать далее
Total votes 129: ↑51 and ↓78-27
Comments246
1
23 ...

Information

Rating
Does not participate
Registered
Activity