Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Сохраняйся! Сохраняйся!!!

Блог компании Dell TechnologiesВысокая производительность
Все мы знаем, что об успешности бизнеса можно судить по различным критериям. Конечно, основным показателем является прибыль. Существует ещё и количество клиентов, и узнаваемость бренда. Но есть один критерий, о котором бы хотелось поговорить особо, — объём данных. Логично, что чем больше компания, тем с большим количеством информации ей приходится работать день ото дня. С каждым годом объёмы данных в организациях продолжают расти. Линейно, по экспоненте или в геометрической прогрессии? Тут усреднённую оценку вряд ли целесообразно давать. Но вы и сами понимаете, что в эпоху повального перехода на СЭД потребности в эффективных системах хранения данных очевидны.
Читать дальше →
Всего голосов 8: ↑4 и ↓4 0
Просмотры6.6K
Комментарии 6

Fluid Data: «маленькая» победа в хранении «больших» данных

Блог компании Dell TechnologiesВысокая производительность
Поразительное количество открытий людям помогает делать природа. Полёт стрекозы вдохновил авиаконструкторов, кроны лиственных деревьев — создателей солнечных элементов. А вода — это уникальное вещество — вдохновила инженеров компании Dell на создание принципиально новой технологии для систем хранения данных Dell Compellent, получившей название Fluid Data.

Главная проблема большинства систем хранения не нова — управление данными на уровне томов. Такой подход изначально ограничивает не только гибкость, но и производительность комплекса. Сразу оговоримся, что хоть проблема и главная, но отнюдь не единственная. Однако обо всём по порядку.
Читать дальше →
Всего голосов 3: ↑2 и ↓1 +1
Просмотры6.6K
Комментарии 6

Fluid Data: «маленькая» победа в хранении «больших» данных — часть 2

Блог компании Dell TechnologiesВысокая производительность
В предыдущей части мы начали знакомство с новой технологией Fluid Data, предназначенной для улучшения жизни тем, кто имеет дело с действительно большими данными. Также были разобраны некоторые, но не все, преимущества этого решения на примере СХД Dell Compellent. Что ж, не откладывая в долгий ящик, предлагаем продолжить знакомство.
Читать дальше →
Всего голосов 2: ↑2 и ↓0 +2
Просмотры4.1K
Комментарии 10

Машинный перевод и автоматический словарь в Яндексе

Блог компании Яндекс
Каждый большой продукт включает в себя много сложных и интересных технологий, над созданием которых работали люди, зачастую посвятившие им целую жизнь. И в браузере Yandex реализованы многие разработки наших коллег, которые могут остаться не замеченными неспециалистами и казаться незначимыми деталями. Например, одной из облачных технологий Яндекса, которые интегрированы в Браузер, стал наш собственный переводчик.

Сам Яндекс.Перевод вышел из беты несколько месяцев назад. От других немногочисленных подобных сервисов его отличает автословарь, уникальная технология которого разработана командой лингвистов и программистов Яндекса. Во время его разработки удалось объединить современные статистические подходы машинного перевода и традиционные лингвистические инструменты.



Чтобы понять, насколько значимым шагом в развитии машинного перевода является появление автословаря, стоит вспомнить, что 20 лет назад были распространены синтаксические переводчики, для которых таблицы соответствия фраз на разных языках составляли вручную. Процесс их создания стал меняться только в конце 1990-х, когда появились первые статистические переводчики. Для обучения их моделям переводов стали использовать параллельные тексты. Документы, в которых одно и то же написано на разных языках, извлекали, например, из дипломатической документации. Большой базой параллельных текстов стали документы ООН. Но на подобной лексике создать общелексический переводчик не получилось, потому что даже неформальные тексты он переводил сухим дипломатическим языком.
Читать дальше →
Всего голосов 65: ↑59 и ↓6 +53
Просмотры18.8K
Комментарии 30

Кластеризация дубликатов в поиске по картинкам

Блог компании ЯндексОбработка изображений
Каждый месяц на Яндексе поиском по картинкам пользуется больше 20 миллионов человек. И если кто-то из них ищет фотографии [Мэрилин Монро], это не значит, что им нужно найти лишь самые знаменитые снимки актрисы. В такой ситуации результаты, в которых большая часть найденных изображений будет копиями одних и тех же картинок, вряд ли устроят пользователей. Им придётся пролистать большое количество страниц, чтобы увидеть разные фотографии Монро. Для того чтобы облегчать людям подобные задачи, нам нужно сортировать картинки в результатах поиска так, чтобы они не повторялись. И мы научились «раскладывать их по полочкам».



Когда в 2002 году в Яндексе появился поиск по картинкам, технологий, позволяющих компьютерам непосредственно «видеть», какие объекты есть на изображении, не было вообще.
Читать дальше →
Всего голосов 44: ↑38 и ↓6 +32
Просмотры16.4K
Комментарии 14

История одной модернизации

Блог компании Dell TechnologiesВысокая производительность
Доброго времени суток всем хаброчитателям. Сегодня мы бы хотели вам рассказать (конечно, в рамках дозволенного к разглашению) об одном проекте — модернизации ИТ-инфраструктуры Международной зерновой компании, которую обеспечил наш партнер — компания Server-Unit. Но в этот раз постараемся максимально привязаться к «реальности», а не к таблицам с характеристиками.
Читать дальше →
Всего голосов 8: ↑5 и ↓3 +2
Просмотры5.7K
Комментарии 8

Big Data – почему это так модно?

Big DataHadoop
Из песочницы
Технологии Big Data сегодня очень популярны, о чем говорит хотя бы то, что на текущий момент это наиболее часто встречающийся термин в IT-публикациях. Достаточно посмотреть на статистику таких известных поисковых систем, как Google или Yandex по словосочетанию «Big Data», и становится понятным, что так называемые «Большие Данные» действительно сейчас можно назвать одним из самых востребованных и интересных направлений развития информационных технологий.

Так в чем же секрет популярности этих технологий и что означает термин «Big Data»?
Читать дальше →
Всего голосов 25: ↑14 и ↓11 +3
Просмотры10.4K
Комментарии 3

Инвесторы возлагают большие надежды на Big Data

Блог компании CloudsNNBig Data
Перевод
Необходимость в анализе больших объемов информации быстро выходит за рамки исключительно коммерческого использования.
Big Data оказывает серьезное влияние на решения, принимаемые людьми, начиная с выборов президента и заканчивая покупкой чашечки кофе. Сфера анализа больших объемов информации стала настолько прибыльной, что инвесторы из штата Массачусетс торопятся найти очередную будущую многомиллиардную компанию, чтобы успеть инвестировать в нее сейчас.
На сегодняшний день коммерческое использование Big Data в основном существует в виде контекстной рекламы – стоит только вспомнить пророческий в этом плане сервис Google ads.
Читать дальше →
Всего голосов 13: ↑7 и ↓6 +1
Просмотры6.6K
Комментарии 4

12 инструментов, о которых необходимо знать каждому программисту, работающему с Big Data

Блог компании CloudsNNBig Data
Перевод
Проектируете ли вы систему для анализа Big Data или просто пытаетесь собирать и обрабатывать данные своих мобильных приложений, вам никак не обойтись без качественных инструментов для аналитики. Хорошей новостью является то, что в данный момент множество компаний выпускают на рынок инструменты, учитывающие потребности разработчиков и соответствующие их навыкам.
Читать дальше →
Всего голосов 57: ↑47 и ↓10 +37
Просмотры34.7K
Комментарии 6

Яндекс и ЦЕРН: новый этап сотрудничества

Блог компании ЯндексАлгоритмы
Сегодня Яндекс присоединился к ЦЕРНу. Наше партнёрство с Европейским центром ядерных исследований переходит на новую стадию развития: у ученых из ЦЕРНа появится доступ к технологии машинного обучения Матрикснет от Яндекса, а также новым вычислительным мощностям. А Яндекс становится ассоциированным членом европейского Центра ядерных исследований в рамках проекта CERN openlab. Кроме него членами openlab являются Intel, HP, Oracle, Siemens и Huawei.

Сотрудничество Яндекса с Центром началось в 2011 году, когда мы впервые предоставили ЦЕРНу свои серверные мощности. А в апреле прошлого года наши разработчики создали поиск по событиям эксперимента LHCb. LHCb — один из четырёх основных экспериментов ЦЕРНа и один из примеров того, насколько важными в современной науке стали не только данные опытов, но и их обработка. В ходе опытов LHCb исследуются соударения b-кварка (b от английского beauty, по-русски его называют прелестным). Объём информации об этих событиях только за год достигает тысяч терабайт. Благодаря созданнному нами поисковому индексу у учёных ЦЕРНа появилась возможность мгновенно получать нужную информацию.

В современной фундаментальной науке важную роль стали играть не только технические ресурсы для проведения опытов, но и вычислительные возможности для обработки и понимания их результатов. В наши дни, особенно в ЦЕРНе, данных становится так много, что без применения сложных алгоритмов даже учёному будет сложно делать точные выводы о результатах опытов. Технологии, которые можно применять для таких целей, имеет совсем небольшое количество компаний.



Мы расспросили Андрея Устюжанина, руководителя проекта партнёрства с ЦЕРНом в Яндексе, о подробностях того, для чего именно ЦЕРНу нужна помощь Яндекса и как устроена работа с данными экспериментов. Смотрите видео и читайте более подробную текстовую версию после ката.
Читать дальше →
Всего голосов 110: ↑100 и ↓10 +90
Просмотры32.3K
Комментарии 21

Как обеспечить надежное хранение больших объемов данных в рамках умеренного бюджета

Блог компании AcronisBig Data
Добрый день, Хабрахабр! Сегодня поговорим о том, как из-за роста объемов данных меняются требования к СХД и почему традиционные системы, которым мы привылки доверять, больше не могут справляться с расширением емкости и обеспечивать надежность хранения. Это мой первый пост после долгого перерыва, поэтому на всякий случай представлюсь — я Олег Михальский, директор по продуктам компании Acronis.

Если вы следите за трендами в индустрии, наверняка уже сталкивались с таким понятием как software defined anything. Эта концепция подразумевает перенос на уровень программного обеспечение ключевых функций ИТ-инфраструктуры, обеспечивающих ее масштабируемость, управляемость, надежность и взаимодействие с другими частями. Gartner называет Software Defined Anything в числе 10 ключевых трендов 2014 года, а IDC  уже опубликовала специальный обзор сегмента Software Defined Storage и предсказывает, что в к 2015 году только коммерческих решений данного типа будет куплено на 1,8 миллиарда долларов. Именно про СХД этого нового типа пойдет речь дальше.
Читать дальше →
Всего голосов 17: ↑16 и ↓1 +15
Просмотры22.8K
Комментарии 7

Сортировка огромного файла с массивом при известном словаре данных

ПрограммированиеАлгоритмы
Из песочницы
Recovery mode
Привет Хабр! Недавно пришло интересное задание:
Имеется многогигабайтный файл, содержащий массив целых чисел от 1 до 10000. Элементы расположены хаотично с повторениями. Необходимо его отсортировать. Принять во внимание ограниченность в ресурсах.

Самым ленивым способом отсортировать можно используя «внешнюю сортировку со слиянием», но это весьма тяжёлый и долгий метод. В этой публикации я расскажу, какой метод пришёл мне в голову — я не смог не поделиться им.
Читать дальше →
Всего голосов 29: ↑17 и ↓12 +5
Просмотры10.6K
Комментарии 30

FAISS: Быстрый поиск лиц и клонов на многомиллионных данных

Блог компании dentsu russiaPythonBig DataМашинное обучение
🔥 Технотекст 2020


Однажды в преддверии клиентской конференции, которую ежегодно проводит группа DAN, мы размышляли над тем, что интересного можно придумать, чтобы у наших партнеров и клиентов остались приятные впечатления и воспоминания о мероприятии. Мы решили разобрать архив из тысяч фотографий с этой конференции и нескольких прошлых (а всего их к тому моменту было 18): человек отправляет нам свою фотографию, а мы ему через пару секунд отправляем подборку фотографий с ним за несколько лет из наших архивов.

Велосипед мы не придумывали, взяли всем известную библиотеку dlib и получили эмбеддинги (векторные представления) каждого лица. 

Добавили Telegram-бота для удобства, и всё было отлично. С точки зрения алгоритмов распознавания лиц всё работало на ура, но конференция завершилась, а расставаться с опробованными технологиями не хотелось. От нескольких тысяч лиц хотелось перейти к сотням миллионов, но конкретной бизнес-задачи у нас не было. Через некоторое время у наших коллег появилась задача, которая требовала работы с такими большими объемами данных.
Читать дальше →
Всего голосов 16: ↑15 и ↓1 +14
Просмотры7.4K
Комментарии 13