kotyrev 13 ноя 2010 в 18:09

Как адекватно тестировать платформы разработки и обходиться без холиваров

7 мин

2.1K

Конечно, заголовок этого поста выглядит немного риторическим. Потому, что:
1) Нет методик и метрик оценки, которые признаны всеми игроками рынка (какие есть в автомобильном бизнесе, компьютерном железе или в спорте). Это главная проблема обеспечения достоверности и адекватности результатов тестов. Но она успешно решается отраслью по мере ее взросления.

2) C проблемой холиваров все сложнее. CMS — это платформы, а платформы (даже сугубо технические) — самые фундаменталистские, консервативные и религиозные понятия человеческой культуры. Потому что за каждой технологической или духовной платформой стоят живые люди, ее приверженцы. А люди воспринимают мир немного по-разному, через призму ценностей своей платформы (православие-протестантизм, патриоты-либералы, iOS-Android, процедурное программирование-ООП, спагетти-код в шаблонах-MVC и тп).

Поэтому везде, где появится попытка сравнения платформ, автоматически начнется холивар. Многие люди просто отказываются воспринимать доводы, противоречащие догмам, ценностям и представлениям их платформы. Ни один разумный исследователь сегодня не рискнет публиковать сравнительный тест Библии и Корана на основе мнений студентов факультета богословия.

Тем не менее, корректно сравнивать CMS можно, просто это сильно дороже и сложнее, чем дать лабораторку нескольким студентам. Вопрос достоверности в методике, метриках, условиях тестирования, судьях и признании большинством профессионалов рынка. Причем, в случае адекватных по методике исследований их холиварность сильно снижается – даже упертым фанатикам труднее спорить с четкими и доказанными фактами.

После всего, что было понаписано тут и тут, я не могу не предложить вниманию сообщества свое видение методик сравнения и выбора платформ разработки, которое поддержали многие коллеги по рынку.

Рейтинги, тесты или исследования

Рейтинги — это популярность разных продуктов на рынке. У нас уже есть два-три рейтинга с совершенно разными результатами. Они говорят о популярности продуктов, но не об их качествах (хотя корреляция между качеством и популярностью есть).

Тесты — это сравнение потребительских свойств продуктов. Нет привязки к популярности продуктов, хотя сравнивают всегда самые популярные.

Тестов CMS на рынке нет. Каждый разработчик или заказчик сайта сам тестирует CMS по одному ему понятной методике и выбирает на основе собственных результатов тестирования.

Комплексные исследования влияния разных CMS на экономику веб-разработки или экономику владения сайтом. Это то, что на самом деле нужно разработчикам и их клиентам. Они несли бы самую полезную информацию. И их, к сожалению, сложнее всего организовать.

Целиком или отдельные свойства

Сравнить две или три лучших универсальных CMS на основании их технических качеств и выбрать из них однозначно лучшую практически невозможно. Лидирующие продукты потому и лидируют, что компенсируют свои отдельные недостатки своими отдельными достоинствами и в сумме качеств сравнимы с другими лидерами. А сравнивать лидеров с аутсайдерами бессмысленно.

Проще и реальнее либо сузить задачу по сфере применения (лучшая CMS для блога, для магазина, для быстросайта), либо разделить на тесты отдельных свойств (производительность, скорость освоения, скорость разработки, ..)

Cимпатии или метрики

Это ключевой момент моих научных споров с г-ном Овчинниковым. Я (и не я один) считаю, что нельзя оценивать технические ХАРАКТЕРИСТИКИ продуктов на основании МНЕНИЯ людей о них. Иначе вместо сравнения ХАРАКТЕРИСТИК продуктов мы получим сравнение МНЕНИЙ О ХАРАКТЕРИСТИКАХ продуктов.
Мнения изучают в социологических опросах, но не в технических тестах.

Возьмем, к примеру, оценку выступлений спортсменов (те же сравнительные тесты по сути).
Если один бегун пробежал стометровку за 9,9 секунды, а другой за 9,8, тут мнения людей (даже судий) на результат никак не влияют.
В фигурном катании метрики менее точные, оценки выставляют люди. Но неточность снижается большим числом судий, их принадлежностью разным странам, а главное — их профессионализмом. Никто не проводит опрос мнений и симпатий пенсионерок и домохозяек для выбора фигуриста-победителя, хотя пенсионерки и домохозяйки являются основными потребителями продукта деятельности фигуристов. Так же некорректно опрашивать мнение студента при тестировании CMS, обосновывая тем, что студенты — потребители CMS.

Я не говорю о том, что на МНЕНИЯ людей легко влиять просто подбором нужных людей и нужной постановкой заданий, нужными условиями теста. А показания приборов при четкой постановке теста оспорить сложнее.

У CMS, как в разных видах спорта, есть легко измеряемые свойства, а есть достаточно абстрактные (например, оформление инсталлятора или дизайн иконок).

Как оценивать измеряемые качества CMS? Как в беге.
Просто измерять их с помощью приборов и метрик. Приборы – это айтрекеры, секундомеры и видеокамеры. Метрики – это время и другие затраты на выполнение задания при прочих равных условиях.

Как оценивать неизмеряемые качества CMS? Как в фигурном катании.
Опрашивать мнения нескольких признанных и независимых экспертов. Где взять экспертов — другой вопрос, об этом ниже.

Удобство измеряемо

Нам кажется удобным то, что нам привычно и неудобным непривычное. Это сильно искажает реальное представление об удобстве. Пушкину гусиное перо с чернилами, наверное, КАЗАЛОСЬ удобным инструментом работы с текстом. А покажи ему ноутбук с Word – он бы вряд ли признал его преимущества. Но если бы Пушкин потратил время и силы, освоил ноутбук, перо перестало бы казаться ему таким удобным инструментом.

Я абсолютно уверен, что удобство это не абстракция. И удобство CMS есть не относительный, а абсолютный (а, значит, измеряемый) параметр, если суметь оставить за скобками личные предпочтения и опыт людей.
Поэтому оценивать удобство надо не опросом мнений «удобно ли вам?», а с помощью измерений.

Измерять удобство CMS можно по времени на освоение CMS (время, затраченное на выполнение заданий при первом знакомстве), по времени и количестве действий (кликов) на выполнение отдельных use cases. Методологию исследований и юзкейсы должны разрабатывать юзабилисты.

В 90-е годы, когда мы еще не знали слов «юзабилити», «интерфейсы» и «CMS» у нас в универе преподавали предмет «Научная организация труда», где все эти принципы были сформулированы при проектировании рабочего места бухгалтера или пульта управления подъемным краном.

Ничего принципиально нового в методиках научной оценки удобства интерфейсов с тех пор не появилось. Просто появились приборы типа Eye-tracker, которые позволили оценивать удобство еще точнее, чем это делают профессиональные эксперты, не говоря уж о студентах. Кстати, я об этом опыте рассказывал на последнем User Experience. Но если нет айтракеров, можно обойтись и секундомером для измерений и видеокамерой для фиксации хода экспериментов.

Методология

Адекватный тест лидеров CMS — тот, чья методика и эксперты согласованы несколькими игроками рынка.
Как я это вижу:

1. В тесте должно быть 1-2 популярных опенсорсных систем и 2-3 популярных коммерческих

2. Тестируемые характеристики CMS тестируются по отдельности.
В каждом тесте нивелируется влияние внешних факторов на тестируемый параметр. То есть на измерения удобства или скорости не должно влиять качество настройки работы сервера и т.п. Все прочие факторы должны быть равными и адекватными требованиям каждой тестируемой платформы.

3. Целевые аудитории делятся на отдельные группы:

по ролям (разработчик сайта, контент-менеджер). Разработчиков можно нужно разделить на программистов и верстальщиков-кодеров.
по степени знакомства с системой (новичок, опытный пользователь). Чтобы оценивать отдельно скорость освоения системы и отдельно качества рутинного использования CMS опытным пользователем.
можно пойти еще глубже — по социально-демографическим признакам (гуманитарии и технари, молодые и пожилые, мужчины и женщины).

4. Каждый тестируемый выполняет какие-то действия, тестирующий на их основе получает ИЗМЕРЯЕМЫЙ результат. Все тесты организованы так, чтоб измерения не могли зависеть от мнения испытателя или испытуемого. Судьи (эксперты) производят анализ измерений для сведения итогов.

5. Мнения тестируемых учитываются только при оценке абстрактных характеристик, например, стиля оформления интерфейса. Неизмеряемых критериев должно быть немного, не более 20-30% от всех тестов.
Желательно для оценки абстрактных характеристик привлекать экспертов именно в этих областях.

Экономический эффект от использования платформы.

Любое технологическое достижение бесполезно, если оно не несет какого-то экономического эффекта. Любое качество CMS бесполезно, если оно не дает прироста производительности в разработке или эксплуатации сайта.

То есть все улучшения технических качеств CMS (производительности, удобства, цены, ...) проявляются либо в стоимости владения сайтом, либо в стоимости разработки сайта. И только с экономической точки зрения эти технические качества имеют ценность в глазах бизнеса.

Понятно, что методология исследования экономического эффекта от разных технических характеристик еще сложнее, чем просто технических характеристик. Но она реализуема.

Есть два основных предмета исследования экономического эффекта:
1. Совокупная стоимость владения сайтом в зависимости от CMS (в мире используется термин TCO, Total Cost of Ownership), где учитываются:

затраты на хостинг
затраты на поддержку и развитие сайта
затраты на дополнительные сайты (а также зеркала, языковые версии, шаблоны дизайнов, …)
затраты на обеспечение безопасности
затраты на обучение и мотивацию сотрудников
затраты на замену сотрудников
затраты рабочего времени на ежедневную работу с сайтом
качество поддержки и документации
и многое другое

2) Совокупная стоимость разработки сайта в зависимости от выбранной CMS, которую составляют:

затраты на обучение разработчика и контент-менеджера
требования к квалификации разработчика
доступность и стоимость разработчиков требуемой квалификации
трудоемкость выполнения типовых задач разработки
стандартизация кода и возможность безболезненной смены разработчика в процессе разработки проекта (без «все удалить и переделать заново»)
качество поддержки и документации
затраты на обучение сотрудников заказчика
и многое другое

А судьи кто?

Результаты тестов зависят от того, кто их организовал. Чтоб тестам верили, это должны быть авторитетные и нейтральные люди, не желающие что-то доказать ни себе, ни кому-то из тестируемых и не имеющие эмоциональной связи с результатами тестов.

Это вторая важная причина, по которой тест CMS от веб-студии, работающей на этой CMS, будет некорректен, особенно на фоне непрозрачной или неадекватной методики тестирования. Равно как тест от любого представителя рынка веб-разработок (все они имеют сложившиеся предпочтения CMS и деловые отношения с вендорами). Тестеры будут просто пытаться доказать себе и миру правильность своего выбора и своих предпочтений.

Мы уже видели как один лидер партнерки одной CMS независимо протестировал ее производительность, а лидер партнерки другой CMS сделал свой независимый рейтинг популярности CMS. Будь мы немного циничнее, кто-то из партнеров UMI тоже провел бы свое независимое исследование или сделал бы свой рейтинг.

Независимые исследователи должны еще и ГЛУБОКО разбираться и в методологии проведения экспериментов, и в веб-разработке вообще и в CMS в частности.
Где такие люди и компании? Есть ли они у нас? Может они есть на Хабре?
Мы готовы всячески поддержать их профессиональную работу вне зависимости от результатов их тестов.

Выводы

Адекватные тесты позволят клиентам и разработчикам делать более осознанный выбор CMS (оценивая не только рекламные обещания и известность бренда), а производителям CMS четче понимать свои сильные и слабые стороны.

В оформлении статьи использованы картины художника Николая Копейкина.

Теги:

Хабы:

Веб-разработка