" Яндекс.Метрика
» » Почему сложные системы дают сбои?

Авторские статьи

Почему сложные системы дают сбои?

Почему сложные системы дают сбои?

В своей книге Крис Клирфилд (Chris Clearfield), соучредитель System Logic, и Андраш Тилчик (Andrs Tilcsik), представитель Школы менеджмента Rotman, анализируют ряд разнотипных инцидентов - от испорченного ужина в День благодарения и скандала вокруг загрязнения питьевой воды свинцом в городе Флинт (Мичиган) до неоднократных утечек радиации на Фукусимской АЭС (Япония). Худшим в этом является то, что, как утверждают авторы, эти беды можно было предотвратить. Все неприятности, описанные в «Meltdown», имеют признаки, которые впервые идентифицировал социолог Чарльз Перроу (Charles Perrow). Перроу получил славу «знатока катастроф» благодаря своим культовым исследованиям риска, присущего сложным промышленным системам (первым из которых стало изучение обстоятельств аварии на АЭС Три-Майл-Айленд, случившейся в 1979 году). «Согласно Перроу, инцидент был не чрезвычайным событием, а базовой характеристикой атомной электростанции как системы», - пишут Клирфилд и Тилчик. Каждая из проанализированных в книге систем является очень сложным, нелинейным образованием, части которого тесно связаны между собой и иногда взаимодействуют неявным способом. Поэтому сбой в одной ее части быстро, а часто и неожиданно, влияет на функционирование других. Так, 18 мая 2012 года Nasdaq планировала провести торги по первичному размещению акций Facebook. К моменту открытия аукциона поступило сотни тысяч заявок на совокупную сумму в $3 млрд. Но в 11:05, когда был дан старт торгам, ничего не произошло. Через несколько минут программисты выяснили, что причина заключалась в ошибке, которую обнаружила система проверки корректности работы, установленная несколько лет назад. Несмотря на это, под давлением один из руководителей дал распоряжение изъять программу и двигаться дальше. «Но система Nasdaq была невероятно сложной и такой поворот событий вызвал ряд непредвиденных сбоев», - отмечают авторы. Одни заявки игнорировались, выполнение других затягивалось на часы. Не имея юридического права это делать, Nasdaq сама продала акции Facebook на сумму $125 млн. Убытки трейдеров составляли сотни миллионов долларов.

В современном мире появляется все больше сложных систем с глубоко синхронизированными элементами (в частности, платформы социальных медиа, компьютеризированные трейдинговые программы, глубоководные буровые установки и ATM), функционирование которых несет в себе все возрастающий риск. По словам авторов, «сложность и взаимосвязанность делает эти сбои более вероятными и последовательными, но ни наш мозг, ни организации не приспособлены к тому, чтобы справиться с системами этого типа». Также Клирфилд и Тилчик обращают внимание на то, что добавление функций защиты (например, дублирование или сигнализация) углубляет сложность системы, что только увеличивает вероятность ее краха. Иллюстрируя этот тезис, они пишут: «В ходе исследования использования кнопок вызова в пяти отделениях интенсивной терапии только за один месяц было зафиксировано 2,5 млн. ложных сигналов и 400 тыс. случаев, когда устройства просто подавали какой-то звук. Это означает поступление почти одного вызова в секунду и чего-то похожего на звуковой сигнал каждые восемь минут. То есть около 90% вызовов оказались ложными. А если вы раз в восемь минут будете кричать: "Пожар! Пожар!" - на вас просто перестанут обращать внимание. Еще хуже то, что непрерывное поступление сигналов тревоги приводит к неспособности различать важное и малозначительное. И когда происходит что-то по-настоящему серьезное, на это могут не обратить внимание».

Но все же, как предотвратить крах?

Один из наборов решений, которые предлагаются в книге, вращаются вокруг дизайна. Во-первых, нужно понять, является ли система уязвимой из-за сложности и взаимосвязанности, а затем уменьшить степень выраженности этих факторов. Авторы обращаются к примеру Boeing. Эта компания предотвращает снижение чувствительности пилотов к восприятию сигналов опасности, распределяя их по уровням. Самый высокий уровень тревоги касается ситуации сваливания (резкого падения подъемной силы), которая требует немедленного реагирования. Включается красный световой сигнал, на экране появляется красное текстовое сообщение, штурвальные колонки начинают вибрировать. Еще один набор рекомендаций касается фактора многообразия. Клирфилд и Тилчик приводят пример известной технологической компании, которая потерпела громкий провал, замечая, что «состав ее совета директоров поражал своей гомогенностью». Исследования показывают, что в группах этого типа с меньшей вероятностью утверждается доверие, как правило, их члены не любят оспаривать мыслей своих коллег, а также проявляют склонность соглашаться с неправильными ответами. Среди других моментов, на которых останавливаются авторы, - способы выявления системных просчетов и извлечение из этого выводов. Также Клирфилд и Тилчик советуют поощрять проявление несогласия и приглашать внешних специалистов для более всестороннего анализа проблемы. Но, наверное, самой важной рекомендацией является «нормализация отклонения» или переосмысление риска, который несет в себе система, и восприятие его как приемлемого.




Похожие новости

Я хотел бы ветром быть и над землей лететь, к солнцу в снегах..
Дорога в облака
гр. "Браво"

Журналисты

Цитата

Люди научились плавать как рыбы, летать как птицы. Осталось научиться жить как люди...

Джордж Бернард Шоу