Ілля Кононов. Математика як знаряддя маніпуляцій в сучасному суспільстві

Опубликовано: 8.04.2020. 22:02

Луганський національний університет имені Тараса Шевченка

Кафедра філософії та соціології

Проект: Популяризація науки

Ілля Кононов, доктор соціологічних наук, професор, завідувач кафедри філософії та соціології Луганського національного університету імені Тараса Шевченка (м. Старобільськ).

МАТЕМАТИКА ЯК ЗНАРЯДДЯ МАНІПУЛЯЦІЙ В СУЧАСНОМУ СУСПІЛЬСТВІ

(Рецензія на книгу: Кейт О’Ніл. Big Data. Зброя математичного знищення. Як великі дані збільшують нерівність і загрожують демократії / Переклад з англ.. О. Калініної. Київ: Форс Україна, 2020. 336 с.)

Про великі дані (Big Data) зараз пишуть багато.

Можна навіть сказати, що в справі отримання інформації про соціальні процеси великі дані якісно змінили ситуацію, перетворившись на виклик для соціології та соціальної статистики.

Варто зазначити, що самі ці дані стосуються не лише наук про суспільство, а і наук про природу, а також суспільної практики. В природничих науках великі дані використовувалися при розшифруванні геному людини, взагалі використовуються при роботі з генетичною інформацією, в популяційній генетиці, в епідеміології, в кліматології та ін. Далі зосередимося на великих даних, які використовуються суспільними науками і суспільною практикою.

Щоб не повертатися до цього, відразу скажемо про випадковість походження самого терміну «Big Data».

Пошлюсь на пояснення М. С. Васяніна: «Вважається, що термін «Big Data» вперше використав головний науковий співробітник компанії «Silicon Graphics Inc.» Джон Мешн на конференції USENIX Association в 1998 р., але інтерес до даного поняття різко підвищився тільки після публікації в журналі «Nature» у вересні 2008 р., де обговорювалися проблеми, викликані зростання обсягу даних, що були отримані в процесі проведення сучасних наукових експериментів» (Васянин, 2015: 18). Правда, інші дослідники знаходять і більш ранні згадування цього терміну. Так, О. М. Кислова пише, що вперше термін «великі дані» був застосований у 1997 р. Майклом Коксом і Девідом Еллсвортом для позначення даних, яким бракує ємності комп’ютерної пам’яті для виконання певних операцій з їхньої обробки (Кислова, 2019: 60).

Назва типу даних і дослідницького поля, що виникло разом з ним, відразу наразилася на критику. Спеціалісти твердили, що «…дані не бувають «великими» (big), а бувають лише «довгими» (long) і «широкими» (wide). «Довжина» даних визначається кількістю доступних для аналізу спостережень конкретного фактору. «Ширина» ж даних говорить про кількість функціональних залежностей, які існують між різними факторами» (Васянин, 2015: 19). Але, як це часто трапляється, закріпилася назва, яка не найкраще відображає сутність явища, яке позначає.

Саме явище великих даних завдячує своїй появі розвитку комп’ютерної техніки і пов’язаних з нею засобів спостереження та фіксації соціальних процесів. Завдяки ІТ – інфраструктурі стало можливим фіксувати електронні сліди діяльності людей, зберігати величезні обсяги інформації, обробляти ці масиви даних, аналізувати їх і отримувати нове знання. О. М. Кислова відмічає: «Наші повсякденні дії та взаємодії безперервно створюють машиночитані інформаційні масиви, які прийнято називати «великими даними». Датчики є всюди: всі рухи, дії, транзакції не можуть відбутися, не залишивши десь цифрові сліди. Активність у соціальних мережах, пошукові запити та покупки в інтернеті, оцифровані бібліотеки та архіви, навіть керування розумним телевізором зараз перетворюються на «великі дані», які збираються, накопичуються та можуть бути проаналізовані» (Кислова, 2019: 60).

Великі дані все ширше і глибше пронизують суспільне життя разом з експансією ІТ -технологій. Тому у вчених є підстави для висновку про них, як про «відображення в інформаційних системах різних сфер життєдіяльності соціуму з врахуванням впливу ІТ – технологій на соціум (фактично, це відображення впливу ІТ – технологій на соціум в ІТ – системах)» (Колисниченко, Смородин, 2015: 28).

Потужний вплив великі дані мали на соціологію. Якщо до цього часу соціологи емпірично вивчали суспільство, орієнтуючись на закон великих чисел, а отже, проводячи вибіркові дослідження, то тепер з’явилася надія на дослідження процесів в обсязі всього суспільства в реальному часі. В науку повернулося сподівання на універсальний індуктивізм: «Раніше у інституту науки не існувало достатніх потужностей для реєстрації і обробки даних, необхідних для здійснення гносеологічно виправданої індукції (принаймні, в ідеалі, закладеному Ф. Беконом)» (Одинцов, 2017: 40). Це пов’язано з тим, що «…ця форма організації спостереження і аналізу має дві переваги – оперуванням популяціями, а не вибірками (n = All) і автоматизованою реєстрацією поведінки, а не опосередкованої опитувальним інструментарієм опінії» (Одинцов, 2017: 32). Як наслідок «…Big Data стали одним із факторів, що похитнули легітимність опитувальних методик, як домінуючих у вивченні соціальної реальності» (Одинцов, 2017: 32).

Варто наголосити на тому, що великі дані змінили не лише методи отримання первинної соціологічної інформації. Відбулося дещо більше: змінилася сама логіка дослідження. До цього часу методологічний розділ програми емпіричного соціологічного дослідження, виглядав наступним чином: 1) формулювання проблеми, визначення об’єкту і предмету дослідження; 2) визначення мети і постановка завдань дослідження; 3) уточнення і інтерпретація основних понять; 4) попередній систематичний аналіз об’єкта дослідження; 5) розгортання робочих гіпотез. З цього виводився процедурний розділ програми: 1) стратегічний план дослідження; 2) обґрунтування системи вибірки одиниць спостереження; 3) визначення основних процедур збору і аналізу первинних даних (Ядов, 2003: 70). Гіпотези орієнтували дослідження, в ході якого і перевірялися. Великі дані передбачають іншу методику, адже вони створюються незалежно від будь-якої мети дослідника і від будь-яких гіпотез. Тому, отримавши доступ до даних, дослідник повинен зрозуміти і описати для себе механізми їх збору. Вже після цього проводиться інтерпретація змінних і вже потім висуваються гіпотези, які і перевіряються в ході аналізу готових даних (Волков, Скугарский, Титаев, 2016: 59). В англомовній літературі робота з великими даними описується за допомогою термінів Data Mining та Big Data Analytics. Перший термін в прямому сенсі – «видобуток даних». Спеціалісти його визначають наступним чином: «Сутність і мета технології Data Mining полягає у вилученні з великих обсягів даних неочевидних, об’єктивних і корисних на практиці закономірностей» (Мосягин, 2015: 40). «Добування даних» - передумова їх аналізу. «Можна сказати, Big Data Analytics – це поєднання онлайнових даних (цифрових слідів), технологій доступу до них та інтелектуального аналізу даних» (Кислова, 2019: 62). О. Б. Мосягін пише: «Data Mining не може замінити аналітика, а всього лише дає йому потужний інструмент для полегшення і покращення роботи. <…> Тому робота з такими засобами потребує тісного співробітництва між експертом в предметній царині і спеціалістом по інструментам Data Mining» (Мосягин, 2015: 40).

Великі дані можуть викликати розпач у тих, хто визначав соціологію через методи, з допомогою яких вона отримувала інформацію про стан суспільства. На нашу думку, навпаки, соціологія має можливість повернутися до свого покликання – створення великої теорії суспільства. Саме від наявності такої теорії залежить можливість аналізу і інтерпретації великих даних.

Побіжно зауважимо, що великі дані вимагають інакше вчити майбутніх соціологів. Їх треба формувати більшою мірою як теоретиків. При цьому вони повинні вільно володіти мовою математики.

Для соціології великі дані – не лише новий спосіб отримати первинну інформацію про суспільне життя. Вони самі – частина цього життя. Великі дані створюються в процесі сучасної соціальної практики. Тому потрібно аналізувати їх соціальну роль. Саме цьому і присвячена книжка Кейт О’Ніл.

Авторка книжки «Big Data. Зброя математичного знищення» за освітою математик. За своє життя викладала в університеті, працювала в гедж-фонді, співпрацювала з різними стартапами, вела блог Meth-Babe, де критикувала те, що сам назвала «зброєю математичного знищення» (ЗМЗ). Блог є актуальним і зараз. Таким чином, її досвід включає і фундаментальний науковий аналіз великих даних і прикладну роботу з ними.

Для Кейт О’Ніл переломними моментами в формуванні її позиції стали такі події як світова криза 2008 р. і протестний рух «Захопи Волл-стрит» 2011 р. Про події 2008 р. вона пише: «Ця криза доволі чітко показала, що математика, як мій прихисток, не тільки глибоко проникнула в проблеми світу, а й також підживлювала багато з них» (с. 18).

Вже у вступі Кейт О’Ніл формулює основну тезу свого дослідження: «Застосунки, які створили на основі математики і які продукували економіку даних, виникли з огляду на вибір ненадійних людських істот. Деякі з таких рішень робили, безсумнівно, з найліпшими помислами. Попри це багато з таких варіантів зашифрували людську упередженість, непорозуміння і забобонність у програмне забезпечення, яке почало поступово керувати нашим життям. Наче боги, ці математичні моделі були невизначеними, їхня робота була невидимою для всіх, але були й утаємниченіші жерці у цій справі – математики і розробники. Їхні вердикти, навіть якщо вони помилкові чи шкідливі, були безапеляційними й беззаперечними. І вони зазвичай карали бідних і пригнічених у нашому суспільстві, продовжуючи робити багатих іще багатшими» (с. 20).

В науковій літературі вже відмічалося, що великі дані (ВД) продукують нові нерівності в суспільстві. Так, Є. В. Карчагін відмічав, що «…існуюча екосистема навколо ВД створює новий вид цифрового розриву: на багатих і бідних в сфері ВД» (Карчагин, 2015). Американська дослідниця, аналізуючи вплив ВД на освітню систему показує, що виникає значно суттєвіший розрив: «…Найпривілейованіші орієнтуються на конкретних людей, а машини – на маси» (с.27).

Освітня система США під кутом зору впливу індустрії ВД постійно знаходиться в центрі уваги авторки книги. Спочатку вона зупиняється на конкретних долях сумлінних вчителів, які виявилися звільненими в результаті оцінок машинних програм. В програму був закладений параметр підвищення рівня знань учнів. Сумлінні вчителі зіткнулися з тим фактом, що на попередніх етапах навчання учням завищували оцінки. Коли вони показували реальні рівні їх знань, то це призводило до того, що їх просто звільняли. Програми оцінок, побудовані на основі ВД, стали джерелом шахрайських дій. До 70% класів потрапили під підозру в шахрайстві (с. 28).

В сучасному світі, де вища освіта значно комерціоналізувалася і перетворилася на великий бізнес, суттєву роль відіграють рейтинги університетів. В залежності від місця університету в рейтингах визначається плата за навчання в ньому. В деяких країнах від відповідного місця в рейтингах залежить державне фінансування закладу. Кейт О’Ніл пише: «Поки люди грають системою, індикатори втрачають свою ефективність. А шахраїв заносить на ліпші позиції» (с. 90).

Авторка підкреслює, що проблема не в тому, що рейтинги шкідливі. Вони можуть бути і корисними, якщо при їх здійсненні існує зворотній зв'язок, а сама система оцінювання є прозорою. Але всі комерційні організації, які створюють відповідні рейтинги, діють не прозоро. «Тому проблема полягала не в самій моделі рейтингів, а в її шкалі вимірів. Вона змушувала всіх діяти винятково за однаковими показниками, які перетворюють оцінки університетів на «щурячі перегони», що зазвичай мають дуже шкідливі й небезпечні наслідки» (с. 94). Рейтинги послужили не лише тому, що майже всі університети почали приділяти увагу таким видам діяльності, як свої спортивні команди та ін., які в принципі не мають стосунку до їх суспільної місії. Рейтинги дозволили підняти ціни. В США впродовж 1985 – 2013 рр. вартість навчання зросла на понад 500%, учетверо обігнавши рівень інфляції (с. 97). Навколо університетів виникла ціла індустрія репетиторства, тренувальних таборів та ін. Найбільшу вигоду з усього цього мали банки, які дають кредити на навчання. Уся бурхлива діяльність зорієнтована на те, щоб «догодити величезній машині, вдовольнити монстра під назвою ЗМЗ. І наприкінці випробування чимало учасників уже були обтяжені шаленими боргами, на погашення яких підуть десятиліття. Вони були лише пішаками у гонитві озброєнь, і це особливо неприємно усвідомлювати» (с. 104).

Кейт О’Ніл протягом усього дослідження підкреслює думку, що «моделі, попри їхню репутацію неупередженості, відображають цілі й ідеології» (с. 44). Вона це демонструє на прикладі американської правоохоронної системи. В США потужна система тюрем: американські в’язні становлять 25% від усіх ув’язнених світу (на 2020 р. у в’язницях цієї країни перебували 2 121 600 чол.). На утримання в’язниць витрачається щорічно близько 70 млрд. дол. платників податків (с. 54). «Відповідно до Американської спілки захисту громадянських свобод, вироків, накладених на чорношкірих людей, у федеральній системі майже на 20% більше, ніж для білих засуджених за такими самими злочинами. І нехай вони становлять лише 13% всього населення, афроамериканці становлять 40% усіх засуджених в США» (с. 48). Мабуть, певну роль у цьому відіграли особливості соціального становища афроамериканців. Але дослідниця бачить в цьому і роль стереотипів, які закладаються у відповідні програми. Моделі сприяють виникнення токсичних циклів рецидивної злочинності (с. 51).

Авторка книжки «Big Data. Зброя математичного знищення» розглядає опитувальник РОРП (Рівень обслуговування реєстрації переглядів). Вона показує, що для бідних і кольорових в’язнів цей опитувальник стає інструментом їх стигматизації. Скажімо, для оцінки можливості рецидивів, там є запитання про соціальне середовище ув’язнених. Зрозуміло, що вже вони ставлять їх у невигідне становище, адже бідні і кольорові у своєму соціальному середовищі частіше стикаються зі злочинцями.

Математичні моделі, які створюються для поліції, мають дискримінаційні ознаки стосовно бідних і кольорових громадян США. Скажімо, в Нью-Йорку поліція проводить політику профілактики злочинності методом превентивних арештів. Авторка пише, що за минуле десятиліття кількість превентивних арештів зросла на 600% (700 тис. інцидентів на рік). «Те, що ми знайшли, не шокувало нас, а підтвердило наші здогадки: понад 85% затриманих поліцією молодиків були афроамериканцями чи латиноамериканцями. У деяких кварталах їх затримували буквально миттєво, щойно вони виходили з дому. Лише 0,1%, чи один із тисячі затриманих, був причетним до вчинення якогось серйозного злочину» (с. 142 – 143). Бідні і кольорові громадяни розглядаються як потенційні злочинці. «Як наслідок, з’являється масивна, величезна машина несправедливості» (с. 146).

ВД використовуються у всіх сферах суспільного життя. Скажімо, при прийомі на роботу, аналізуються різноманітні особисті дані претендентів, включаючи дані про психічне здоров’я. «Людям з певними проблемами психічного здоров’я, яких помітили червоним кольором, не дають можливості мати нормальну роботу та нормальне життя, в подальшому ізолюючи їх» (с. 169).

При прийомі на роботу 72% резюме відкидається комп’ютерними програмами і не потрапляють до розгляду (с. 170). Вас можуть відкинути через індекс вашого поштового відділення, адже він свідчить, що в вашому кварталі живуть переважно бідні. Авторка книги порівнює використання ВД корпораціями з френологією (с. 181). Але на відміну від цієї псевдонауки, використання ВД переслідує мету отримання максимального прибутку. «Модель оптимізує ефективність і прибутки, а не справедливість чи блага для всіх» (с. 191).

В США кредити для різних груп людей можуть видаватися під різні проценти. Це залежить від їх кредитних історій, які стають дуже важливими у життєвих траєкторіях індивідів. Погана кредитна історія часто стає вироком долі. Але банки оцінюють не лише сплати за кредитами чи частоту звернення за грошима. Їх цікавить все, що стосується поведінки клієнтів, актуальних і потенційних. Авторка наводить слова з веб-сторінки компанії Мерілл: «Всі дані є кредитними даними» (с. 229).

Приватність як така зникає із життя людей. При цьому від приватності здійснюються легкий перехід до масової поведінки, як і навпаки. «Страхові компанії ретельно вивчають моделі нашого життя та наших тіл, і це дає їм можливість розділити нас на нові групи «племен». Та ці дані не збиратимуть у традиційний спосіб, де будуть такі речі, як вік, стать, чистий прибуток чи поштовий індекс. Натомість вони вивчатимуть нашу поведінку як племен, які повністю згенеровані алгоритмами машин» (с. 246). Одним з таких способів збирання даних про масову поведінку – слідкування за рухом мобільних телефонів, як за пересуванням точок на мапі. Потім ці точки об’єднуються в «племена» за типами переміщень. В цьому сенсі дані можуть використовуватися для вироблення засобів маніпулювання масовою, а не індивідуальною поведінкою.

Для того, щоб протидіяти маніпулятивним впливам, людям потрібна надійна інформація. Але ВД використовуються для того, щоб фільтрувати інформацію, яка потрапить до споживачів. Зараз універсальною медіа-рамкою для значних мас людей є соціальні мережі. Люди ставляться до них як до газет, але в соцмережах кожний отримує свою інформацію. Дослідниця пише про інформаційні маніпуляції на Facebook: «Ця платформа масивна, потужна і непрозора. Алгоритми приховані від нас, і ми бачимо лише результати експериментів, які дослідники вирішили опублікувати» (с. 263). Ці слова стосуються і Google.

ВД переважно використовуються в маркетингових цілях. При цьому маркетинг набуває особливо цинічних форм. Кейт О’Ніл розглядає діяльність сайту FindFamilyResources. Він збирає дані тих, хто шукає продовольчі талони. Вона пише: «Той факт, що люди передусім потребують продовольчих талонів, відображає провал ринкової економіки. Уряд, використовуючи податкові кошти, намагається компенсувати це з надією, що отримувачі продовольчих талонів зрештою матимуть змогу повністю себе підтримувати. Проте лідогенератори підштовхують їх убік непотрібних операцій, залишаючи чимало з них із більшим дефіцитом і навіть залежнішими від громадянської допомоги. Допоки ЗМЗ приносить дохід для пошукових систем, лідогенератори і маркетологи – це п’явка всієї економіки» (с. 292).

Особливу тривогу викликає політичний маркетинг: «Зближення великих даних і споживчого маркетингу наразі забезпечує політиків набагато потужнішими інструментами. Вони можуть націлюватися на мікрогрупи громадян і за голосами, і за грошима, та апелювати до кожного з них досконало відточеним повідомленням, одним із таких, яке, найімовірніше, ніхто більше не бачив. Це може бути банер у Facebook або електронний лист про збір коштів. Проте кожен дає можливість кандидатам спокійно продавати множинність версій самих себе - – можна лише здогадуватися, яка версія з’явиться для роботи після інавгурації» (с. 268).

З країн центру світової капіталістичної системи способи маніпулятивного управління поведінкою людей, засновані на використанні ВД, розповсюджуються по усьому світі. В Китаї запроваджено систему соціального рейтингу: «Алгоритм обчислення рейтингу повністю не розкривається, але оприлюднено 5 головних факторів, що впливають на рейтинг: 1) кредитна історія; 2) здатність виконувати взяті на себе зобов’язання; 3) верифіковані особисті дані, наприклад, адреса чи номер мобільного телефону; 4) особисті переваги та поведінка; 5) стосунки між громадянами» (Кислова, 2019: 64). Нинішня пандемія коронавірусу ще більше підштовхне до тотального контролю над громадянами з боку урядів, але і не тільки урядів. В засобах маніпуляцій і контролю зацікавлені транснаціональні корпорації, різноманітні організації, включно з міжнародними, злочинні структури. Великі данні все більше будуть перетворюватися на простір боротьби за владу і збагачення.

Що робити у цій ситуації? Як протистояти маніпуляціям? У авторки книги немає чітких відповідей на ці запитання. З одного боку, вона покладається на етичні регулятори: «Як і лікарі, вчені з даних мусять складати клятву Гіппократа, ту, яка зосереджується на можливостях зловживання і неправильному трактуванні своїх моделей» (с. 290). З другого боку, вона дає рекомендацію спеціалістам з даних, щоб вони створювали моделі обов’язково зі зворотними зв’язками. «Лише коли ми маємо екосистему з позитивними зворотними циклами, то можемо очікувати поліпшення навчання використання даних. Доти це лише покарання» (с. 295).

Рекомендації вірні, але вони нічого не змінять у використанні ВД, поки це буде давати можновладцям владу і прибуток. Проблеми виникли в межах неоліберальної моделі розвитку і можуть бути вирішені лише з відходом від неї.

І наостанок нажаль про неприємне. Видавництво дуже неякісно підготувало книжку. Переклад інколи просто жахливий. Виникає враження, що це – машинний текст, який людиною навіть не редагувався. Зустрічаються орфографічні помилки і неузгодженості між словами. Це особливо прикро, враховуючи корисність самої книжки не лише для науковців, але і для широкої громадськості.

Додаткова література

Васянин М. С. Взаимодействие социологии и больших данных // V социологическая Грушинская конференция «Большая социология: расширение пространства данных». 12-13 марта 2015 г. М., 2015. URL https://publications.hse.ru/mirror/pubs/share/folder/bdq8w1gpp4/direct/153608700

Волков В. В., Скугарский Д. А., Титаев К. Д. Проблемы и перспективы исследований на основе Big Data (на примере социологии права) // Социологические исследования. 2016. №1. С. 48 – 58.

Карчагин Е. В. Эпистемология и эвристические возможности Big Data // Концепт. Научно-методический электронный журнал. 2015. №12. URL http://e-koncept.ru/2015/15437.htm

Кислова О. М. Великі дані в контексті дослідження проблем сучасного суспільства // Вісник Харківського національного університету імені В. Н. Каразіна. Серія «Соціологічні дослідження сучасного суспільства: методологія, теорія, методи». 2019. Вип. 42. С. 59 – 68.

Колисниченко О. Ю., Смородин Г. Н. Большие данные: социальные вызовы // V социологическая Грушинская конференция «Большая социология: расширение пространства данных». 12-13 марта 2015 г. М., 2015. URL https://publications.hse.ru/mirror/pubs/share/folder/bdq8w1gpp4/direct/153608700

Мосягин А. Б. Использование методологии Data Mining при решении задач обработки социальных данных // V социологическая Грушинская конференция «Большая социология: расширение пространства данных». 12-13 марта 2015 г. М., 2015. URL https://publications.hse.ru/mirror/pubs/share/folder/bdq8w1gpp4/direct/153608700

Одинцов А. В. Социология общественного мнения и вызов Big Data // Мониторинг общественного мнения: Экономические и социальные перемены. 2017. №3. С. 30-43.

Ядов В. А. Стратегия социологического исследования. Описание, объяснение, понимание социальной реальности. 7-е изд. М.: Добросвет, 2003. 596 с.