
Дослідження стартапу Oumi виявило, що ІІ-помічник Google Gemini у щоденному режимі генерує мільйони фактичних помилок. За даними аналізу, кожна десятия відповідь містить неточності, а при масштабі Google у п'ять трильйонів запитів на рік це призводить до більш ніж 57 мільйонів невірних відповідей на годину або майже одного мільйона на хвилину.
Масштаб проблеми з точністю Gemini
Стартап Oumi провів тестування Google AI Overviews із використанням бенчмарку SimpleQA, що включає 4326 запитів. У жовтні 2025 року, коли для складних питань застосовувалася модель Gemini 2, точність становила 85 відсотків. У лютому 2026 року після оновлення Gemini 3 показник зріс до 91 відсотка. Таким чином, незважаючи на покращення, кожна десята відповідь, як і раніше, залишається помилковою.
При обсязі обробки близько п'яти трильйонів запитів щороку навіть така точність означає величезний потік неточної інформації. Користувачі отримують десятки мільйонів невірних відповідей на годину – це сотні тисяч помилок щохвилини.
Зростання розбіжностей із джерелами після оновлення
Хоча загальна точність Gemini зросла, після переходу на версію 3 ситуація з верифікацією погіршилася. Частка відповідей, де посилання на джерела в Інтернеті не повністю підтверджують інформацію, збільшилася з 37 до 56 відсотків. Це означає, що навіть за правильної відповіді користувачу складніше самостійно перевірити дані, оскільки надані посилання часто не відповідають заявленому змісту.
В автономному режимі Gemini 3 демонструє помилковість у 28 відсотках випадків за власними оцінками Google. Такі розбіжності наголошують на обмеження поточних моделей під час роботи без постійного доступу до актуальних даних.
Вразливість ІІ до маніпуляцій
ІІ-помічники, включаючи Gemini, легко піддаються зовнішньому впливу. Журналіст BBC Томас Джермен (Thomas Germain) у лютому 2026 року створив фейковий блог із свідомо неправдивою інформацією про вигаданий чемпіонат з поїдання хот-догів серед технічних журналістів. Вже через добу після публікації Google Gemini та AI Overviews почали використовувати цей матеріал як достовірне джерело, повторюючи помилкові твердження у відповідях користувачам. Експеримент продемонстрував, наскільки швидко одиночний фейковий сайт може вплинути на створення відповідей мільйонів користувачів. Оригінальний матеріал доступний на bbc.com.
Аналогічні ризики наголошують і на інших експертах: опублікована в інтернеті помилкова інформація швидко проникає в бази знань моделей і поширюється далі.
Офіційна позиція Google та Microsoft
В умовах використання Google прямо вказано, що Gemini може видавати неточну або недоречну інформацію, у тому числі про людей, тому відповіді необхідно перевіряти ще раз. Компанія рекомендує завжди звіряти важливі дані у кількох джерелах. Текст попередження можна отримати на офіційній сторінці підтримки: support.google.com.
Аналогічне застереження міститься в документації Microsoft: відповіді генеративного ІІ не гарантують стовідсоткову фактичну точність, і користувачам рекомендується самостійно верифікувати інформацію перед застосуванням.
Що це означає для користувачів
При повсякденному використанні пошукових систем із ІІ-зведеннями важливо зберігати критичний підхід. Навіть при поліпшенні точності з 85% до 91% масштаб помилок залишається значним через величезну кількість запитів. Розбіжності між відповідями та джерелами лише ускладнюють самостійну перевірку.
Стартап Oumi спеціалізується на інструментах для оцінки та верифікації моделей ІІ, що робить їх аналіз особливо релевантним для розуміння реальних обмежень Gemini. Хоча Google продовжує вдосконалювати свої моделі, поточні дані показують, що повної надійності ще не досягнуто.
Ви як користувач повинні активно перевіряти ще раз ключову інформацію — від медичних порад до фінансових даних. Це особливо важливо в умовах, коли одне фейкове джерело здатне вплинути на відповіді мільйонів людей за лічені години.
Думка ІІ
Перехід від Gemini 2 до Gemini 3 продемонстрував зростання точності, однак одночасно посилив проблему з прив'язкою відповідей до реальних джерел. Подальші оновлення моделей, ймовірно, будуть зосереджені на зниженні фактичних помилок, так і випадків, коли посилання не підтверджують зміст.
Поки що відповідальність за верифікацію лежить на користувачах. Регулярна перевірка відповідей ІІ у кількох незалежних джерелах залишається найкращою практикою в епоху генеративних моделей.
