1 Поточний стан проекту
✓ Транскрипція + Review готовіТранскрипція
✓ Завершено
Gemini 3.1 Pro Preview
Review слів
✓ 97 / 97
Усі питання уточнено
Наступне
⌛ Протокол + ТЗ
Чекає твоє «йдемо»
📄 Протокол № 1 від 21.05.2026
0 правок
📋 ТЗ — Living Spec (робочий формат)
0 правок
📝 ТЗ — формат для Word (для коригування перед export)
0 правок
2 Замовник: профіль компанії
Повна назва
ТОВ НВП з ІІ «Укртрубоізол»
ЄДРПОУ
31017014
Засновано
27.08.2000
Адреса
Дніпропетровська обл., Нікополь, вул. Патріотів України, 169
Сайт
Сфера
Повний цикл виробництва: сталеві і поліетиленові труби + антикорозійна ізоляція
Позиція ринку
1-ше місце в Україні з ізоляції труб; найбільший виробник великого діаметру (426–1422 мм) longitudinal SAW
3 Учасники зустрічі (4 основних + 1 епізодичний)
верифіковано тобоюЗ боку Виконавця (SoftInform)
- Юрій Валентинович Магера — керівник проекту, директор SoftInform
- Аня — аналітик-консультант
З боку Замовника (Укртрубоізол)
- Наталя Вікторівна — фінансовий директор
- Таня — аналітик-консультант
Згадані треті особи (НЕ присутні на зустрічі)
Олена (у транскрипті часто «Лєна»/«Лєні»/«Лена» — 4 текстові заміни; вона працює з документами «Звіт за зміну»),
Лариса (звільняється),
Марина/Маріна,
Настя (показники створювала раніше),
Вася (як приклад робітника на дільниці)
Примітка: «Валентинівна» у файлі C (#92) — це помилка моделі, насправді те саме «Валентинович» (по-батькові Юрія). Не друга особа.
4 Ключові факти і вимоги з зустрічі
Об'єкт обліку
Лист (стальний лист, з якого роблять трубу) — основна одиниця обліку, а НЕ окрема готова труба.
Уже працює
Прийомка → передача листа в комору через сканування ШК (підтверджено: «На сьогоднішній день працює»).
Замовник хоче розширити
- Робітник на дільниці бере лист → сканує ШК → автоматично формується документ «передача матеріалів» з заповненими полями (дата, склад, тощо)
- Базова дільниця для першого впровадження: фрезерування (потім плазмовий різ, призолювання…)
- Існуючий документ «Звіт за зміну» — Олена робить випуск через нього → інтегрувати з мобільним sccaning
- Кінцева точка обліку — ОТК (присвоює партію/серію готовій трубі, прив'язує до 2 листів)
Архітектура (рішення Виконавця)
- Окремий Android-додаток (бо камера телефону не сприймається BAS як сканер ШК)
- Обмін з BAS через API (не онлайн на старті; синхронізація — за командою)
- Авторизація: прив'язка робітника до дільниці (Вася→дільниця 5; може мінятись по дням)
Згадано як приклад UX
ZernoTrader — мобільний додаток від Latifundist екосистеми (агроринок). Працює офлайн, синхронізація — за командою. Згадка про «помилки виду "Значение не является..."» — те, що Замовник хоче уникнути.
Згаданий контрагент
ПМК 77 (Пересувна механізована колона №77) — контрагент за яким є нез'ясовані витрати у звітах за 2 млн грн (тема не для цієї зустрічі, але згадка є).
5 Глосарій post-processing (буде застосовано до протоколу і ТЗ)
Абревіатури
ГІРПІ / і-ар-пі
→ ERP
БАС
→ BAS
АРІ
→ API
ТВД
→ ТВД (Труби великого діаметру)
ТБД
→ ТБД (рос. Трубы большого диаметра)
ТЗ
→ ТЗ (Технічне завдання)
OTK
→ ОТК (отдел технического контроля)
ТМЦ
→ ТМЦ (товарно-матеріальні цінності)
ДСТО
→ ДСТУ (виправлення моделі)
ПМК
→ ПМК (Пересувна механізована колона)
ГТДшка
→ ВМД
Андроїд / Андроїді
→ Android
Імена — заміни
Лєні / Лєна / Лена
→ Олена (4 згадки)
Ань
→ Ані
Видалити фрагменти
- «Костя запропонував…» — невпізнане ім'я
- «питання до Фібу, наскільки Тоді ладно…» — шум моделі
6 План роботи
- ✓Підготувати інфраструктуру проекту (CONTEXT.md, projects_list)
- ✓Підтвердити: 3 фрагменти однієї зустрічі
- ✓Тест моделей STT: Local large-v3 / OpenAI gpt-4o-transcribe-diarize / Deepgram Nova-3 / Gemini 3.1 Pro Preview → переможець Gemini 3.1 Pro
- ✓Транскрипція через Gemini 3.1 Pro (structured JSON, thinkingLevel=high, 4 хв на все)
- ✓Review-сторінка з 97 нумерованими питаннями + textarea під кожним
- ✓Користувач відповів на всі 97 → глосарій post-processing зведено
- ✓Очистка системи: видалено whisper, faster-whisper, OpenAI Whisper, Deepgram, py-spy + 54 файли
- ⌛Згенерувати чистий транскрипт з застосованим глосарієм
- ○Скласти протокол №1 від 21.05.2026 (формат клієнта
№1_21.05.2026.docxз реальною метадатою) - ○Точковий ресерч за озвученими темами (Android scanner libs, BAS API маршрутних листів, ZernoTrader-style UX)
- ○Скласти ТЗ за стандартами BAS
- ○Узгодити ТЗ з замовником (наступна зустріч)
7 Тест моделей STT (детально)
Gemini 3.1 переможець| Модель | Час обробки | Спікери | UK/RU/суржик | Вердикт |
|---|---|---|---|---|
| Local faster-whisper large-v3 | 5+ год | не визначає | OK з втратами | занадто повільно |
| OpenAI gpt-4o-transcribe-diarize | 7.8 хв | 6 (з artifact'ами) | OK | 1400 сек ліміт, дроблення overlap |
| Deepgram Nova-3 | 36 сек | 5 (з 1 фейковим) | OK | артефактний 5-й спікер |
| Gemini 3.1 Pro Preview | ~4 хв | 4 (правильно) | чудово з language-tag (uk/ru/mixed) | обрано |
Параметри Gemini 3.1 Pro (для відтворення)
model: gemini-3.1-pro-preview(direct REST API)responseMimeType: application/json+responseSchema(segments: timestamp_start/end, speaker, language, text)thinkingConfig.thinkingLevel: "high"- БЕЗ
temperature(для Gemini 3 рекомендовано default) - Upload через
google-genaiSDK, generate черезrequests - Файли з кирилицею: копіювати у латин-name у tempdir (Unicode SDK bug)
- Скрипт-еталон:
research/transcribe_gemini_v3.py
8 Аудіо файли зустрічі №1
| # | Файл | Тривалість | Розмір | Транскрипт |
|---|---|---|---|---|
| A | Новий запис.m4a | 30:35 | 15.4 MB | ✓ 183 seg, 4 spk |
| B | Новий запис 2.m4a | 29:39 | 15.0 MB | ✓ 210 seg, 3 spk |
| C | Новий запис 4.m4a | 02:48 | 1.4 MB | ✓ 41 seg, 5 spk |
Разом: 63 хв · 434 сегменти · structured JSON + plain text у
audio/*_gemini_v3.{json,txt}