De ce vocea schimbă rata de completare
Pe formulare lungi (peste 8 întrebări), rata de completare text-only cade sub 40% — respondenții se opresc la întrebări deschise unde trebuie să scrie liber. Cu răspunsuri vocale, rata de completare urcă la 67% medie pe portofoliul nostru de 4.200 formulare publicate. Motivul e mecanic: dictarea durează 12 secunde, scrisul aceleiași idei durează 47 secunde pe mobil. Pentru întrebări de tip «povestește-mi cum ai aflat de noi», diferența e dramatică: 89% completare cu voce vs 31% text. Vocea nu înlocuiește câmpurile structurate (telefon, email, alegere multiplă rămân text/select) — completează zonele unde respondentul are de spus ceva nuanțat.
Cum funcționează tehnologic (mod dublu)
Megaforms rulează două servicii Whisper în paralel: (1) mod browser cu MediaRecorder API → WebM Opus la 16kHz mono → transmis la Whisper-large-v3 găzduit pe OVH Gravelines (GPU L40S 48GB), latență medie 1.8s pentru 30 secunde audio; (2) mod server-side push pentru cazuri de rezervă (browser fără MediaRecorder, iOS Safari pre-14.5) cu încărcare directă multipart. Detecția modului se face automat din User-Agent + feature detection. Audio brut NU se stochează implicit — doar transcriptul rămâne în DB. Opțional, proprietarul formularului poate activa «păstrează audio 30 zile» pentru audit calitate transcripție.
// Browser mode — automat pe input type=voice
const stream = await navigator.mediaDevices.getUserMedia({ audio: true });
const rec = new MediaRecorder(stream, { mimeType: 'audio/webm;codecs=opus' });
rec.ondataavailable = (e) => uploadChunk(e.data, formId, questionId);
rec.start(1000); // chunk every 1s for streaming transcriptionAcuratețe reală pe română — măsurători interne
Am rulat 1.247 răspunsuri vocale prin fluxul nostru (Aquadis bazine + Esushi păreri + Mazur Dent anamneză) și am comparat transcriptul cu corectura umană. Word Error Rate (WER) ieșit: 4.7% pe vorbitori nativi RO, 8.2% pe vorbitori RO cu accent RU/UA. Pentru context: Whisper-large-v3 declară acuratețe 88% pe română în lucrarea OpenAI; fluxul nostru adaugă VAD (voice activity detection) și context de prompt («răspuns formular de programare pentru clinică stomatologică») care urcă acuratețea la 95.3%. Pentru domeniul medical/legal recomandăm verificare manuală pe transcripturile critice — afișăm scor de încredere per segment.
Voce + întrebări ulterioare AI = conversație reală
Combinația răspunsuri vocale + întrebări ulterioare AI (vezi /features/ai-follow-up) creează un cvasi-dialog. Exemplu real Aquadis: prima întrebare vocală «povestește-mi de ce vrei să înveți să înoți» → AI detectează cuvinte-cheie «frică de apă», generează întrebare ulterioară adaptivă «de când durează frica asta?», respondentul răspunde din nou vocal. Maxim 5 schimburi per înregistrare, totul transcript + scor de sentiment în DB. Pentru recrutori și consultanți, asta înlocuiește efectiv un apel inițial de calificare.
Limite și disponibilitate per plan
Răspunsurile vocale sunt incluse pe planurile Pro ($29/lună), Business ($99) și Agency ($199). Planul gratuit are 30 minute audio/lună inclusiv. Pro = 600 min/lună, Business = 3.000 min, Agency = nelimitat. Limita de durată per răspuns: 5 minute (configurabilă în jos). Limbi suportate: RO, RU, EN, FR, DE, IT, ES, UA, PL, BG (10 limbi cu acuratețe >90%). Pentru limbi care nu sunt în top-10, Whisper-large-v3 funcționează dar fără măsurători interne.