Lots of Client Testing Changes

2025-03-29 21:39:11 -04:00
parent b738423272
commit 131c8c9e78
2 changed files with 404 additions and 1 deletions
--- a/Backend/index.html
+++ b/Backend/index.html
@@ -1,4 +1,3 @@
-/index.html
 <!DOCTYPE html>
 <html lang="en">
 <head>
@@ -93,6 +92,16 @@
        let mediaRecorder;
        let audioChunks = [];
        let isRecording = false;
+        let audioContext;
+        let streamProcessor;
+        let isStreaming = false;
+        let streamButton;
+        let isSpeaking = false;
+        let silenceTimer = null;
+        let energyWindow = [];
+        const ENERGY_WINDOW_SIZE = 10;
+        const CLIENT_SILENCE_THRESHOLD = 0.01;
+        const CLIENT_SILENCE_DURATION_MS = 1000; // 1 second
        
        // DOM elements
        const conversationEl = document.getElementById('conversation');
@@ -102,6 +111,271 @@
        const recordAudioBtn = document.getElementById('recordAudio');
        const clearContextBtn = document.getElementById('clearContext');
        
+        // Add streaming button to the input row
+        window.addEventListener('load', () => {
+            const inputRow = document.querySelector('.input-row:nth-child(2)');
+            streamButton = document.createElement('button');
+            streamButton.id = 'streamAudio';
+            streamButton.textContent = 'Start Streaming';
+            streamButton.addEventListener('click', toggleStreaming);
+            inputRow.appendChild(streamButton);
+            
+            connectWebSocket();
+            setupRecording();
+            setupAudioContext();
+        });
+        
+        // Setup audio context for streaming
+        function setupAudioContext() {
+            try {
+                audioContext = new (window.AudioContext || window.webkitAudioContext)();
+                console.log('Audio context setup completed');
+            } catch (err) {
+                console.error('Error setting up audio context:', err);
+                addSystemMessage(`Audio context error: ${err.message}`);
+            }
+        }
+        
+        // Toggle audio streaming
+        async function toggleStreaming() {
+            if (isStreaming) {
+                stopStreaming();
+            } else {
+                startStreaming();
+            }
+        }
+        
+        // Start audio streaming with silence detection
+        async function startStreaming() {
+            try {
+                const stream = await navigator.mediaDevices.getUserMedia({ audio: true });
+                const speaker = parseInt(speakerSelectEl.value);
+                
+                isStreaming = true;
+                isSpeaking = false;
+                energyWindow = [];
+                
+                streamButton.textContent = 'Speaking...';
+                streamButton.classList.add('recording');
+                
+                // Create audio processor node
+                const source = audioContext.createMediaStreamSource(stream);
+                streamProcessor = audioContext.createScriptProcessor(4096, 1, 1);
+                
+                // Process and send audio data
+                streamProcessor.onaudioprocess = function(e) {
+                    const audioData = e.inputBuffer.getChannelData(0);
+                    
+                    // Calculate energy (volume) for silence detection
+                    const energy = calculateAudioEnergy(audioData);
+                    updateEnergyWindow(energy);
+                    
+                    // Check if currently silent
+                    const avgEnergy = calculateAverageEnergy();
+                    const isSilent = avgEnergy < CLIENT_SILENCE_THRESHOLD;
+                    
+                    // Handle silence/speech transitions for visual feedback
+                    handleSpeechState(isSilent);
+                    
+                    // Continue processing audio regardless of silence state
+                    const downsampled = downsampleBuffer(audioData, audioContext.sampleRate, 24000);
+                    sendAudioChunk(downsampled, speaker);
+                };
+                
+                // Connect the nodes
+                source.connect(streamProcessor);
+                streamProcessor.connect(audioContext.destination);
+                
+                addSystemMessage('Audio streaming started - speak naturally and pause when finished');
+                
+            } catch (err) {
+                console.error('Error starting audio stream:', err);
+                addSystemMessage(`Streaming error: ${err.message}`);
+                isStreaming = false;
+                streamButton.textContent = 'Start Streaming';
+                streamButton.classList.remove('recording');
+            }
+        }
+        
+        // Calculate audio energy (volume)
+        function calculateAudioEnergy(buffer) {
+            let sum = 0;
+            for (let i = 0; i < buffer.length; i++) {
+                sum += Math.abs(buffer[i]);
+            }
+            return sum / buffer.length;
+        }
+        
+        // Update the sliding energy window
+        function updateEnergyWindow(energy) {
+            energyWindow.push(energy);
+            if (energyWindow.length > ENERGY_WINDOW_SIZE) {
+                energyWindow.shift();
+            }
+        }
+        
+        // Calculate average energy from the window
+        function calculateAverageEnergy() {
+            if (energyWindow.length === 0) return 0;
+            return energyWindow.reduce((sum, val) => sum + val, 0) / energyWindow.length;
+        }
+        
+        // Handle speech state changes and visual feedback
+        function handleSpeechState(isSilent) {
+            if (isSpeaking && isSilent) {
+                // Transition from speaking to silence
+                if (!silenceTimer) {
+                    silenceTimer = setTimeout(() => {
+                        // Silence persisted long enough
+                        streamButton.textContent = 'Processing...';
+                        streamButton.style.backgroundColor = '#FFA500'; // Orange
+                        addSystemMessage('Detected pause in speech, processing response...');
+                    }, CLIENT_SILENCE_DURATION_MS);
+                }
+            } else if (!isSpeaking && !isSilent) {
+                // Transition from silence to speaking
+                isSpeaking = true;
+                streamButton.textContent = 'Speaking...';
+                streamButton.style.backgroundColor = '#f44336'; // Red
+                
+                // Clear any pending silence timer
+                if (silenceTimer) {
+                    clearTimeout(silenceTimer);
+                    silenceTimer = null;
+                }
+            } else if (isSpeaking && !isSilent) {
+                // Still speaking, reset any silence timer
+                if (silenceTimer) {
+                    clearTimeout(silenceTimer);
+                    silenceTimer = null;
+                }
+            }
+            
+            // Update speaking state
+            if (!isSilent) {
+                isSpeaking = true;
+            }
+        }
+        
+        // Send audio chunk to server
+        function sendAudioChunk(audioData, speaker) {
+            const wavData = createWavBlob(audioData, 24000);
+            const reader = new FileReader();
+            
+            reader.onloadend = function() {
+                const base64data = reader.result;
+                
+                // Send to server
+                ws.send(JSON.stringify({
+                    action: 'stream_audio',
+                    speaker: speaker,
+                    audio: base64data
+                }));
+            };
+            
+            reader.readAsDataURL(wavData);
+        }
+        
+        // Stop audio streaming
+        function stopStreaming() {
+            if (streamProcessor) {
+                streamProcessor.disconnect();
+                streamProcessor = null;
+            }
+            
+            // Clear any pending silence timer
+            if (silenceTimer) {
+                clearTimeout(silenceTimer);
+                silenceTimer = null;
+            }
+            
+            isStreaming = false;
+            isSpeaking = false;
+            energyWindow = [];
+            
+            streamButton.textContent = 'Start Streaming';
+            streamButton.classList.remove('recording');
+            streamButton.style.backgroundColor = ''; // Reset to default
+            
+            addSystemMessage('Audio streaming stopped');
+            
+            // Send stop streaming signal to server
+            ws.send(JSON.stringify({
+                action: 'stop_streaming',
+                speaker: parseInt(speakerSelectEl.value)
+            }));
+        }
+        
+        // Downsample audio buffer to target sample rate
+        function downsampleBuffer(buffer, sampleRate, targetSampleRate) {
+            if (targetSampleRate === sampleRate) {
+                return buffer;
+            }
+            
+            const sampleRateRatio = sampleRate / targetSampleRate;
+            const newLength = Math.round(buffer.length / sampleRateRatio);
+            const result = new Float32Array(newLength);
+            
+            let offsetResult = 0;
+            let offsetBuffer = 0;
+            
+            while (offsetResult < result.length) {
+                const nextOffsetBuffer = Math.round((offsetResult + 1) * sampleRateRatio);
+                let accum = 0, count = 0;
+                
+                for (let i = offsetBuffer; i < nextOffsetBuffer && i < buffer.length; i++) {
+                    accum += buffer[i];
+                    count++;
+                }
+                
+                result[offsetResult] = accum / count;
+                offsetResult++;
+                offsetBuffer = nextOffsetBuffer;
+            }
+            
+            return result;
+        }
+        
+        // Create WAV blob from Float32Array
+        function createWavBlob(samples, sampleRate) {
+            const buffer = new ArrayBuffer(44 + samples.length * 2);
+            const view = new DataView(buffer);
+            
+            // RIFF chunk descriptor
+            writeString(view, 0, 'RIFF');
+            view.setUint32(4, 36 + samples.length * 2, true);
+            writeString(view, 8, 'WAVE');
+            
+            // fmt sub-chunk
+            writeString(view, 12, 'fmt ');
+            view.setUint32(16, 16, true);
+            view.setUint16(20, 1, true);     // PCM format
+            view.setUint16(22, 1, true);     // Mono channel
+            view.setUint32(24, sampleRate, true);
+            view.setUint32(28, sampleRate * 2, true);
+            view.setUint16(32, 2, true);
+            view.setUint16(34, 16, true);
+            
+            // data sub-chunk
+            writeString(view, 36, 'data');
+            view.setUint32(40, samples.length * 2, true);
+            
+            // Write the PCM samples
+            const volume = 0.5;
+            for (let i = 0; i < samples.length; i++) {
+                const sample = Math.max(-1, Math.min(1, samples[i]));
+                view.setInt16(44 + i * 2, sample < 0 ? sample * 0x8000 : sample * 0x7FFF, true);
+            }
+            
+            return new Blob([buffer], { type: 'audio/wav' });
+        }
+        
+        function writeString(view, offset, string) {
+            for (let i = 0; i < string.length; i++) {
+                view.setUint8(offset + i, string.charCodeAt(i));
+            }
+        }
+        
        // Connect to WebSocket
        function connectWebSocket() {
            const wsProtocol = window.location.protocol === 'https:' ? 'wss:' : 'ws:';
@@ -125,10 +399,19 @@
                    
                    // Add message to conversation
                    addAIMessage(response.audio);
+                    
+                    // Reset the streaming button if we're still in streaming mode
+                    if (isStreaming) {
+                        streamButton.textContent = 'Speaking...';
+                        streamButton.style.backgroundColor = '#f44336'; // Back to red
+                        isSpeaking = false; // Reset speaking state
+                    }
                } else if (response.type === 'error') {
                    addSystemMessage(`Error: ${response.message}`);
                } else if (response.type === 'context_updated') {
                    addSystemMessage(response.message);
+                } else if (response.type === 'streaming_status') {
+                    addSystemMessage(`Streaming ${response.status}`);
                }
            };
            
--- a/Backend/server.py
+++ b/Backend/server.py
@@ -12,6 +12,8 @@ from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel
 from generator import load_csm_1b, Segment
 import uvicorn
+import time
+from collections import deque

 # Select device
 if torch.cuda.is_available():
@@ -48,6 +50,9 @@ class ConnectionManager:

 manager = ConnectionManager()

+# Silence detection parameters
+SILENCE_THRESHOLD = 0.01  # Adjust based on your audio normalization
+SILENCE_DURATION_SEC = 1.0  # How long silence must persist to be considered "stopped talking"

 # Helper function to convert audio data
 async def decode_audio_data(audio_data: str) -> torch.Tensor:
@@ -92,6 +97,13 @@ async def encode_audio_data(audio_tensor: torch.Tensor) -> str:
 async def websocket_endpoint(websocket: WebSocket):
    await manager.connect(websocket)
    context_segments = []  # Store conversation context
+    streaming_buffer = []  # Buffer for streaming audio chunks
+    is_streaming = False
+    
+    # Variables for silence detection
+    last_active_time = time.time()
+    is_silence = False
+    energy_window = deque(maxlen=10)  # For tracking recent audio energy
    
    try:
        while True:
@@ -161,6 +173,114 @@ async def websocket_endpoint(websocket: WebSocket):
                    "message": "Context cleared"
                })
            
+            elif action == "stream_audio":
+                try:
+                    speaker_id = request.get("speaker", 0)
+                    audio_data = request.get("audio", "")
+                    
+                    # Convert received audio to tensor
+                    audio_chunk = await decode_audio_data(audio_data)
+                    
+                    # Start streaming mode if not already started
+                    if not is_streaming:
+                        is_streaming = True
+                        streaming_buffer = []
+                        energy_window.clear()
+                        is_silence = False
+                        last_active_time = time.time()
+                        await websocket.send_json({
+                            "type": "streaming_status",
+                            "status": "started"
+                        })
+                    
+                    # Calculate audio energy for silence detection
+                    chunk_energy = torch.mean(torch.abs(audio_chunk)).item()
+                    energy_window.append(chunk_energy)
+                    avg_energy = sum(energy_window) / len(energy_window)
+                    
+                    # Check if audio is silent
+                    current_silence = avg_energy < SILENCE_THRESHOLD
+                    
+                    # Track silence transition
+                    if not is_silence and current_silence:
+                        # Transition to silence
+                        is_silence = True
+                        last_active_time = time.time()
+                    elif is_silence and not current_silence:
+                        # User started talking again
+                        is_silence = False
+                    
+                    # Add chunk to buffer regardless of silence state
+                    streaming_buffer.append(audio_chunk)
+                    
+                    # Check if silence has persisted long enough to consider "stopped talking"
+                    silence_elapsed = time.time() - last_active_time
+                    
+                    if is_silence and silence_elapsed >= SILENCE_DURATION_SEC and len(streaming_buffer) > 0:
+                        # User has stopped talking - process the collected audio
+                        full_audio = torch.cat(streaming_buffer, dim=0)
+                        
+                        # Process with speech-to-text (you would need to implement this)
+                        # For now, just use a placeholder text
+                        text = f"User audio from speaker {speaker_id}"
+                        
+                        print(f"Detected end of speech, processing {len(streaming_buffer)} chunks")
+                        
+                        # Add to conversation context
+                        context_segments.append(Segment(text=text, speaker=speaker_id, audio=full_audio))
+                        
+                        # Generate response
+                        response_text = "This is a response to what you just said"
+                        audio_tensor = generator.generate(
+                            text=response_text,
+                            speaker=1 if speaker_id == 0 else 0,  # Use opposite speaker
+                            context=context_segments,
+                            max_audio_length_ms=10_000,
+                        )
+                        
+                        # Convert audio to base64 and send back to client
+                        audio_base64 = await encode_audio_data(audio_tensor)
+                        await websocket.send_json({
+                            "type": "audio_response",
+                            "audio": audio_base64
+                        })
+                        
+                        # Clear buffer and reset silence detection
+                        streaming_buffer = []
+                        energy_window.clear()
+                        is_silence = False
+                        last_active_time = time.time()
+                    
+                    # If buffer gets too large without silence, process it anyway
+                    # This prevents memory issues with very long streams
+                    elif len(streaming_buffer) >= 30:  # ~6 seconds of audio at 5 chunks/sec
+                        print("Buffer limit reached, processing audio")
+                        full_audio = torch.cat(streaming_buffer, dim=0)
+                        text = f"Continued speech from speaker {speaker_id}"
+                        context_segments.append(Segment(text=text, speaker=speaker_id, audio=full_audio))
+                        streaming_buffer = []
+                        
+                except Exception as e:
+                    print(f"Error processing streaming audio: {str(e)}")
+                    await websocket.send_json({
+                        "type": "error",
+                        "message": f"Error processing streaming audio: {str(e)}"
+                    })
+            
+            elif action == "stop_streaming":
+                is_streaming = False
+                if streaming_buffer:
+                    # Process any remaining audio in the buffer
+                    full_audio = torch.cat(streaming_buffer, dim=0)
+                    text = f"Final streaming audio from speaker {request.get('speaker', 0)}"
+                    context_segments.append(Segment(text=text, speaker=request.get("speaker", 0), audio=full_audio))
+                
+                streaming_buffer = []
+                await websocket.send_json({
+                    "type": "streaming_status",
+                    "status": "stopped"
+                })
+    
    except WebSocketDisconnect:
        manager.disconnect(websocket)
        print("Client disconnected")