Frontend Fixed

2025-03-30 03:43:08 -04:00
parent 9b613029e2
commit d4a7cf0e2f
14 changed files with 777 additions and 2335 deletions
--- a/Backend/api/socket_handlers.py
+++ b/Backend/api/socket_handlers.py
@@ -0,0 +1,392 @@
+import os
+import io
+import base64
+import time
+import threading
+import queue
+import tempfile
+import gc
+import logging
+import traceback
+from typing import Dict, List, Optional
+
+import torch
+import torchaudio
+import numpy as np
+from flask import request
+from flask_socketio import emit
+
+# Import conversation model
+from generator import Segment
+
+logger = logging.getLogger(__name__)
+
+# Conversation data structure
+class Conversation:
+    def __init__(self, session_id):
+        self.session_id = session_id
+        self.segments: List[Segment] = []
+        self.current_speaker = 0
+        self.ai_speaker_id = 1  # Default AI speaker ID
+        self.last_activity = time.time()
+        self.is_processing = False
+    
+    def add_segment(self, text, speaker, audio):
+        segment = Segment(text=text, speaker=speaker, audio=audio)
+        self.segments.append(segment)
+        self.last_activity = time.time()
+        return segment
+    
+    def get_context(self, max_segments=10):
+        """Return the most recent segments for context"""
+        return self.segments[-max_segments:] if self.segments else []
+
+def register_handlers(socketio, app, models, active_conversations, user_queues, processing_threads, DEVICE):
+    """Register Socket.IO event handlers"""
+    
+    @socketio.on('connect')
+    def handle_connect(auth=None):
+        """Handle client connection"""
+        session_id = request.sid
+        logger.info(f"Client connected: {session_id}")
+        
+        # Initialize conversation data
+        if session_id not in active_conversations:
+            active_conversations[session_id] = Conversation(session_id)
+            user_queues[session_id] = queue.Queue()
+            processing_threads[session_id] = threading.Thread(
+                target=process_audio_queue, 
+                args=(session_id, user_queues[session_id], app, socketio, models, active_conversations, DEVICE),
+                daemon=True
+            )
+            processing_threads[session_id].start()
+        
+        emit('connection_status', {'status': 'connected'})
+    
+    @socketio.on('disconnect')
+    def handle_disconnect(reason=None):
+        """Handle client disconnection"""
+        session_id = request.sid
+        logger.info(f"Client disconnected: {session_id}. Reason: {reason}")
+        
+        # Cleanup
+        if session_id in active_conversations:
+            # Mark for deletion rather than immediately removing
+            # as the processing thread might still be accessing it
+            active_conversations[session_id].is_processing = False
+            user_queues[session_id].put(None)  # Signal thread to terminate
+    
+    @socketio.on('audio_data')
+    def handle_audio_data(data):
+        """Handle incoming audio data"""
+        session_id = request.sid
+        logger.info(f"Received audio data from {session_id}")
+        
+        # Check if the models are loaded
+        if models.generator is None or models.whisperx_model is None or models.llm is None:
+            emit('error', {'message': 'Models still loading, please wait'})
+            return
+        
+        # Check if we're already processing for this session
+        if session_id in active_conversations and active_conversations[session_id].is_processing:
+            emit('error', {'message': 'Still processing previous audio, please wait'})
+            return
+        
+        # Add to processing queue
+        if session_id in user_queues:
+            user_queues[session_id].put(data)
+        else:
+            emit('error', {'message': 'Session not initialized, please refresh the page'})
+
+def process_audio_queue(session_id, q, app, socketio, models, active_conversations, DEVICE):
+    """Background thread to process audio chunks for a session"""
+    logger.info(f"Started processing thread for session: {session_id}")
+    
+    try:
+        while session_id in active_conversations:
+            try:
+                # Get the next audio chunk with a timeout
+                data = q.get(timeout=120)
+                if data is None:  # Termination signal
+                    break
+                
+                # Process the audio and generate a response
+                process_audio_and_respond(session_id, data, app, socketio, models, active_conversations, DEVICE)
+                
+            except queue.Empty:
+                # Timeout, check if session is still valid
+                continue
+            except Exception as e:
+                logger.error(f"Error processing audio for {session_id}: {str(e)}")
+                # Create an app context for the socket emit
+                with app.app_context():
+                    socketio.emit('error', {'message': str(e)}, room=session_id)
+    finally:
+        logger.info(f"Ending processing thread for session: {session_id}")
+        # Clean up when thread is done
+        with app.app_context():
+            if session_id in active_conversations:
+                del active_conversations[session_id]
+            if session_id in user_queues:
+                del user_queues[session_id]
+
+def process_audio_and_respond(session_id, data, app, socketio, models, active_conversations, DEVICE):
+    """Process audio data and generate a response using WhisperX"""
+    if models.generator is None or models.whisperx_model is None or models.llm is None:
+        logger.warning("Models not yet loaded!")
+        with app.app_context():
+            socketio.emit('error', {'message': 'Models still loading, please wait'}, room=session_id)
+        return
+    
+    logger.info(f"Processing audio for session {session_id}")
+    conversation = active_conversations[session_id]
+    
+    try:
+        # Set processing flag
+        conversation.is_processing = True
+        
+        # Process base64 audio data
+        audio_data = data['audio']
+        speaker_id = data['speaker']
+        logger.info(f"Received audio from speaker {speaker_id}")
+        
+        # Convert from base64 to WAV
+        try:
+            audio_bytes = base64.b64decode(audio_data.split(',')[1])
+            logger.info(f"Decoded audio bytes: {len(audio_bytes)} bytes")
+        except Exception as e:
+            logger.error(f"Error decoding base64 audio: {str(e)}")
+            raise
+        
+        # Save to temporary file for processing
+        with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_file:
+            temp_file.write(audio_bytes)
+            temp_path = temp_file.name
+        
+        try:
+            # Notify client that transcription is starting
+            with app.app_context():
+                socketio.emit('processing_status', {'status': 'transcribing'}, room=session_id)
+            
+            # Load audio using WhisperX
+            import whisperx
+            audio = whisperx.load_audio(temp_path)
+            
+            # Check audio length and add a warning for short clips
+            audio_length = len(audio) / 16000  # assuming 16kHz sample rate
+            if audio_length < 1.0:
+                logger.warning(f"Audio is very short ({audio_length:.2f}s), may affect transcription quality")
+            
+            # Transcribe using WhisperX
+            batch_size = 16  # adjust based on your GPU memory
+            logger.info("Running WhisperX transcription...")
+            
+            # Handle the warning about audio being shorter than 30s by suppressing it
+            import warnings
+            with warnings.catch_warnings():
+                warnings.filterwarnings("ignore", message="audio is shorter than 30s")
+                result = models.whisperx_model.transcribe(audio, batch_size=batch_size)
+            
+            # Get the detected language
+            language_code = result["language"]
+            logger.info(f"Detected language: {language_code}")
+            
+            # Check if alignment model needs to be loaded or updated
+            if models.whisperx_align_model is None or language_code != models.last_language:
+                # Clean up old models if they exist
+                if models.whisperx_align_model is not None:
+                    del models.whisperx_align_model
+                    del models.whisperx_align_metadata
+                    if DEVICE == "cuda":
+                        gc.collect()
+                        torch.cuda.empty_cache()
+                
+                # Load new alignment model for the detected language
+                logger.info(f"Loading alignment model for language: {language_code}")
+                models.whisperx_align_model, models.whisperx_align_metadata = whisperx.load_align_model(
+                    language_code=language_code, device=DEVICE
+                )
+                models.last_language = language_code
+            
+            # Align the transcript to get word-level timestamps
+            if result["segments"] and len(result["segments"]) > 0:
+                logger.info("Aligning transcript...")
+                result = whisperx.align(
+                    result["segments"], 
+                    models.whisperx_align_model, 
+                    models.whisperx_align_metadata, 
+                    audio, 
+                    DEVICE, 
+                    return_char_alignments=False
+                )
+                
+                # Process the segments for better output
+                for segment in result["segments"]:
+                    # Round timestamps for better display
+                    segment["start"] = round(segment["start"], 2)
+                    segment["end"] = round(segment["end"], 2)
+                    # Add a confidence score if not present
+                    if "confidence" not in segment:
+                        segment["confidence"] = 1.0  # Default confidence
+            
+            # Extract the full text from all segments
+            user_text = ' '.join([segment['text'] for segment in result['segments']])
+            
+            # If no text was recognized, don't process further
+            if not user_text or len(user_text.strip()) == 0:
+                with app.app_context():
+                    socketio.emit('error', {'message': 'No speech detected'}, room=session_id)
+                return
+                
+            logger.info(f"Transcription: {user_text}")
+            
+            # Load audio for CSM input
+            waveform, sample_rate = torchaudio.load(temp_path)
+            
+            # Normalize to mono if needed
+            if waveform.shape[0] > 1:
+                waveform = torch.mean(waveform, dim=0, keepdim=True)
+            
+            # Resample to the CSM sample rate if needed
+            if sample_rate != models.generator.sample_rate:
+                waveform = torchaudio.functional.resample(
+                    waveform, 
+                    orig_freq=sample_rate, 
+                    new_freq=models.generator.sample_rate
+                )
+            
+            # Add the user's message to conversation history
+            user_segment = conversation.add_segment(
+                text=user_text,
+                speaker=speaker_id,
+                audio=waveform.squeeze()
+            )
+            
+            # Send transcription to client with detailed segments
+            with app.app_context():
+                socketio.emit('transcription', {
+                    'text': user_text, 
+                    'speaker': speaker_id,
+                    'segments': result['segments']  # Include the detailed segments with timestamps
+                }, room=session_id)
+            
+            # Generate AI response using Llama
+            with app.app_context():
+                socketio.emit('processing_status', {'status': 'generating'}, room=session_id)
+            
+            # Create prompt from conversation history
+            conversation_history = ""
+            for segment in conversation.segments[-5:]:  # Last 5 segments for context
+                role = "User" if segment.speaker == 0 else "Assistant"
+                conversation_history += f"{role}: {segment.text}\n"
+            
+            # Add final prompt
+            prompt = f"{conversation_history}Assistant: "
+            
+            # Generate response with Llama
+            try:
+                # Ensure pad token is set
+                if models.tokenizer.pad_token is None:
+                    models.tokenizer.pad_token = models.tokenizer.eos_token
+                    
+                input_tokens = models.tokenizer(
+                    prompt, 
+                    return_tensors="pt",
+                    padding=True,
+                    return_attention_mask=True
+                )
+                input_ids = input_tokens.input_ids.to(DEVICE)
+                attention_mask = input_tokens.attention_mask.to(DEVICE)
+
+                with torch.no_grad():
+                    generated_ids = models.llm.generate(
+                        input_ids,
+                        attention_mask=attention_mask,
+                        max_new_tokens=100,
+                        temperature=0.7,
+                        top_p=0.9,
+                        do_sample=True,
+                        pad_token_id=models.tokenizer.eos_token_id
+                    )
+                
+                # Decode the response
+                response_text = models.tokenizer.decode(
+                    generated_ids[0][input_ids.shape[1]:], 
+                    skip_special_tokens=True
+                ).strip()
+            except Exception as e:
+                logger.error(f"Error generating response: {str(e)}")
+                logger.error(traceback.format_exc())
+                response_text = "I'm sorry, I encountered an error while processing your request."
+            
+            # Synthesize speech
+            with app.app_context():
+                socketio.emit('processing_status', {'status': 'synthesizing'}, room=session_id)
+                
+                # Start sending the audio response
+                socketio.emit('audio_response_start', {
+                    'text': response_text,
+                    'total_chunks': 1,
+                    'chunk_index': 0
+                }, room=session_id)
+            
+            # Define AI speaker ID
+            ai_speaker_id = conversation.ai_speaker_id
+            
+            # Generate audio
+            audio_tensor = models.generator.generate(
+                text=response_text,
+                speaker=ai_speaker_id,
+                context=conversation.get_context(),
+                max_audio_length_ms=10_000,
+                temperature=0.9
+            )
+            
+            # Add AI response to conversation history
+            ai_segment = conversation.add_segment(
+                text=response_text,
+                speaker=ai_speaker_id,
+                audio=audio_tensor
+            )
+            
+            # Convert audio to WAV format
+            with io.BytesIO() as wav_io:
+                torchaudio.save(
+                    wav_io, 
+                    audio_tensor.unsqueeze(0).cpu(), 
+                    models.generator.sample_rate, 
+                    format="wav"
+                )
+                wav_io.seek(0)
+                wav_data = wav_io.read()
+            
+            # Convert WAV data to base64
+            audio_base64 = f"data:audio/wav;base64,{base64.b64encode(wav_data).decode('utf-8')}"
+            
+            # Send audio chunk to client
+            with app.app_context():
+                socketio.emit('audio_response_chunk', {
+                    'chunk': audio_base64,
+                    'chunk_index': 0,
+                    'total_chunks': 1,
+                    'is_last': True
+                }, room=session_id)
+                
+                # Signal completion
+                socketio.emit('audio_response_complete', {
+                    'text': response_text
+                }, room=session_id)
+            
+        finally:
+            # Clean up temp file
+            if os.path.exists(temp_path):
+                os.unlink(temp_path)
+    
+    except Exception as e:
+        logger.error(f"Error processing audio: {str(e)}")
+        logger.error(traceback.format_exc())
+        with app.app_context():
+            socketio.emit('error', {'message': f'Error: {str(e)}'}, room=session_id)
+    finally:
+        # Reset processing flag
+        conversation.is_processing = False