feat(visualqa): question answer on uploaded image

Dinesh Sajwan · Dinesh Sajwan · commit f04ea6b3a49b · 2024-02-12T11:18:48.000-05:00
diff --git a/lambda/aws-qa-appsync-opensearch/question_answering/src/qa_agent/StreamingCallbackHandler.py b/lambda/aws-qa-appsync-opensearch/question_answering/src/qa_agent/StreamingCallbackHandler.py
@@ -0,0 +1,62 @@
+from .helper import  send_job_status, JobStatus
+from langchain.callbacks.base import BaseCallbackHandler
+from langchain.schema import LLMResult
+import base64
+from typing import Any, Dict, List, Union
+
+from aws_lambda_powertools import Logger, Tracer, Metrics
+
+logger = Logger(service="QUESTION_ANSWERING")
+tracer = Tracer(service="QUESTION_ANSWERING")
+metrics = Metrics(namespace="question_answering", service="QUESTION_ANSWERING")
+
+class StreamingCallbackHandler(BaseCallbackHandler):
+    def __init__(self, status_variables: Dict):
+        self.status_variables = status_variables
+        logger.info("[StreamingCallbackHandler::__init__] Initialized")
+
+    def on_llm_start(self, serialized: Dict[str, Any], prompts: List[str], **kwargs: Any) -> None:
+        """Runs when streaming is started."""
+        logger.info(f"[StreamingCallbackHandler::on_llm_start] Streaming started!")
+
+    def on_llm_new_token(self, token: str, **kwargs: Any) -> None:
+        """Run on new LLM token. Only available when streaming is enabled."""
+        try:
+            logger.info(f'[StreamingCallbackHandler::on_llm_new_token] token is: {token}')
+            llm_answer_bytes = token.encode("utf-8")
+            base64_bytes = base64.b64encode(llm_answer_bytes)
+            llm_answer_base64_string = base64_bytes.decode("utf-8")
+
+            self.status_variables['jobstatus'] = JobStatus.STREAMING_NEW_TOKEN.status
+            self.status_variables['answer'] = llm_answer_base64_string
+            send_job_status(self.status_variables)
+
+        except Exception as err:
+            logger.exception(err)
+            self.status_variables['jobstatus'] = JobStatus.ERROR_PREDICTION.status
+            error = JobStatus.ERROR_PREDICTION.get_message()
+            self.status_variables['answer'] = error.decode("utf-8")
+            send_job_status(self.status_variables)
+
+    def on_llm_end(self, response: LLMResult, **kwargs: Any) -> None:
+        """Run when LLM ends running."""
+        logger.info(f"[StreamingCallbackHandler::on_llm_end] Streaming ended. Response: {response}")
+        try:
+            self.status_variables['jobstatus'] = JobStatus.STREAMING_ENDED.status
+            self.status_variables['answer'] = ""
+            send_job_status(self.status_variables)
+
+        except Exception as err:
+            logger.exception(err)
+            self.status_variables['jobstatus'] = JobStatus.ERROR_PREDICTION.status
+            error = JobStatus.ERROR_PREDICTION.get_message()
+            self.status_variables['answer'] = error.decode("utf-8")
+            send_job_status(self.status_variables)
+
+    def on_llm_error(self, error: Union[Exception, KeyboardInterrupt], **kwargs: Any) -> None:
+        """Run when LLM errors."""
+        logger.exception(error)
+        self.status_variables['jobstatus'] = JobStatus.ERROR_PREDICTION.status
+        error = JobStatus.ERROR_PREDICTION.get_message()
+        self.status_variables['answer'] = error.decode("utf-8")
+        send_job_status(self.status_variables)
diff --git a/lambda/aws-qa-appsync-opensearch/question_answering/src/qa_agent/chain.py b/lambda/aws-qa-appsync-opensearch/question_answering/src/qa_agent/chain.py
@@ -13,11 +13,12 @@
 #
 from .helper import load_vector_db_opensearch, send_job_status, JobStatus
 from .s3inmemoryloader import S3FileLoaderInMemory
+from .StreamingCallbackHandler import StreamingCallbackHandler
 from langchain.prompts import PromptTemplate
-from langchain.callbacks.base import BaseCallbackHandler
-from langchain.schema import LLMResult
 from llms import get_llm, get_max_tokens
 from langchain.chains import LLMChain
+from .image_qa import  run_qa_agent_on_image_no_memory
+
 
 import boto3
 import os
@@ -29,56 +30,7 @@
 logger = Logger(service="QUESTION_ANSWERING")
 tracer = Tracer(service="QUESTION_ANSWERING")
 metrics = Metrics(namespace="question_answering", service="QUESTION_ANSWERING")
-class StreamingCallbackHandler(BaseCallbackHandler):
-    def __init__(self, status_variables: Dict):
-        self.status_variables = status_variables
-        logger.info("[StreamingCallbackHandler::__init__] Initialized")
-
-    def on_llm_start(self, serialized: Dict[str, Any], prompts: List[str], **kwargs: Any) -> None:
-        """Runs when streaming is started."""
-        logger.info(f"[StreamingCallbackHandler::on_llm_start] Streaming started!")
-
-    def on_llm_new_token(self, token: str, **kwargs: Any) -> None:
-        """Run on new LLM token. Only available when streaming is enabled."""
-        try:
-            logger.info(f'[StreamingCallbackHandler::on_llm_new_token] token is: {token}')
-            llm_answer_bytes = token.encode("utf-8")
-            base64_bytes = base64.b64encode(llm_answer_bytes)
-            llm_answer_base64_string = base64_bytes.decode("utf-8")
-
-            self.status_variables['jobstatus'] = JobStatus.STREAMING_NEW_TOKEN.status
-            self.status_variables['answer'] = llm_answer_base64_string
-            send_job_status(self.status_variables)
-
-        except Exception as err:
-            logger.exception(err)
-            self.status_variables['jobstatus'] = JobStatus.ERROR_PREDICTION.status
-            error = JobStatus.ERROR_PREDICTION.get_message()
-            self.status_variables['answer'] = error.decode("utf-8")
-            send_job_status(self.status_variables)
-
-    def on_llm_end(self, response: LLMResult, **kwargs: Any) -> None:
-        """Run when LLM ends running."""
-        logger.info(f"[StreamingCallbackHandler::on_llm_end] Streaming ended. Response: {response}")
-        try:
-            self.status_variables['jobstatus'] = JobStatus.STREAMING_ENDED.status
-            self.status_variables['answer'] = ""
-            send_job_status(self.status_variables)
-
-        except Exception as err:
-            logger.exception(err)
-            self.status_variables['jobstatus'] = JobStatus.ERROR_PREDICTION.status
-            error = JobStatus.ERROR_PREDICTION.get_message()
-            self.status_variables['answer'] = error.decode("utf-8")
-            send_job_status(self.status_variables)
-
-    def on_llm_error(self, error: Union[Exception, KeyboardInterrupt], **kwargs: Any) -> None:
-        """Run when LLM errors."""
-        logger.exception(error)
-        self.status_variables['jobstatus'] = JobStatus.ERROR_PREDICTION.status
-        error = JobStatus.ERROR_PREDICTION.get_message()
-        self.status_variables['answer'] = error.decode("utf-8")
-        send_job_status(self.status_variables)
+
 
 
 @tracer.capture_method
@@ -87,11 +39,17 @@ def run_question_answering(arguments):
 
     try:
         filename = arguments['filename']
+        image_url = arguments['presignedurl']
+
     except:
 
         filename = ''
         arguments['filename'] = ''
 
+    if image_url: # if image presigned url is present then do a QA on image file 
+         llm_response = run_qa_agent_on_image_no_memory(arguments)
+         return llm_response
+    
     if not filename:  # user didn't provide a specific file as input, we use the RAG source against the entire knowledge base
         if response_generation_method == 'LONG_CONTEXT':
             error = 'Error: Filename required for LONG_CONTEXT approach, defaulting to RAG.'
diff --git a/lambda/aws-qa-appsync-opensearch/question_answering/src/qa_agent/image_qa.py b/lambda/aws-qa-appsync-opensearch/question_answering/src/qa_agent/image_qa.py
@@ -0,0 +1,109 @@
+
+from .helper import  send_job_status, JobStatus
+from langchain.prompts import PromptTemplate
+from langchain.chains import LLMChain
+from .sagemaker_endpoint import Ideficsllm
+from .StreamingCallbackHandler import StreamingCallbackHandler
+import os
+import base64
+from aws_lambda_powertools import Logger, Tracer, Metrics
+
+logger = Logger(service="QUESTION_ANSWERING")
+tracer = Tracer(service="QUESTION_ANSWERING")
+metrics = Metrics(namespace="question_answering", service="QUESTION_ANSWERING")
+
+
+def run_qa_agent_on_image_no_memory(input_params):
+    logger.info("starting qa agent without memory on uploaded image")
+
+    base64_bytes = input_params['question'].encode("utf-8")
+
+    sample_string_bytes = base64.b64decode(base64_bytes)
+    decoded_question = sample_string_bytes.decode("utf-8")
+
+    logger.info(decoded_question)
+
+    status_variables = {
+        'jobstatus': JobStatus.WORKING.status,
+        'answer': JobStatus.WORKING.get_message(),
+        'jobid': input_params['jobid'],
+        'filename': input_params['filename'],
+        'question': input_params['question'],
+        'sources': ['']
+    }
+    send_job_status(status_variables)
+
+    # 1 : load the document
+    global _file_content
+    global _current_file_name
+
+    bucket_name = os.environ['INPUT_BUCKET']
+    filename = input_params['filename']
+    image_url = input_params['presignedurl']
+    logger.info(f"Generating response to question for file {filename}")
+
+
+    
+    status_variables['sources'] = [filename]
+    if image_url is None:
+        status_variables['jobstatus'] = JobStatus.ERROR_LOAD_DOC.status
+        error = JobStatus.ERROR_LOAD_DOC.get_message()
+        status_variables['answer'] = error.decode("utf-8")
+        send_job_status(status_variables)
+        return
+
+    # 2 : run the question
+    streaming = input_params.get("streaming", False)
+    # TODO use streaming in response
+    callback_manager = [StreamingCallbackHandler(status_variables)] if streaming else None
+   
+    #_qa_llm = get_llm(callback_manager,"HuggingFaceM4/idefics-80b-instruct")
+    #TODO : Update get_llm to support sagemaker as provider,
+    # this needs to be updated with @alain changes
+    print(f' get LLM Ideficsllm')
+    _qa_llm = Ideficsllm.sagemakerendpoint_llm("idefics")
+    
+    if (_qa_llm is None):
+        logger.info('llm is None, returning')
+        status_variables['jobstatus'] = JobStatus.ERROR_LOAD_LLM.status
+        error = JobStatus.ERROR_LOAD_LLM.get_message()
+        status_variables['answer'] = error.decode("utf-8")
+        send_job_status(status_variables)
+        return status_variables
+
+    # 3: run LLM
+    #template="User:{question}![]({image})<end_of_utterance>\nAssistant:"
+    template = """\n\nUser: {question}![]({image})<end_of_utterance>
+         \n\nAssistant:"""
+    prompt = PromptTemplate(template=template, input_variables=["image", "question"])
+    chain = LLMChain(llm=_qa_llm, prompt=prompt, verbose=input_params['verbose'])
+
+    try:
+        logger.info(f'image is: {filename}')
+        logger.info(f'decoded_question is: {decoded_question}')
+        tmp = chain.predict(image=image_url, question=decoded_question)
+        #answer = tmp.removeprefix(' ')
+        answer=tmp.split("Assistant:",1)[1]
+
+        logger.info(f'tmp is: {tmp}')
+        logger.info(f'answer is: {answer}')
+        llm_answer_bytes = answer.encode("utf-8")
+        base64_bytes = base64.b64encode(llm_answer_bytes)
+        llm_answer_base64_string = base64_bytes.decode("utf-8")
+
+        status_variables['jobstatus'] = JobStatus.DONE.status
+        status_variables['answer'] = llm_answer_base64_string
+        send_job_status(status_variables) if not streaming else None
+
+    except Exception as err:
+        logger.exception(err)
+        status_variables['jobstatus'] = JobStatus.ERROR_PREDICTION.status
+        error = JobStatus.ERROR_PREDICTION.get_message()
+        status_variables['answer'] = error.decode("utf-8")
+        send_job_status(status_variables)
+
+    return status_variables
+
+
+def run_qa_agent_rag_image_no_memory(input_params):
+    logger.info("starting qa agent RAG without memory on uploaded image")
diff --git a/lambda/aws-qa-appsync-opensearch/question_answering/src/qa_agent/sagemaker_endpoint.py b/lambda/aws-qa-appsync-opensearch/question_answering/src/qa_agent/sagemaker_endpoint.py
@@ -0,0 +1,44 @@
+
+from langchain.llms.sagemaker_endpoint import LLMContentHandler, SagemakerEndpoint
+
+import json
+import os
+
+class ContentHandler(LLMContentHandler):
+    content_type = "application/json"
+    accepts = "application/json"
+
+    def transform_input(self, prompt, model_kwargs) -> bytes:
+        input_str = json.dumps({"inputs": prompt, "parameters": model_kwargs})
+        return input_str.encode("utf-8")
+
+    def transform_output(self, output: bytes) -> str:
+        response_json = json.loads(output.read().decode("utf-8"))
+        return response_json[0]["generated_text"]
+
+
+content_handler = ContentHandler()
+
+class Ideficsllm():
+
+    parameters = {
+        "do_sample": True,
+        "top_p": 0.2,
+        "temperature": 0.4,
+        "top_k": 50,
+        "max_new_tokens": 512,
+        "stop": ["User:","<end_of_utterance>"]
+     }
+
+
+    @classmethod
+    def sagemakerendpoint_llm(self,model_id):
+        return SagemakerEndpoint(
+        endpoint_name=model_id,
+        region_name=os.environ["AWS_REGION"],
+        model_kwargs=self.parameters,
+        content_handler=content_handler,
+
+
+   
+)
diff --git a/resources/gen-ai/aws-qa-appsync-opensearch/schema.graphql b/resources/gen-ai/aws-qa-appsync-opensearch/schema.graphql