[AUR-389] Add base interface and embedding model (#17)

This change provides the base interface of an embedding, and wrap the Langchain's OpenAI embedding. Usage as follow: ```python from kotaemon.embeddings import AzureOpenAIEmbeddings model = AzureOpenAIEmbeddings( model="text-embedding-ada-002", deployment="embedding-deployment", openai_api_base="https://test.openai.azure.com/", openai_api_key="some-key", ) output = model("Hello world") ```
2023-09-14 14:08:58 +07:00
parent 1061192731
commit c339912312
6 changed files with 4772 additions and 3 deletions
--- a/knowledgehub/embeddings/base.py
+++ b/knowledgehub/embeddings/base.py
@@ -0,0 +1,62 @@
 from typing import List, Type
 from langchain.embeddings.base import Embeddings as LCEmbeddings
 from theflow import Param
 from ..components import BaseComponent
 from ..documents.base import Document
 class Embeddings(BaseComponent):
    ...
 class LangchainEmbeddings(Embeddings):
    _lc_class: Type[LCEmbeddings]
    def __init__(self, **params):
        if self._lc_class is None:
            raise AttributeError(
                "Should set _lc_class attribute to the LLM class from Langchain "
                "if using LLM from Langchain"
            )
        self._kwargs: dict = {}
        for param in list(params.keys()):
            if param in self._lc_class.__fields__:  # type: ignore
                self._kwargs[param] = params.pop(param)
        super().__init__(**params)
    def __setattr__(self, name, value):
        if name in self._lc_class.__fields__:
            setattr(self.agent, name, value)
        else:
            super().__setattr__(name, value)
    @Param.decorate(no_cache=True)
    def agent(self):
        return self._lc_class(**self._kwargs)
    def run_raw(self, text: str) -> List[float]:
        return self.agent.embed_query(text)  # type: ignore
    def run_batch_raw(self, text: List[str]) -> List[List[float]]:
        return self.agent.embed_documents(text)  # type: ignore
    def run_document(self, text: Document) -> List[float]:
        return self.agent.embed_query(text.text)  # type: ignore
    def run_batch_document(self, text: List[Document]):
        return self.agent.embed_documents([each.text for each in text])  # type: ignore
    def is_document(self, text) -> bool:
        if isinstance(text, Document):
            return True
        elif isinstance(text, List) and isinstance(text[0], Document):
            return True
        return False
    def is_batch(self, text) -> bool:
        if isinstance(text, list):
            return True
        return False
--- a/knowledgehub/embeddings/openai.py
+++ b/knowledgehub/embeddings/openai.py
@@ -0,0 +1,15 @@
 from langchain.embeddings import OpenAIEmbeddings as LCOpenAIEmbeddings
 from .base import LangchainEmbeddings
 class OpenAIEmbeddings(LangchainEmbeddings):
    _lc_class = LCOpenAIEmbeddings
 class AzureOpenAIEmbeddings(LangchainEmbeddings):
    _lc_class = LCOpenAIEmbeddings
    def __init__(self, **params):
        params["openai_api_type"] = "azure"
        super().__init__(**params)
--- a/knowledgehub/llms/chats/base.py
+++ b/knowledgehub/llms/chats/base.py
@@ -30,8 +30,8 @@ class LangchainChatLLM(ChatLLM):
                self._kwargs[param] = params.pop(param)
        super().__init__(**params)
-    @Param.decorate()
+    @Param.decorate(no_cache=True)
-    def agent(self):
+    def agent(self) -> BaseLanguageModel:
        return self._lc_class(**self._kwargs)
    def run_raw(self, text: str) -> LLMInterface:
@@ -43,7 +43,7 @@ class LangchainChatLLM(ChatLLM):
        return self.run_batch_document(inputs)
    def run_document(self, text: List[Message]) -> LLMInterface:
-        pred = self.agent.generate([text])
+        pred = self.agent.generate([text])  # type: ignore
        return LLMInterface(
            text=[each.text for each in pred.generations[0]],
            completion_tokens=pred.llm_output["token_usage"]["completion_tokens"],
--- a/tests/resources/embedding_openai.json
+++ b/tests/resources/embedding_openai.json
--- a/tests/resources/embedding_openai_batch.json
+++ b/tests/resources/embedding_openai_batch.json
--- a/tests/test_embedding_models.py
+++ b/tests/test_embedding_models.py
@@ -0,0 +1,46 @@
 import json
 from pathlib import Path
 from unittest.mock import patch
 from kotaemon.embeddings.openai import AzureOpenAIEmbeddings
 with open(Path(__file__).parent / "resources" / "embedding_openai_batch.json") as f:
    openai_embedding_batch = json.load(f)
 with open(Path(__file__).parent / "resources" / "embedding_openai.json") as f:
    openai_embedding = json.load(f)
@patch(
    "openai.api_resources.embedding.Embedding.create",
    side_effect=lambda *args, **kwargs: openai_embedding,
 )
 def test_azureopenai_embeddings_raw(openai_embedding_call):
    model = AzureOpenAIEmbeddings(
        model="text-embedding-ada-002",
        deployment="embedding-deployment",
        openai_api_base="https://test.openai.azure.com/",
        openai_api_key="some-key",
    )
    output = model("Hello world")
    assert isinstance(output, list)
    assert isinstance(output[0], float)
    openai_embedding_call.assert_called()
@patch(
    "openai.api_resources.embedding.Embedding.create",
    side_effect=lambda *args, **kwargs: openai_embedding_batch,
 )
 def test_azureopenai_embeddings_batch_raw(openai_embedding_call):
    model = AzureOpenAIEmbeddings(
        model="text-embedding-ada-002",
        deployment="embedding-deployment",
        openai_api_base="https://test.openai.azure.com/",
        openai_api_key="some-key",
    )
    output = model(["Hello world", "Goodbye world"])
    assert isinstance(output, list)
    assert isinstance(output[0], list)
    assert isinstance(output[0][0], float)
    openai_embedding_call.assert_called()