Die Ollama-Python-Bibliothek bietet die einfachste Möglichkeit, Python 3.8+-Projekte in Ollama zu integrieren.
ollama pull <model>
, z. B. ollama pull llama3.2
pip install ollama
from ollama import chat
from ollama import ChatResponse
response : ChatResponse = chat ( model = 'llama3.2' , messages = [
{
'role' : 'user' ,
'content' : 'Why is the sky blue?' ,
},
])
print ( response [ 'message' ][ 'content' ])
# or access fields directly from the response object
print ( response . message . content )
Weitere Informationen zu den Antworttypen finden Sie unter _types.py.
Das Antwort-Streaming kann durch Festlegen stream=True
aktiviert werden.
from ollama import chat
stream = chat (
model = 'llama3.2' ,
messages = [{ 'role' : 'user' , 'content' : 'Why is the sky blue?' }],
stream = True ,
)
for chunk in stream :
print ( chunk [ 'message' ][ 'content' ], end = '' , flush = True )
Ein benutzerdefinierter Client kann durch Instanziieren Client
oder AsyncClient
von ollama
erstellt werden.
Alle zusätzlichen Schlüsselwortargumente werden an httpx.Client
übergeben.
from ollama import Client
client = Client (
host = 'http://localhost:11434' ,
headers = { 'x-some-header' : 'some-value' }
)
response = client . chat ( model = 'llama3.2' , messages = [
{
'role' : 'user' ,
'content' : 'Why is the sky blue?' ,
},
])
Die AsyncClient
-Klasse wird verwendet, um asynchrone Anforderungen zu stellen. Sie kann mit denselben Feldern wie die Client
-Klasse konfiguriert werden.
import asyncio
from ollama import AsyncClient
async def chat ():
message = { 'role' : 'user' , 'content' : 'Why is the sky blue?' }
response = await AsyncClient (). chat ( model = 'llama3.2' , messages = [ message ])
asyncio . run ( chat ())
Durch das Festlegen von stream=True
werden Funktionen so geändert, dass sie einen asynchronen Python-Generator zurückgeben:
import asyncio
from ollama import AsyncClient
async def chat ():
message = { 'role' : 'user' , 'content' : 'Why is the sky blue?' }
async for part in await AsyncClient (). chat ( model = 'llama3.2' , messages = [ message ], stream = True ):
print ( part [ 'message' ][ 'content' ], end = '' , flush = True )
asyncio . run ( chat ())
Die API der Ollama-Python-Bibliothek basiert auf der Ollama-REST-API
ollama . chat ( model = 'llama3.2' , messages = [{ 'role' : 'user' , 'content' : 'Why is the sky blue?' }])
ollama . generate ( model = 'llama3.2' , prompt = 'Why is the sky blue?' )
ollama . list ()
ollama . show ( 'llama3.2' )
modelfile = '''
FROM llama3.2
SYSTEM You are mario from super mario bros.
'''
ollama . create ( model = 'example' , modelfile = modelfile )
ollama . copy ( 'llama3.2' , 'user/llama3.2' )
ollama . delete ( 'llama3.2' )
ollama . pull ( 'llama3.2' )
ollama . push ( 'user/llama3.2' )
ollama . embed ( model = 'llama3.2' , input = 'The sky is blue because of rayleigh scattering' )
ollama . embed ( model = 'llama3.2' , input = [ 'The sky is blue because of rayleigh scattering' , 'Grass is green because of chlorophyll' ])
ollama . ps ()
Fehler werden ausgelöst, wenn Anfragen einen Fehlerstatus zurückgeben oder wenn beim Streaming ein Fehler erkannt wird.
model = 'does-not-yet-exist'
try :
ollama . chat ( model )
except ollama . ResponseError as e :
print ( 'Error:' , e . error )
if e . status_code == 404 :
ollama . pull ( model )