Offene Schnittstelle

Voller Autopilot für alle Computer mit LLMs
Offene Schnittstelle
- Self-Drives Computers, indem Sie Benutzeranfragen an ein LLM-Backend (GPT-4V usw.) senden, um die erforderlichen Schritte herauszufinden.
- Führen Sie die Schritte automatisch aus, indem Sie die Tastatur und den Mauseingang simulieren.
- Kurskorrekturen, indem Sie dem LLMs nach Bedarf einen aktuellen Screenshot des Computers senden.
Selbstfahrende Software für alle Ihre Computer
Demo
["Machen Sie mich zu einem Speiseplan in Google Docs"]

Weitere Demos
Installieren ?
Macos
- Laden Sie den MacOS -Binary aus der neuesten Version herunter.
- Entpacken Sie die Datei und verschieben Sie die offene Schnittstelle zum Anwendungsordner.

Apple Silicon M-Serie Macs
- Die offene Schnittstelle fordert Sie nach dem Zugriff auf den Zugang zur Bedienung Ihrer Tastatur und Ihrer Maus für Sie sowie den Zugriff auf Bildschirmaufzeichnungen, um Screenshots zu machen, um deren Fortschritte zu bewerten.
- Wenn dies nicht der Fall ist, fügen Sie diese Berechtigung manuell über Systemeinstellungen -> Privatsphäre und Sicherheit manuell hinzu


Intel Macs
- Starten Sie die App aus dem Ordner Anwendungsordner.
Sie können dem Standard -MAC -Fehler "Open -Schnittstelle nicht geöffnet werden" antreten.

Drücken Sie in diesem Fall "Abbrechen" .
Gehen Sie dann zu Systemeinstellungen -> Sicherheit und Privatsphäre -> ohnehin öffnen.



- Open Interface erfordert außerdem Zugriff auf Barrierefreiheit, um Ihre Tastatur und Maus für Sie zu betreiben, sowie den Zugriff auf Bildschirmaufzeichnung, um Screenshots zu machen, um deren Fortschritte zu bewerten.


- Zuletzt den Abschnitt "Setup" an die Offene Schnittstelle mit LLMs (OpenAI GPT-4V) anschließen
Linux
- Linux Binary wurde bisher auf Ubuntu 20.04 getestet.
- Laden Sie die Linux -Zip -Datei von der neuesten Version herunter.
- Extrahieren Sie die ausführbare Datei und führen Sie sie über das Terminal durch
./Open Interface
- Schauen Sie den Abschnitt "Setup" an, um die offene Schnittstelle mit LLMs (OpenAI GPT-4V) zu verbinden.
Fenster
- Windows Binary wurde unter Windows 10 getestet.
- Laden Sie die Windows -Zip -Datei von der neuesten Version herunter.
- Entpacken Sie den Ordner, verschieben Sie das EXE an den gewünschten Ort, doppelklicken Sie zum Öffnen und voila.
- Schauen Sie den Abschnitt "Setup" an, um die offene Schnittstelle mit LLMs (OpenAI GPT-4V) zu verbinden.
Aufstellen
Richten Sie die OpenAI -API -Schlüssel ein
Holen Sie sich Ihren OpenAI -API -Schlüssel
- Open Interface benötigt Zugriff auf GPT-4V, um Benutzeranforderungen durchzuführen. GPT-4V-Schlüssel können von Ihrem OpenAI-Konto heruntergeladen werden.
- Befolgen Sie die Schritte hier, um Ihrem OpenAI -Konto den Guthaben hinzuzufügen. Zum Entsperren von GPT-4V wird eine Mindestzahlung von 5 USD benötigt.
- Weitere Informationen
Speichern Sie den API -Schlüssel in Einstellungen für offene Schnittstellen
- Gehen Sie in der Open -Schnittstelle oben rechts zum Menü Einstellungen und geben Sie den Schlüssel ein, den Sie von OpenAI in das Textfeld erhalten haben, wie Sie:

Nachdem Sie die API -Taste zum ersten Mal festgelegt haben, müssen Sie die App neu starten.
Optional: Richten Sie eine benutzerdefinierte LLM ein
- Open Interface unterstützt die Verwendung anderer OpenAI -API -Style -LLMs (wie LLAVA) als Backend und kann im Fenster Erweiterte Einstellungen problemlos konfiguriert werden.
- Geben Sie die benutzerdefinierte Basis -URL- und Modellname in das Fenster Erweiterter Einstellungen und die API -Taste nach Bedarf im Fenster Einstellungen ein.

- Wenn Ihr LLM keine API im OpenAI -Stil unterstützt, können Sie eine Bibliothek wie diese verwenden, um sie in eine zu konvertieren.
- Sie müssen die App nach diesen Änderungen neu starten.
Sachen es ist schlecht in (vorerst) ?
- Genaue räumliche Bewertung und damit Klicken auf Schaltflächen.
- Halten Sie sich aus ähnlichen Gründen wie oben angegeben in tabellarischen Kontexten wie Excel und Google Sheets verfolgen.
- Navigieren Sie komplexe GUI-reiche Anwendungen wie Counter-Strike, Spotify, Garagenband usw. aufgrund der starken Abhängigkeit von Cursoraktionen.
Zukunft ?
( Mit besseren Modellen, die auf Video -Walkthroughs wie YouTube -Tutorials ausgebildet sind )
- "Erstellen Sie für mein neuestes Projekt ein paar Bass -Samples für mich in Garage Band."
- "Lesen Sie dieses Designdokument für eine neue Funktion, bearbeiten Sie den Code auf GitHub und senden Sie ihn zur Überprüfung."
- "Finden Sie den Musikgeschmack meiner Freunde vor Spotify und erstellen Sie eine Party -Playlist für die heutige Veranstaltung."
- "Machen Sie die Bilder von meiner Tahoe -Reise und machen Sie eine Montage vom Typ White Lotus in Imovie."
Notizen
- Kosten: $ 0,05 - $ 0,20 pro Benutzeranforderung.
(Dies wird in naher Zukunft viel niedriger sein, sobald GPT-4V den Assistenten/staatlichen Modus ermöglicht.) - Sie können die App jederzeit unterbrechen, indem Sie die Stopp -Taste drücken oder Ihren Cursor in eine der Bildschirmecken ziehen.
- Open Interface kann Ihre primäre Anzeige nur sehen, wenn mehrere Monitore verwendet werden. Wenn sich der Cursor/Fokus auf einem sekundären Bildschirm befindet, kann er daher die gleichen Aktionen wiederholen, wie er seinen Fortschritt nicht erkennen kann (insbesondere in MacOS mit Start -Spotlight).
Systemdiagramm ? Euen
+----------------------------------------------------+
| App |
| |
| +-------+ |
| | GUI | |
| +-------+ |
| ^ |
| | |
| v |
| +-----------+ (Screenshot + Goal) +-----------+ |
| | | --------------------> | | |
| | Core | | LLM | |
| | | <-------------------- | (GPT-4V) | |
| +-----------+ (Instructions) +-----------+ |
| | |
| v |
| +-------------+ |
| | Interpreter | |
| +-------------+ |
| | |
| v |
| +-------------+ |
| | Executer | |
| +-------------+ |
+----------------------------------------------------+
Sterngeschichte Euen
Links ?
- Schauen Sie sich mehr von meinen Projekten bei Ambersah.dev an.
- Andere Demos und Pressemittellen finden Sie bei Media.md.