Interface ouverte

Autopilote complet pour tous les ordinateurs à l'aide de LLMS
Interface ouverte
- Ordinateurs auto-conduits en envoyant des demandes utilisateur à un backend LLM (GPT-4V, etc.) pour déterminer les étapes requises.
- Exécute automatiquement les étapes en simulant l'entrée du clavier et de la souris.
- Corrects de cours en envoyant aux LLMS une capture d'écran actuelle de l'ordinateur selon les besoins.
Logiciel autonome pour tous vos ordinateurs
Démo
["Faites de moi un plan de repas dans Google Docs"]

Plus de démos
Installer ?
Macos
- Téléchargez le binaire MacOS à partir de la dernière version.
- Décompressez le fichier et déplacez l'interface ouverte dans le dossier des applications.

Macs de la série M-Silicon Apple
- L'interface ouverte vous demandera un accès à l'accessibilité pour faire fonctionner votre clavier et votre souris, et un accès d'enregistrement d'écran pour prendre des captures d'écran pour évaluer ses progrès.
- Dans le cas où ce n'est pas le cas, ajoutez manuellement ces autorisations via les paramètres du système -> Confidentialité et sécurité


Mac Intel
- Lancez l'application à partir du dossier Applications.
Vous pouvez faire face à l' erreur standard de Mac "Open Interface ne peut pas être ouverte" .

Dans ce cas, appuyez sur "Annuler" .
Ensuite, accédez à Système Préférences -> Sécurité et confidentialité -> Ouvrez de toute façon.



- L'interface ouverte aura également besoin d'accès à l'accessibilité pour faire fonctionner votre clavier et votre souris, et un accès à l'enregistrement d'écran pour prendre des captures d'écran pour évaluer ses progrès.


- Enfin, consultez la section Configuration pour connecter l'interface ouverte aux LLM (Openai GPT-4V)
Linux
- Linux Binary a été testé sur Ubuntu 20.04 jusqu'à présent.
- Téléchargez le fichier Zip Linux à partir de la dernière version.
- Extraire l'exécutable et l'exécuter à partir du terminal via
./Open Interface
- Découvrez la section Configuration pour connecter l'interface ouverte aux LLM (Openai GPT-4V)
Fenêtre
- Windows Binary a été testé sur Windows 10.
- Téléchargez le fichier Zip Windows à partir de la dernière version.
- Décompressez le dossier, déplacez l'exe vers l'emplacement souhaité, double-cliquez pour ouvrir et le tour est joué.
- Découvrez la section Configuration pour connecter l'interface ouverte aux LLM (Openai GPT-4V)
Installation
Configurez la clé API OpenAI
Obtenez votre clé API Openai
- L'interface ouverte a besoin d'accès à GPT-4V pour effectuer des demandes d'utilisateurs. Les clés GPT-4V peuvent être téléchargées à partir de votre compte OpenAI.
- Suivez les étapes ici pour ajouter un solde à votre compte OpenAI. Pour déverrouiller GPT-4V, un paiement minimum de 5 $ est nécessaire.
- Plus d'informations
Enregistrer la touche API dans les paramètres d'interface ouverte
- Dans l'interface ouverte, accédez au menu Paramètres en haut à droite et entrez la clé que vous avez reçue d'Openai dans le champ de texte comme:

Après avoir défini la touche API pour la première fois, vous devrez redémarrer l'application.
Facultatif: configurer un LLM personnalisé
- L'interface ouverte prend en charge l'utilisation d'autres LLM de style API OpenAI (telles que LLAVA) comme backend et peut être configurée facilement dans la fenêtre Paramètres avancés.
- Entrez l'URL de base personnalisée et le nom du modèle dans la fenêtre Paramètres avancés et la touche API dans la fenêtre Paramètres au besoin.

- Si votre LLM ne prend pas en charge une API de style Openai, vous pouvez utiliser une bibliothèque comme celle-ci pour la convertir en une.
- Vous devrez redémarrer l'application après ces modifications.
Des trucs dans laquelle il est mauvais (pour l'instant) ?
- Spatial-Seasoning précis et donc cliquer sur les boutons.
- Garder une trace de lui-même dans des contextes tabulaires, comme Excel et Google Sheets, pour des raisons similaires indiquées ci-dessus.
- Navigation d'applications complexes riches en GUI comme Counter-Strike, Spotify, Garage Band, etc. en raison de la forte dépendance des actions du curseur.
Avenir ?
( avec de meilleurs modèles formés sur les procédures vidéo comme les tutoriels YouTube )
- "Créez quelques échantillons de basse pour moi dans Garage Band pour mon dernier projet."
- "Lisez ce document de conception pour une nouvelle fonctionnalité, modifiez le code sur GitHub et soumettez-le pour examen."
- "Trouvez le goût de la musique de mes amis de Spotify et créez une playlist de fête pour l'événement de ce soir."
- "Prenez les photos de mon voyage Tahoe et faites un montage de type Lotus blanc dans iMovie."
Notes
- Coût: 0,05 $ - 0,20 $ par demande utilisateur.
(Ce sera beaucoup plus bas dans un avenir proche une fois que GPT-4V aura accédé l'assistant / l'état) - Vous pouvez interrompre l'application à tout moment en appuyant sur le bouton d'arrêt ou en faisant glisser votre curseur vers l'un des coins d'écran.
- L'interface ouverte ne peut voir votre affichage principal que lorsque vous utilisez plusieurs moniteurs. Par conséquent, si le curseur / l'accent est mis sur un écran secondaire, il pourrait continuer à réessayer les mêmes actions qu'il n'est pas en mesure de voir ses progrès (en particulier dans MacOS avec le lancement des projecteurs).
Diagramme du système ? ️
+----------------------------------------------------+
| App |
| |
| +-------+ |
| | GUI | |
| +-------+ |
| ^ |
| | |
| v |
| +-----------+ (Screenshot + Goal) +-----------+ |
| | | --------------------> | | |
| | Core | | LLM | |
| | | <-------------------- | (GPT-4V) | |
| +-----------+ (Instructions) +-----------+ |
| | |
| v |
| +-------------+ |
| | Interpreter | |
| +-------------+ |
| | |
| v |
| +-------------+ |
| | Executer | |
| +-------------+ |
+----------------------------------------------------+
Histoire des étoiles ️
Links ?
- Découvrez plus de mes projets à Ambersah.Dev.
- D'autres démos et kit de presse peuvent être trouvés sur Media.md.