Interfaz abierta

Autopilot completo para todas las computadoras usando LLMS
Interfaz abierta
- Computadoras de autocontrol enviando solicitudes de usuario a un backend de LLM (GPT-4V, etc.) para descubrir los pasos requeridos.
- Ejecuta automáticamente los pasos simulando la entrada del teclado y el mouse.
- Correctas de cursos enviando a las LLM una captura de pantalla actual de la computadora según sea necesario.
Software de conducción autónoma para todas sus computadoras
Manifestación
["Hazme un plan de comidas en Google Docs"]

Más demostraciones
Instalar ?
Macosa
- Descargue el Binario MacOS del último lanzamiento.
- Descomprima el archivo y mueva la interfaz abierta a la carpeta de aplicaciones.

Mac de la serie M Apple Silicon M
- Open Interface le pedirá acceso de accesibilidad para operar su teclado y mouse para usted, y la grabación de pantalla de acceso para tomar capturas de pantalla para evaluar su progreso.
- En caso de que no sea así, agregue manualmente estos permisos a través de la configuración del sistema -> Privacidad y seguridad


Intel Macs
- Inicie la aplicación desde la carpeta de aplicaciones.
Puede enfrentar el error estándar de Mac "Open Interface no se puede abrir" .

En ese caso, presione "Cancelar" .
Luego vaya a las preferencias del sistema -> Seguridad y privacidad -> Abrir de todos modos.



- Open Interface también necesitará acceso de accesibilidad para operar su teclado y mouse para usted, y la grabación de pantalla de acceso para tomar capturas de pantalla para evaluar su progreso.


- Por último, consulte la sección de configuración para conectar la interfaz Open a LLMS (OpenAI GPT-4V)
Linux
- Linux Binary ha sido probado en Ubuntu 20.04 hasta ahora.
- Descargue el archivo zip de Linux de la última versión.
- Extraer el ejecutable y ejecutarlo desde el terminal a través de
./Open Interface
- Consulte la sección Configuración para conectar la interfaz Open a LLMS (OpenAI GPT-4V)
Windows
- Windows Binary ha sido probado en Windows 10.
- Descargue el archivo zip de Windows de la última versión.
- Descomprima la carpeta, mueva el EXE a la ubicación deseada, haga doble clic para abrir y voila.
- Consulte la sección Configuración para conectar la interfaz Open a LLMS (OpenAI GPT-4V)
Configuración
Configure la tecla API de OpenAI
Obtenga su llave de API de OpenAI
- Abra la interfaz necesita acceso a GPT-4V para realizar solicitudes de usuario. Las teclas GPT-4V se pueden descargar desde su cuenta de OpenAI.
- Siga los pasos aquí para agregar saldo a su cuenta de OpenAI. Para desbloquear GPT-4V se necesita un pago mínimo de $ 5.
- Más información
Guardar la tecla API en la configuración de la interfaz Open
- En la interfaz Open, vaya al menú Configuración en la parte superior derecha e ingrese la tecla que recibió de OpenAI en el campo de texto de así decirlo:

Después de configurar la clave API por primera vez, deberá reiniciar la aplicación.
Opcional: Configurar un LLM personalizado
- Open Interface admite el uso de otros LLM de estilo OpenAI API (como Llava) como un backend y se puede configurar fácilmente en la ventana de configuración avanzada.
- Ingrese la URL base personalizada y el nombre del modelo en la ventana de configuración avanzada y la tecla API en la ventana Configuración según sea necesario.

- Si su LLM no admite una API de estilo Operai, puede usar una biblioteca como esta para convertirla a una.
- Deberá reiniciar la aplicación después de estos cambios.
Cosas en las que es malo (por ahora) ?
- Botones precisos de conducción espacial y, por lo tanto, haciendo clic.
- Mantener un seguimiento de sí mismo en contextos tabulares, como Excel y Google Sheets, por razones similares como se indicó anteriormente.
- Navegar aplicaciones complejas ricas en GUI como Counter-Strike, Spotify, Garage Band, etc. debido a la gran dependencia de las acciones del cursor.
Futuro ?
( con mejores modelos entrenados en tutoriales de video como tutoriales de YouTube )
- "Cree un par de muestras de bajo para mí en Garage Band para mi último proyecto".
- "Lea este documento de diseño para obtener una nueva función, edite el código en GitHub y envíelo para su revisión".
- "Encuentra el sabor musical de mis amigos desde Spotify y crea una lista de reproducción de fiesta para el evento de esta noche".
- "Tome las fotos de mi viaje de Tahoe y haga un montaje de tipo loto blanco en iMovie".
Notas
- Costo: $ 0.05 - $ 0.20 por solicitud de usuario.
(Esto será mucho más bajo en el futuro cercano una vez que GPT-4V permita el modo de asistente/estado) - Puede interrumpir la aplicación en cualquier momento presionando el botón Stop o arrastrando su cursor a cualquiera de las esquinas de la pantalla.
- La interfaz abierta solo puede ver su pantalla principal al usar múltiples monitores. Por lo tanto, si el cursor/enfoque está en una pantalla secundaria, podría seguir volviendo a intentar las mismas acciones que no puede ver su progreso (especialmente en macOS con el lanzamiento de la atención).
Diagrama del sistema ? ️
+----------------------------------------------------+
| App |
| |
| +-------+ |
| | GUI | |
| +-------+ |
| ^ |
| | |
| v |
| +-----------+ (Screenshot + Goal) +-----------+ |
| | | --------------------> | | |
| | Core | | LLM | |
| | | <-------------------- | (GPT-4V) | |
| +-----------+ (Instructions) +-----------+ |
| | |
| v |
| +-------------+ |
| | Interpreter | |
| +-------------+ |
| | |
| v |
| +-------------+ |
| | Executer | |
| +-------------+ |
+----------------------------------------------------+
Historia de la estrella ️
Campo de golf ?
- Echa un vistazo a más de mis proyectos en Ambersah.dev.
- Se pueden encontrar otras demostraciones y kit de prensa en Media.md.