Så här har jag byggt min dörrklocka med AI funktion som skickar bild och beskrivning till min mobiltelefon
Funktionen för min dörrklocka har jag byggt upp med mitt smarta hem system med Home Assistant. När en IKEA genvägsknapp trycks in tar övervakningskameran vid entren en bild och skickar en bild till min mobiltelefon. För att göra funktionen lite roligare låter jag nu en AI analysera bilden och skriva en beskrivning av personen som står utanför.
Bilden skickas inte till någon AI i molnet utan jag använder en lokal AI som körs på min dator.
För denna funktion använder jag följande
Home Assistant med LLM Vision integrationen, Unifi Protect och ZHA
IKEA genvägsknapp
Unifi G5 turret Ultra kamera
Lokal AI på min Windows dator (Ollama och Gemma3)
Hur fungerar det:
När jag trycker på dörrklockan tar jag en bild med Unifi kameran och sparar i Home Assistant. Jag skickar bilden till AI som körs på min lokala dator som analyserar. Svaret skickas tillbaka till Home Assistant som skickar en notis till familjens mobiltelefoner.
Automation och Skript i Home Assistant
Funktionen är uppbyggd med en Automation och ett skript. Automation triggas när någon trycker, dubbel-trycker eller trycker med långt släpp på Ikea genvägsknappen. När knappen har triggats kör jag ett skript som jag kallar Använd AI när någon ringer på dörren.
Skriptet är uppbyggt med tre funktioner
- Ta kortet och spara
- LLM Vision Image Analyzer
- Skicka notis med beskrivning
Scriptet som jag använder:
sequence: - action: camera.snapshot metadata: {} data: filename: /media/cameras/G5-entre/picture.jpg target: entity_id: camera.g5_entre_high_resolution_channel - action: llmvision.image_analyzer metadata: {} data: remember: true use_memory: false include_filename: false target_width: 1280 max_tokens: 149 temperature: 0.2 generate_title: true expose_images: true provider: 01JW6BMRT2Z5N8M3MAGPCTTPRJ message: >- Describe persons on the picture. Focus only on people. For people, include brief details about their clothing and appearance (e.g., hair color, approximate age, or notable features). Ignore static objects, landscape, background and scenery. Count how many people it is in the picture. Do not mention or imply the existence of images—present the information as if directly observing the events. image_file: /media/cameras/G5-entre/picture.jpg model: gemma3:4b response_variable: response - action: notify.mobile_app_c_iphone metadata: {} data: message: "{{response.response_text}}" title: Ringklocka!! alias: Använd AI när någon ringer på dörren description: ""