Så här har jag byggt min dörrklocka med AI funktion som skickar bild och beskrivning till min mobiltelefon
Funktionen för min dörrklocka har jag byggt upp med mitt smarta hem system med Home Assistant. När en IKEA genvägsknapp trycks in tar övervakningskameran vid entren en bild och skickar en bild till min mobiltelefon. För att göra funktionen lite roligare låter jag nu en AI analysera bilden och skriva en beskrivning av personen som står utanför.
Bilden skickas inte till någon AI i molnet utan jag använder en lokal AI som körs på min dator.

För denna funktion använder jag följande
Home Assistant med LLM Vision integrationen, Unifi Protect och ZHA
IKEA genvägsknapp
Unifi G5 turret Ultra kamera
Lokal AI på min Windows dator (Ollama och Gemma3)
Hur fungerar det:
När jag trycker på dörrklockan tar jag en bild med Unifi kameran och sparar i Home Assistant. Jag skickar bilden till AI som körs på min lokala dator som analyserar. Svaret skickas tillbaka till Home Assistant som skickar en notis till familjens mobiltelefoner.
Automation och Skript i Home Assistant
Funktionen är uppbyggd med en Automation och ett skript. Automation triggas när någon trycker, dubbel-trycker eller trycker med långt släpp på Ikea genvägsknappen. När knappen har triggats kör jag ett skript som jag kallar Använd AI när någon ringer på dörren.
Skriptet är uppbyggt med tre funktioner
- Ta kortet och spara
- LLM Vision Image Analyzer
- Skicka notis med beskrivning
Scriptet som jag använder:
sequence:
- action: camera.snapshot
metadata: {}
data:
filename: /media/cameras/G5-entre/picture.jpg
target:
entity_id: camera.g5_entre_high_resolution_channel
- action: llmvision.image_analyzer
metadata: {}
data:
remember: true
use_memory: false
include_filename: false
target_width: 1280
max_tokens: 149
temperature: 0.2
generate_title: true
expose_images: true
provider: 01JW6BMRT2Z5N8M3MAGPCTTPRJ
message: >-
Describe persons on the picture. Focus only on people. For people,
include brief details about their clothing and appearance (e.g., hair
color, approximate age, or notable features). Ignore static objects,
landscape, background and scenery. Count how many people it is in the
picture. Do not mention or imply the existence of images—present the
information as if directly observing the events.
image_file: /media/cameras/G5-entre/picture.jpg
model: gemma3:4b
response_variable: response
- action: notify.mobile_app_c_iphone
metadata: {}
data:
message: "{{response.response_text}}"
title: Ringklocka!!
alias: Använd AI när någon ringer på dörren
description: ""
