Jag använder AI i mitt smarta hem system för kameror

Jag har börjat använda AI i mitt smarta hem system som analyserar bilderna från övervakningskameran

AI analyserar bilderna från kameran och skickar tillbaka en beskrivning hur den tolkar bilderna. Kamerorna är kopplade till Home Assistant som skickar en videoström till AI som jag kör på min lokala dator. AI analyserar och tolkar videon och jag får tillbaka en beskrivning om vad som finns på bilderna. Allt sker helt lokalt och jag behöver inte skicka mina bilder till en extern tjänst och använda molnet.

Bild + beskrivning av vad som händer skickas direkt till min mobiltelefon och läggs på en tidslinje på min dashboard i Home Assistant.

Tidsline för LLM vision i Home Assistant

Vad använder jag

För att få det att fungera använder jag Home Assistant, Integrationen LLM Vision, Ollama på min Windows dator och modellen som jag använder idag är Gemma3.

Gemma3:4b kan jag köra på min dator som har ett RTX2070 GPU. Jag har även provat Gemma3:12b som är en större modell där jag får en mer exakt beskrivning men den är för stor och analysen tar för lång tid för att det ska vara användbart.

LLM vision är en integration som jag laddat ned via HACS. Jag tycker den är helt otroligt bra och jag blev smått förvånad när jag började testa den här hemma.

Kamerorna jag använder är Unifi G5 Turret och en G6 instant som är monterade i takfoten på huset.

AI Funktionen jag använder idag

Funktionen jag använder idag är att när huset är larmat och är i bortaläge kommer jag få bildnotiser och beskrivningar om det är någon som går runt huset. Kan snabbt avgöra om det är någon som vi känner eller om det är någon okänd.

För att trigga funktionen använder jag kamerans inbyggda AI event som detekterar människor. På så sätt hoppas jag slippa en hel del notiser som inte innehåller information som jag vill se.

Klickar jag på en notis kommer jag få en större bild och mer information om hur AI tolkat bilden. Nedan är ett exempel där jag står utanför dörren, med solglasögon och håller i en kartong.

AI Funktioner jag testar

Finns några funktioner jag testar just nu men har inte riktigt hittat rätt och fått till funktionen

I LLM Vision finns det en minnes funktion. Jag kan lägga in bilder på objekt som den ska känna till. Jag håller nu på och testar ansiktsigenkänning och fått det att fungera med en person men inte med flera. Den här funktionen kommer jag fortsätta testa och hoppas att jag hittar en lösning.
i LLM Vision finns det en funktion som heter Stream Analyser. Med denna funktion kan jag lägga in alla mina kameror och fråga vad som händer runt huset. Jag kan fråga om alla bilar är parkerade. jag kan fråga om soptunnan är utställd inför hämtning mm.
Skicka bilden till min telefon när någon ringer på dörren. Får då en beskrivning av personerna direkt i telefonen med en bild.

Lätt att komma igång men svårare att skriva bra instruktioner och beskrivningar till AI:n

Det var inte speciellt svårt att komma igång med LLM Vision och sätta upp en lokal AI på datorn. Det som jag har haft lite problem med är att skriva bra och tydliga instruktioner till AI modellen. En bra och tydlig instruktion är helt nödvändig för att få den information jag vill ha tillbaka. Jag vill t ex att jag ska få en beskrivning om personerna som rör sig på bilderna som hur de ser ut och hur de är klädda. Jag vill inte ta med bakgrund, scen och vilka träd som står på tomten för det vet jag redan.

För att få till en bra och tydlig beskrivning har jag tagit hjälp av Grok som är AI:n i X. Jag beskriver vad jag vill ha av promten samt att jag berättar vilken modell som jag använder.

Provat flera AI modeller men gemma3 ger mig bäst resultat

Jag har provat flera AI modeller som minicpm-v, llava-phi3, llama3.2-vision men gemma3 har gett mig bäst resultat för min hårdvara. gemm3:4b använder bara min GPU på mitt 2070 kort och kräver inte något av min CPU i datorn. Det tar ca 10 sekunder för att bilden ska analyseras och skickas tillbaka till Home Assistant vilket jag tycker är bra.

Går jag upp ett steg till gemma3:12b får jag ett betydligt bättre resultat men här får datorn jobba betydligt hårdare. Modellen kommer att använda ca 39% av min CPU och 61% av min GPU. Svaret kommer att ta minuter istället för sekunder.

Alla svar från AI:n är inte 100% korrekta

Alla svar jag får från AI:n är inte alltid korrekta. Ibland får den ordentlig hicka och kan svara något helt obegripligt 😂.

Imponerad att jag kan använda en AI på min dator med denna prestanda

Att den ibland misstolkar bilderna är inte något stort problem och jag är jäkligt imponerad att jag kan använda en lokal AI på min dator och få detta resultat. Tror säker att jag kan få betydligt bättre resultat om jag använder en molntjänst. Men jag vill ha mitt smarta hem system så lokalt som bara möjligt och det är därför jag använder AI:n på min dator.