Nazad na sve
Slika

Upotreba RAG arhitekture za pametnije pretraživanje forenzičkog znanja 

U digitalnoj forenzici, brz pristup pouzdanim informacijama može biti ključan za rješavanje složenih istraga. Kako količina forenzičke literature, priručnika, izvještaja i obrazovnih materijala raste, pronalazak relevantnih informacija postaje sve teži i sporiji. 

Digitalna forenzika | 26/05/2025

U digitalnoj forenzici, brz pristup pouzdanim informacijama može biti ključan za rješavanje složenih istraga. Kako količina forenzičke literature, priručnika, izvještaja i obrazovnih materijala raste, pronalazak relevantnih informacija postaje sve teži i sporiji.

Kako bismo odgovorili na ovaj izazov, razvili smo interni prototip temeljen na Retrieval-Augmented Generation (RAG) arhitekturi koristeći LangChain, FAISS i open-source modele. Cilj je bio omogućiti forenzičarima i analitičarima postavljanje pitanja na prirodnom jeziku i dobivanje direktnih odgovora iz PDF dokumenata — bez potrebe za ručnim pretraživanjem ili listanjem stotina stranica.

Implementirali smo modularni RAG sustav koji se sastoji od sljedećih komponenti:
•  PDF Loader: Svi dokumenti iz mape /data automatski se skeniraju, a sadržaj se izdvaja pomoću semantičkog segmentiranja.
•  Embeddings: Svaki segment teksta pretvara se u vektor pomoću Sentence-Transformer modela s Hugging Face platforme.
•  FAISS Vektorska Baza: Vektori se indeksiraju i lokalno spremaju, omogućujući brzo i skalabilno pretraživanje po sličnosti.
•  Pretraživač (Retriever): Kada korisnik postavi pitanje, pretraživač pronalazi najrelevantnije dijelove dokumenata koristeći Maximal Marginal Relevance (MMR).
•  LLM (Ollama + DeepSeek): Lokalno pokrenut LLM interpretira kontekst i pitanje te generira smislen i referenciran odgovor.
•  Streamlit Aplikacija: Jednostavno sučelje omogućuje svakom članu tima pretraživanje svih dokumenata — bez potrebe za programiranjem.

Izvorni kod za RAG asistenta dostupan je na GitHubu:
https://github.com/INsig2/Digital-Forensics-RAG

Zašto nam je ovo važno
•  Brže pronalaženje dokaza: Uštedite sate koji bi inače bili potrošeni na prelistavanje priručnika ili arhiviranih izvještaja.
•  Neovisno je o vrsti dokumenata: Radi sa svim kombinacijama forenzičkih materijala, knjiga ili internih PDF-ova.
•  Lokalno izvođenje: Nijedan osjetljiv podatak ne napušta analitičarev uređaj.
•  Skalabilnost: Indeks se automatski ažurira kad se dodaju novi PDF-ovi — znanje je uvijek aktualno.

Ovo rješenje pokazuje kako primjena modernih NLP tehnika — posebno Retrieval-Augmented Generation-a (RAG-a) — može donijeti stvarnu vrijednost za forenzičke stručnjake. Uz minimalne hardverske zahtjeve i potpuno open-source alate, izgradili smo pametnog asistenta koji timu omogućuje prirodnu, učinkovitu i skalabilnu interakciju s forenzičkim znanjem.

Jedna od ključnih prednosti našeg pristupa je korištenje lokalnog jezičnog modela (LLM).
Pokretanjem modela direktno na uređaju analitičara osiguravamo:
• 
Privatnost: Osjetljivi podaci nikada ne napuštaju sustav — ključno za digitalnu forenziku i slična regulirana područja.
•  Nije potrebno spajanje na internet: Model radi i u izoliranim (air-gapped) ili offline okruženjima.
•  Nema dodatnih troškova: Nema API poziva niti tokena — financijski isplativa alternativa komercijalnim rješenjima.

Iako je fokus na digitalnoj forenzici, ovaj RAG sustav može se lako prilagoditi bilo kojem području koje koristi velike zbirke tehničkih ili stručnih dokumenata — poput pravnog istraživanja, usklađenosti u zdravstvu, obuke u kibernetičkoj sigurnosti ili upravljanja internim politikama.

Autorica:
Marija Dragošević
Konzultantica digitalne forenzike

Resursi
[1] LangChain dokumentacija – službeni vodič za RAG, FAISS i retrievere: https://python.langchain.com/docs/introduction
[2] FAISS by Meta AI – učinkovit sustav za pretragu sličnosti: https://github.com/facebookresearch/faiss 
[3] Hugging Face Sentence Transformers – za generiranje embeddinga: https://www.sbert.net
[4] Ollama – za lokalno pokretanje LLM-ova poput DeepSeek: https://ollama.com
[5] Streamlit – sučelje za razvoj demo aplikacije: https://streamlit.io