AI/GenAI

Dokumentumok feldolgozása és intelligens keresése a generatív AI segítségével

Devertix

Team

2024.07.05

Dokumentumok feldolgozása és intelligens keresése a generatív AI segítségével

A 2024. június 20-án az AWS-sel közösen szervezett, Generatív AI megoldások az üzleti világ kihívásaira című rendezvényünkön az egyik előadást Cloud Engineer kollégánk, Tassy János tartotta. Íme egy összefoglaló a nagy érdeklődéssel és sok kérdéssel kísért háromnegyedóráról, a cikk végén pedig az előadás felvétele is megtekinthető.

Papírunk van a papírdokumentumok problémájáról

János előadásának első részében azokról az okokról beszélt, amelyek a dokumentumdigitalizálást szükségessé tették. A papíralapú dokumentációkezelés ugyanis nagy teret kíván, extra munkaidőt vesz el, miközben egy seregnyi fizikai problémát vet fel (például a nehéz kereshetőséget, a tűzveszélyességet, a vízkár veszélyét, a fizikai romlást, és nem utolsósorban a biztonsági aggályokat).

A probléma egyáltalán nem marginális: a Whale szoftverfejlesztő cég LinkedInen publikált, 2024. áprilisi riportja szerint a papíralapú dokumentációt használó kis- és középvállalatok aránya még mindig 45%! Van tehát még bőven tennivaló ezen a területen. A kérdés csak az: vajon az AI mennyit tud ebben segíteni? János előadásának folytatásából kiderült: nagyon is sokat.

Digitalizáljunk AI segítségével!

Amikor a papírlapú dokumentációk digitalizációjáról és a későbbi kezelésükről beszélünk, az AI alkalmazása nyilvánvaló előnyökkel rendelkezik. Idesorolhatjuk az időmegtakarítást, a hatékonyság növelését, a nagyobb pontosságot, a megbízhatóságot, a skálázhatóságot és rugalmasságot, valamint a fejlett elemzési képességek használatát.

A hagyományos dokumentumkezelés kihívásait is figyelembe véve Tassy János kollégánk többek közt a metaadatok bányászatának vagy a RAG pipeline kiépítésének szükségességéről is beszélt. Ezután következett a gyakorlati bemutató.

PDF-ből kereshető szövegegység

Az optikai karakterfelismerés problematikájában elsősorban az Amazon Textract segít: ez a vállalat gépi tanulást használó, nyomtatott szövegből vagy kézírásból, akár strukturálatlan elrendezésű dokumentumokból – esetünkben a neten fellelhető PDF-ekből – is szöveget előállító terméke. A Textract olyan folyamatokat tesz lehetővé, mint a kézírás felismerése, formák és táblázatok kinyerése, layoutelemek és aláírás felismerése, illetve a kérdés alapú adatkivonás.

Amikor sokféle irattal rendelkezünk, akkor a sok széttartó forma egységesítésében az Amazon Bedrockhoz nyúlhatunk. Itt a promptolás segítségével úgynevezett Agent-eket hozhatunk létre, amelyek nagyobb, egymástól eltérő struktúrájú PDF-irathalmokat hozhatnak egységesen kezelhető formába. Ezzel lehetővé válik a teljesen menedzselt RAG workflow, az adatbázisokhoz történő biztos csatlakozás és a releváns adatok lekérése is.

Egy újabb Amazon-termék, az S3 pedig a dokumentumarchiválás hatékony eszköze, amely olyan dolgokat tesz lehetővé, amelyről a papíralapú működésnél nem is álmodhattak a felhasználók (például külön hozzáférés-szabályok kezelése vagy verziószámok követése).

Egy kiválasztott példán keresztül János le is demózta az elméletet, és végén megtudtuk azt is, milyen költségekkel tervezhetünk egy hasonló folyamat indításakor.

Apropó, demó: a munkatársunk esettanulmányában szereplő alkalmazás hamarosan élőben is elérhető lesz ügyfeleink számára a saját AWS-fiókjukban, az AWS Marketplace-n.

Itt nézhető meg Tassy János előadása:

Legfrissebb bejegyzések

Összes

AI ügynökök és AI modellek kora - AWS re:Invent 2025 összefoglaló - 2. rész: "Minden, ami Bedrock"

2025.12.17

AWS re:Invent 2025 recap - 1. rész: AI infrastruktúra és egyéb újdonságok

2025.12.11

Vektoralapú keresés az OpenSearch erejével

OpenSearch és vektor keresés az AWS-en: Alaptechnológia a skálázható mesterséges intelligenciához

2025.08.07

Hogyan hoz üzleti értéket a mesterséges intelligencia?

2025.08.01

Témák

Cloud AI/GenAI DevOps Hírek

Szereted a sütiket?

Weboldalunk sütiket (cookie-kat) használ a felhasználói élmény javítása érdekében. Az elfogadásukkal hozzájárulsz, hogy adatokat gyűjtsünk a böngészési szokásaidról.

További részletekért látogass el az Adatkezelési tájékoztató oldalunkra.

Dokumentumok feldolgozása és intelligens keresése a generatív AI segítségével

Oldalak

Elérhetőségek

Kövess minket!