#Utveckling & Arkitektur, #AI

Digitalisering och AI på riktigt

Alla verksamheter idag är medvetna om ”Digitalisering” och att det är viktigt. Men hur ser det ut i verkligheten? Det finns många fallgropar som AI och Digitalisering sätter krav på att hantera.

AI är en del i Digitaliseringen

Digitalisering är, precis som AI, ett samlingsbegrepp. Digitalisering sammanför olika aktiviteter för att organisera och strukturera information eller automatisera processer som idag utförs manuellt. Det behöver inte bara gälla dokumentation och handlingar. Industriella processer som automatiseras eller robotiseras är lika mycket en del i en Digitalisering. Målet är och bör vara att höja kvalitén och minska risker för negativ fysisk eller psykisk belastning.

Som en del i Digitaliseringen har, som ingen kunnat undgå, AI, Artificiell intelligens seglat upp som ett inneord. Många av de tekniker och teorier som används har använts sedan länge. Det nya är att datorsystemen idag har blivit tillräckligt kraftiga för att kunna förverkliga dessa tekniker i stor skala.

I detta blogginlägg tänkte jag prata lite kring ett område där AI använts under lång tid och som är en viktig del i en organisations digitaliseringsprocess – Det är en del av AI som kallas Machine Learning (ML) som utgår från verkligheten och försöker tolka den. Till skillnad från Generativ AI som använder verkligheten (ML) för att skapa ny "information". Här tänker jag prata lite kring dokument och handlingar: hur dessa kan klassificeras och texttolkas, extrahera data. En viktig tanke att alltid ha med sig när man pratar om AI är datakvalitén. Alltså de uppgifter (data) som används för att lära upp ett AI-system måste vara korrekta. Granskning av dokument som används vid införandet av AI-system måste göras noggrant.

Inom AI är två begrepp centrala, strukturerat och ostrukturerat data.

Strukturerad information finns i dokument som förväntas innehålla samma eller likartad information på ett likartat sätt. Exempel är fakturor, blanketter och formulär.

Ostrukturerade information saknar en förväntad struktur. Nyhetsartiklar, bilder, blogginlägg, PM, sagor...

Många av de dokument som vi behöver i vårt arbete är idag redan från början digitala, till exempel ett PDF-dokument. Men mycket är skannat, alltså en bild, av ett pappersdokument. Med hjälp av tekniker som OCR (Optical Character Recognition) har man med gott resultat kunna tolka texten i bilden och på det sättet extrahera texten till datortext.

Ett visuellt exempel på strukturerad och ostrukturerad data

OCR och närbesläktade tekniker som Computer Vision(CV) and Natural Language Processing(NLP)

OCR är ett exempel på en AI teknik som använts och förfinats under ett 20-tal år. OCR handlar både om att känna igen bokstäver i olika teckensnitt, ofta dålig bild/original-kvalité. I OCR-systemen tar man även hänsyn till språk och kan koppla lexikon och grammatikregler till tolkningen för att höja kvalitén. Alltså liknande ”rättstavningen” som finns i ordbehandlare och i många webbläsare (AI, NLP). OCR-systemen är också idag riktigt bra på att tolka handskriven text. Här är det inte bara språket som kommer in som parameter utan även landet och generation av skribenter. En så enkel sak som handskrivna siffror där olika länders skolor skriver på olika sätt och detta ändrar sig med tiden. Som siffran sju 7 (Siffran sju med streck på magen), med eller utan streck på magen? Vid tolkning av handskrift är OCR mycket nära CV (Computer Vision) tekniken för att tolka mer fria bilder/tecken.

Vi tar ett strukturerat dokument, som exempel en faktura, och tittar på vilka moment ett flöde i ett OCR-system programmeras att genomföra. Målet är att tolka och extrahera den viktiga informationen från fakturan.

  • På de flesta fakturor finns en fakturaavsändare och en mottagare. Dessa uppgifter brukar finnas i den övre delen av dokumentet.
  • I den undre delen återfinns ofta bankuppgifter och organisationsnummer. Ovanför dessa brukar moms, summa finnas i en tabell.
  • OCR systemet programmeras att tolka texten i den övre delen av dokumentet. Där borde avsändarens namn finnas.
  • Tolka texten och jämför med tidigare fakturor/leverantörsregister. Slutar någon rad med ”AB”?
  • Leta efter texten ”fakturadatum” finns det text formaterat som datum i området under eller vid sidan av ”fakturadatum”?

Övre delen av en faktura

På detta sätt instruera vi OCR-systemet att läsa igenom fakturan och hitta viktig information. Har vi gjort en bra programmering kommer de flesta fakturor kunna tolkas och vi får ut en lista med de viktiga fälten för import till bokföring. Vid tolkningen kan vi också sätta upp regler för hur stor tolerans på en tolkning som ska accepteras. Vissa fakturor kommer ge för dålig noggrannhet och flaggas för manuell hantering. Moderna system kan i det läget instrueras att lära sig av den rättning som görs manuellt och på det sättet bli bättre (intelligentare) med tiden. Här är det värt att åter påminna om datakvalité: Om man lär systemet ”fel” tror systemet att det är rätt i framtiden.

OCR gäller det bara för dokument som man skannat? Nej, även helt datorgenererade PDF-filer behandlas som bilder. För det är de inbördes relationerna mellan texternas placering som ger dem dess betydelse. Vill man använda helt filbaserad dataöverföring ska man använda ett strukturerat format (för fakturering (e-faktura) finns Peppol BIS Billing 3 som är Europastandard).

För att bygga den här typen av dokumentsystem som kanske ska fungera på hela dokumentflödet i organisationen, alltså inte bara fakturor som i exemplet ovan, inför man ett klassificeringssteg. En tolkning, ofta av hela dokumentet, och en statistisk bedömning om vilken typ, klass, av dokument det har. I en faktura kan man anta att ordet "faktura" förekommer minst en gång. I en offertförfrågan ”offertförfrågan” och i en order ”order”. Även den visuella strukturen på dokumentet kan användas för klassificering.

Med resultatet av klassificeringen kan dokumentet föras vidare till ett flöde som är specialiserat på just denna klass.

Något kort om skanning och tolkning av ostrukturerade dokument.

Språk och bilder är idag inga problem att behandla i stora mängder. Alla sökmotorer på Internet har använt stora datorsystem som gör det enklare att hitta och söka information.

I en organisation där dokument som tidigare suttit i pärmar och endast den som skapat pärmen har känt till dess innehåll har nu skannats och teckentolkats så att de kan sökas via plattformar som SharePoint. Det snabbaste sättet att göra denna typ av digitalisering är att samla de skannade dokumenten i en ”mapp”, kanske baserad på texten på pärmryggen. I bästa fall kanske rubriken på det enskilda dokumentet kan ge ett filnamn. Man förlitar sig sedan på systemets sökfunktion för att återfinna ett visst dokument.

Här är ett ställe att tillämpa AI. Att analysera dokumenten genom att låta en AI baserad sökmotor strukturera och sortera dokumenten. Microsoft lanserar på bred front CoPilot med den typen av tjänster.

En viktig detalj som är lätt att glömma vid denna typ av digitalisering är behörighetsstyrning och sekretess. Varje dokument som görs tillgängligt för sökning, även inom en organisation, bör ha granskats och godkänts för en viss sekretessnivå. Strukturen eller behörighet på det enskilda dokumentet ska då givetvis följa bedömningen. Det gäller också användandet av AI-tjänster på Internet. Uppgifter som ges till dessa tjänster kan komma att användas för inlärning och underlag av tjänsten . CoPilot kan köpas i en ”endast inom organisationen” version där Microsoft garanterar att information inte lämnar din organisations lagring.

Vill du jobba med AI och digitalisering?

Hör då av dig till min kollega Amanda, på amanda.oberg@agero.se eller skicka in en ansökan till några av våra lediga tjänster.

Vill du veta mer om Agero? Lämna dina kontaktuppgifter via länken nedan så hör vi av oss!
www.agero.se/kontakt

Publicerad: 2024-04-24