hh.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
”Du är så mogen för din ålder…”: Identifiering av grooming med hjälp av en AI-språkmodell.
Halmstad University, School of Information Technology.
Halmstad University, School of Information Technology.
2024 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesis
Abstract [sv]

Genom litteratursökning och manuell datakompilering av sexualbrott mot barn, besvaras frågan “Vilka ord och fraser som förbrytare använder i konversationer är vanligt förekommande och kan användas som identifierande markörer av grooming?” och resulterade i en ordlista av könsord, sexuellt nedvärderande skällsord, och interjektioner som utrop, uppmaningar, och svordomar, som förekommer i högre utsträckning än i vardagliga konversationer. Denna lista användes för träning och test av en språkmodell som flaggar för skadlig data som kan indikera på grooming. Med en semistrukturerad intervju, kompletterat med litteratursökningen av sexualbrottmål besvarades frågan “Vilka sociala plattformar används av förbrytare för att kontakta barn med syfte att utsätta dem för sexualbrott, och varför är dessa plattformar mer använda än andra?”. Dessa metoder påvisade att Snapchat hade en överväldigande majoritet och var den mest använda plattformen, följt av Instagram på en andraplats, samt Tiktok och Kik på en gemensam tredjeplats. För att besvara den tredje frågeställningen “Kan identifiering av grooming underlättas genom Djupinlärning och Naturlig språkbehandling?" utfördes ett flertal experiment på den skapade detekteringsmodell med Naïve Bayes algoritmen som gav positiva utslag. Motiveringen till användandet av AI var att underlätta för IT-forensiker och utredare i deras arbete genom att snabbt identifiera förekomsten av grooming. Eftersom mängden data som extraheras är väldigt omfattande och innehållsklassificering har stor potential för automatisering, kan AI-modeller avsevärt minska arbetsbördan och öka effektiviteten.

Abstract [en]

By investigating and analyzing court cases, the question of which are the most commonly used words and phrases during grooming attempts that could be used as grooming indicators. A list was compiled and utilized as “harmful” and “harmless” for a training- and test dataset for an AI-model. The list contained snippets of conversations where genital, sexually derogatory terms, commands, and swear words averaged higher than in daily conversation. Through the methods of a semistructured interview and analyzing court cases, results of which social platforms perpetrators use to contact children could be compiled. This showed that Snapchat was by far the most prevalent platform used, followed by Instagram and in third place Tiktok and Kik Messaging. To answer this question, “harmless” data from the same platforms were used in the experiments. The third and final question, pertaining to the possibility of using an AI in grooming detection, was answered through multiple experiments. In an effort to determine if the conversations contained grooming or not, similar in fashion to e-mail spam classification problems, a script with Naïve Bayes as the classifier produced positive results. The goal of this study was to compile a list of words and phrases that, once used to train the model, could detect usage of these words and phrases. And notify the user if the current conversation has been flagged for suspected grooming attempts. 

Place, publisher, year, edition, pages
2024.
Keywords [sv]
Grooming, AI, Chattanalys, Ordinbäddning, Djupinlärning, Naturlig språkbehandling, Naïve Bayes, IT-Forensik, Text klassificering
National Category
Information Systems
Identifiers
URN: urn:nbn:se:hh:diva-53966OAI: oai:DiVA.org:hh-53966DiVA, id: diva2:1873879
Subject / course
Digital Forensics
Educational program
IT Forensics and Information Security, 180 credits
Supervisors
Examiners
Available from: 2024-06-20 Created: 2024-06-19 Last updated: 2024-07-01Bibliographically approved

Open Access in DiVA

fulltext(1081 kB)62 downloads
File information
File name FULLTEXT02.pdfFile size 1081 kBChecksum SHA-512
0c605a10337e164905f8ce40bb44368ff1d76d2a8aeea7a47744ac65ff41367b8ab61b339f02789e0e86b4a61f8a72795e33d10694c0db960c834d9b02d7b7b2
Type fulltextMimetype application/pdf

By organisation
School of Information Technology
Information Systems

Search outside of DiVA

GoogleGoogle Scholar
Total: 62 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 195 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf