Sjefsforsker

Pierre Lison

Vis beskrivelsesinformasjon Skjul beskrivelsesinformasjon
  • Sjefsforsker ved Norsk Regnesentral
  • Førsteamanuensis II ved Universitetet i Oslo

OM

Mine viktigste forskningsinteresser ligger innen naturlig språkprosessering (NLP) og maskinlæring, spesielt trening, tilpasning og evaluering av store språkmodeller (LLM-er), samt hvordan disse kan tas i bruk i ulike anvendelser.

I løpet av min forskerkarriere har jeg arbeidet med temaer som talebaserte dialogsystemer, storskala informasjonsuttrekk, personvern i data, nevrale maskinoversettelser og samhandling mellom mennesker og roboter.

Jeg er spesielt opptatt av forskningsspørsmål i skjæringspunktet mellom språkbehandling og andre fagområder – både natur- og samfunnsvitenskapelige. Jeg deltar også i flere forsknings- og utviklingsprosjekter med fokus på innovasjon, hvor vi undersøker hvordan store språkmodeller og maskinlæring kan brukes til å løse praktiske utfordringer i offentlig og privat sektor.

Bakgrunn

Jeg er opprinnelig fra Belgia og ble uteksaminert fra Universitetet i Louvain i 2006 med en grad i informatikk og ingeniørvitenskap. Med økende interesse for koblingen mellom informatikk og språkvitenskap flyttet jeg til Saarbrücken i Tyskland for å ta en mastergrad i språkvitenskap og teknologi. Jeg fullførte graden i 2008 og jobbet deretter som forsker ved det tyske forskningssenteret for kunstig intelligens (DFKI), hvor jeg deltok i flere EU-finansierte prosjekter om utvikling av dialogsystemer for samhandling mellom mennesker og roboter.

I 2011 flyttet jeg til Norge for å ta en doktorgrad i språkgruppa ved Universitetet i Oslo. I 2014 forsvarte jeg doktoravhandlingen min om sannsynlighetsbaserte metoder for dialogstyring, og jobbet deretter i to år som postdoktor i samme gruppe med dialogmodellering for statistisk maskinoversettelse.

I 2016 begynte jeg som forsker ved Norsk Regnesentral, hvor jeg jobber med ulike forsknings- og utviklingsprosjekter innen språkprosessering og maskinlæring. To av mine nyeste prosjekter er CLEANUP, som utviklet datadrevne metoder for å fjerne personopplysninger fra tekstdata, og GraphDial, som handlet om dialogstyring og bruk av kunnskapsgrafer for å representere dialogtilstanden i komplekse samtaledomener. Andre prosjekter jeg har vært involvert i inkluderer SAFERS (taleanalyse for nødetater), DialMT (dialogmodellering for maskinoversettelse), AICOM (språklig analyse av samspill mellom mennesker og store språkmodeller), Oslo Analytics, og nylig CyberRisk (cyber-trusselintelligens og risikostyring).

I tillegg til hovedstillingen som sjefsforsker ved NR har jeg også en bistilling som førsteamanuensis II ved språkgruppa ved Universitetet i Oslo, hvor jeg bidrar i flere kurs innen maskinlæring og naturlig språkprosessering. Jeg har også tidligere vært medlem av Akademiet for yngre forskere.

Prosjekter

  • Maskinlæring
  • Språkteknologi

Anonymisering av tekst (CLEANUP)

  • Maskinlæring
  • Språkteknologi
  • Digital sikkerhet og personvern

Delautomatisering av digital risikostyring

Hvodan tolker vi maskiner som snakker?
  • Maskinlæring

Hvordan forstår vi maskiner som snakker til oss?

Publikasjoner

  • 98 publikasjoner funnet
  • Utgiver

Open Justice Data in Europe: A Patchwork Social Science Research Network (SSRN), (ISSN 1556-5068 ), doi: https://doi.org/https://download.ssrn.com/2025/5/30/5207840.pdf?response-content-disposition=inline&X-Amz-Security-Token=IQoJb3JpZ2luX2VjEJP%2F%2F%2F%2F%2F%2F%2F%2F%2F%2FwEaCXVzLWVhc3QtMSJGMEQCIBlmvG4SYRNfDcqmT9diQar3bOtQskuBa0KzqGhZGSQEAiAFPk6dw0kPu4hvzmxN3%2FzA5%2Ba%2BmYUQ%2FD9vVQA30%2FoCiiq9BQhbEAQaDDMwODQ3NTMwMTI1NyIMPAzGXKwDSnZ17MntKpoFiUaB%2BlXq%2FRZtHqQO78eDvkWaKtY9wECPt0QSf4lZj7z8R7Hq4XKa8jD6L7ngdGT%2BzFgluNgFkZzLBU8ZlJdiS4Rhxa6NtMbswxJj6Rh5cTo49ItLOMOzkm9TERQm1W%2BaqlYYgjFzYhg4BXmsf0uIjSaQBBqSEy4zZcy%2BGw2UhRaNZnX6G2Gb3Jp0SLm%2BwvUx4PRIp0et6W%2BAUU7PvED5%2BUC%2BbfNpm9BWVr9xMPeeQyjQ%2BA37gXxwrSv6jjTnzMCbHTIfNx4LfQNUfIixD0qN11eD8OUJnQrWWhiK7%2BaFeQwgLQA5hYN%2BhWiKEYEBDrTlLZBWvy1Te2v6Bo1pdA8LOycTw9o2j3QkyF91J5hvfkWVJeLdlkt3f6nnvNOHA5bj0p2xufdIknRuzywaebSvliM46TmC3FoLfhHFkI5ZCSW6C%2FRz%2BRnccS%2BeALgJXQHda0bf4imVXWqftCK%2FhfZkgMHTFadAiiqCdOB01TNaqJILeDjoBctkS6jdHwzX95h7aMTKB8p2g6QLsScS2%2FRscsqBNA2Li7cKGDeKLvSpdeqOxcdwBntx%2Flzz2j5mGwkRGg2Ap5Zvey33oAUPg2gDQmflZQxjE0uGEEHaIdC0HLWeUib3FL1Uysri1S5C6j67OYJkfefgTlCIRKNQxI8sDy0Px1siUDHRkEgFjwuqXKTzjyAPhL%2Bnzg3O0B0iXwaRIBprJ0HsugmQAgEWR3faEm5G89JPi3gbQilKSfTFnAnQ6uIR9g15Z4HMlgc7y8DkgmqH7FzVK2WS7rOSpTn4X4LfX3MB%2FpOnwHiSevr%2BgLOhyAkV%2BeZpTVga7fN6UjEVQqjksBonpXZf0cVQ6Mct9RFuBGCFNK48iwM2CrN94dWHB9WI26qbW2SWMLXdyskGOrIBM8dj6BevkrkKkAlBXQ%2F42zkLAC2X5ix63W1KL0Ylv4f3pZLGokVq39bpnnq8%2FPWwbNMHNoaeqB83s7qdeSTa38%2F3FL9dL4D3%2F3S6%2BTF7AaF0Snkz5IS0p7qplrEMktuP30639VvG1qiB6jBsvG5fMqA5fz%2BlBP8BLykef2ieAoS%2FAyGxj%2BhQjgLyu5rKO3iM93ypIQq%2BLxTA42pDYkOH8wQk7gEpLprW1i3Gu%2B3xibaQnA%3D%3D&X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Date=20251205T103943Z&X-Amz-SignedHeaders=host&X-Amz-Expires=300&X-Amz-Credential=ASIAUPUUPRWEWF6ETYH2%2F20251205%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Signature=6f5ede6ef4b5bdc1cd802032c050b1a225fb32296ebd358bfd539bcb2290ef9a&abstractId=5207840 , 2025. Vitenskapelig artikkel

Re-identification of De-identified Documents with Autoregressive Infilling pp. 1192 1209 , doi: https://doi.org/10.18653/v1/2025.acl-long.60 , 2025. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

Truthful text sanitization guided by inference attacks Applied Soft Computing, vol. 185, (ISSN 1568-4946 1872-9681 ), doi: https://doi.org/10.1016/j.asoc.2025.114013 , 2025. Vitenskapelig artikkel

Digitising health history: The creation, function and implementation of the Norwegian Health Archives Registry Health Information Management Journal, (ISSN 1833-3583 1833-3575 ), doi: https://doi.org/10.1177/18333583251389095 , 2025. Vitenskapelig artikkel

Evaluating the disclosure risk of anonymized documents via a machine learning-based re-identification attack Data mining and knowledge discovery, vol. 38, pp. 4040 4075 , (ISSN 1384-5810 1573-756X ), doi: https://doi.org/10.1007/s10618-024-01066-3 , 2024. Vitenskapelig artikkel

Identifying Token-Level Dialectal Features in Social Media , 2023. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

Generation of Replacement Options in Text Sanitization pp. 292 300 , , 2023. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

Pierre Lison; Samia Touileb; Chat GPT egner seg dårlig til eksamenssensuren Morgenbladet, (ISSN 0805-3847 0806-2617 ), 2023. Kronikk

Retrieval-Augmented Neural Response Generation Using Logical Reasoning and Relevance Scoring SemDial Proceedings, (ISSN 2308-2275 ), , 2023. Vitenskapelig artikkel

Pierre Lison; Venn med kunstig intelligens 2023. Intervju

Utgiver Norsk Regnesentral

The GDPR and Unstructured Data: Is Anonymisation Possible? International Data Privacy Law (IDPL), vol. 12, pp. 184 206 , (ISSN 2044-3994 2044-4001 ), doi: https://doi.org/10.1093/idpl/ipac008 , 2022. Vitenskapelig artikkel

Dis, c'est quoi l'intelligence artificielle? (ISSN 9782507057299 ), 2022. Populærvitenskapelig bok

Utgiver Renaissance Du Livre

Bootstrapping Text Anonymization Models with Distant Supervision pp. 4477 4487 , , 2022. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

Dialogue Management as Graph Transformations pp. 219 227 , doi: https://doi.org/10.1007/978-981-19-5538-9_15 , 2022. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

The text anonymization benchmark (TAB): A dedicated corpus and evaluation framework for text anonymization Computational Linguistics, vol. 48, pp. 1053 1101 , (ISSN 0891-2017 1530-9312 ), doi: https://doi.org/10.1162/coli_a_00458 , 2022. Vitenskapelig artikkel

Neural Text Sanitization with Explicit Measures of Privacy Risk pp. 217 229 , , 2022. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

Hva er universell utforming? 2022. Programdeltagelse

Automatic Evaluation of Disclosure Risks of Text Anonymization Methods pp. 157 171 , doi: https://doi.org/10.1007/978-3-031-13945-1_12 , 2022. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

Nicholas Thomas Walker; Torbjørn Dahl; Pierre Lison; Dialogue Management as Graph Transformations 2021. Vitenskapelig foredrag

Fremdrift i forskningsprosjekter 2021. Faglig foredrag

Skweak: Weak Supervision Made Easy for NLP 2021. Vitenskapelig foredrag

Utgiver RobotDial workshop

Welcome to Norway! , 2021. Kronikk

Assessing the Quality of Human-Generated Summaries with Weakly Supervised Learning pp. 112 123 , , 2021. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

skweak: Weak Supervision Made Easy for NLP pp. 337 346 , doi: https://doi.org/10.18653/v1/2021.acl-demo.40 , 2021. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

Vi må snakke om Bitcoin , 2021. Kronikk

Ethical and social impacts of AI 2020. Faglig foredrag

Kan kunstig intelligens "forstå" språk? Aftenposten (morgenutg. : trykt utg.), (ISSN 0804-3116 0807-2027 ), , 2020. Populærvitenskapelig artikkel

Named Entity Recognition without Labelled Data: A Weak Supervision Approach pp. 1518 1533 , , 2020. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

Pierre Lison; Jeremy Barnes; Aliaksandr Hubin; Samia Touileb; Named Entity Recognition without Labelled Data: A Weak Supervision Approach (ISSN 978-1-950737-48-2 ), 2020. Vitenskapelig antologi/Konferanseserie

Utgiver Association for Computational Linguistics

Dialogue Modelling: Small data, Big data 2019. Vitenskapelig foredrag

Open challenges in anonymisation 2019. Faglig foredrag

Tekstmining: En kort innføring , 2018. Faglig foredrag

OpenSubtitles 2018: Statistical rescoring of sentence alignments in large, noisy parallel corpora pp. 1742 1748 , , 2018. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

Detecting Machine-translated Documents in Large Parallel Corpora pp. 25 32 , , 2018. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

Utgiver Norsk Regnesentral

Incremental Processing for Neural Conversational Models SemDial Proceedings, pp. 162 163 , (ISSN 2308-2275 ), , 2017. Vitenskapelig artikkel

Automatic Detection of Malware-Generated Domains with Recurrent Neural Models Norsk Informasjonssikkerhetskonferanse (NISK), (ISSN 1893-6563 1894-7735 ), , 2017. Vitenskapelig artikkel

Redefining Context Windows for Word Embedding Models: An Experimental Study pp. 284 288 , , 2017. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

Neural Reputation Models learned from Passive DNS data pp. 3662 3671 , doi: https://doi.org/10.1109/BigData.2017.8258361 , 2017. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel

Dialogue modelling: small data and large data , 2016. Vitenskapelig foredrag

Automatic Turn Segmentation of Movie and TV Subtitles pp. 245 252 , doi: https://doi.org/10.1109/SLT.2016.7846272 , 2016. Vitenskapelig Kapittel/Artikkel/Konferanseartikkel