Populære Innlegg

Redaksjonens - 2019

Store data for tekst: Neste generasjons tekstforståelse og analyse

Anonim

Nyhetsportaler og sosiale medier er rike informasjonskilder, for eksempel for å forutse aksjemarkedet trender. I dag tillater mange tjenesteleverandører å søke i store tekstsamlinger ved å mate sine søkemotorer med beskrivende søkeord. Søkeord tendens til å være svært tvetydig, skjønt, og raskt vise grensene for gjeldende søketeknologi. Datavitenskapere fra Saarbrücken utviklet en ny tekstanalyseteknologi som betydelig forbedrer søking av store tekstsamlinger ved hjelp av kunstig intelligens. Utover søk hjelper denne teknologien også forfattere til å undersøke og til og med skrive tekster ved automatisk å gi bakgrunnsinformasjon og foreslå koblinger til relevante nettsider.

annonse


Ambiverse, et spin-off selskap fra Max Planck Institutt for informatikk i Saarbrücken, presenterer denne nye teknologien under Cebit 2016 i Hannover fra 14. til 18. mars på Saarlands forskningsboks.

Å leve i en alder av virksomheten smartphones og enterprise chatrooms, er mest informasjon i bedrifter ikke distribuert via talte ord, men heller via e-post, databaser og interne nyhetsportaler. "Ifølge en undersøkelse fra markedsanalytikeren Gartner, bruker bare en fjerdedel av alle selskapene automatiske metoder for å analysere sin tekstinformasjon. I 2021 forutser Gartner 65 prosent det. Dette skyldes at mengden data i bedriftene er kontinuerlig vokser og dermed blir det mer og mer kostbart å få det strukturert og å søke det med suksess, sier Johannes Hoffart, forsker ved Max Planck Institute for Informatics og grunnlegger av Ambiverse. Teamet hans utviklet en ny tekstanalyse teknologi for å analysere store mengder tekst der massiv databehandlingskraft og kunstig intelligens (AI) kontinuerlig "tenker sammen" i bakgrunnen.

"For å analysere tekster, stole vi på ekstremt store kunnskapsgrafer som er bygget på fritt tilgjengelige kilder som Wikipedia eller store medieportaler på nettet. Disse grafene kan forsterkes med domene- eller selskapsspesifikke kunnskaper, for eksempel produktkataloger eller kunde korrespondanser, sier Hoffart. Ved å bruke komplekse algoritmer, blir disse tekstene vist videre og analysert med språklige verktøy. "Vår programvare tilordner deretter selskaper og virksomhetsområder til de tilhørende kategoriene, noe som gjør at vi kan samle verdifull innsikt om hvor godt egne produkter er plassert i markedet i forhold til konkurrentene, " forklarer han. Spesielt utfordrende herved er det faktum at produkt- eller firmanavn er alt annet enn unikt og har en tendens til å ha helt forskjellige betydninger i forskjellige sammenhenger, noe som gjør dem svært tvetydige.

"Vår teknologi bidrar til å kartlegge ord og uttrykk til deres riktige objekter i virkeligheten, og dermed løse tvetydigheter automatisk, " forklarer datavitenskaperen. "Paris" representerer for eksempel lysstaden og den franske hovedstaden, men også for en figur fra gresk mytologi eller en millionfoldsnevnte partipike med tyske forfedre - alltid avhengig av kontekst. "Det er bare mulig å søke store tekstsamlinger bare hvis de forskjellige betydningen av et navn eller et konsept er riktig løst, " sier Hoffart. Den smarte søkemotoren utviklet av teamet lærer og forbedrer kontinuerlig over tid, og forbinder automatisk nye tekstoppføringer til tilsvarende kategorier. "Disse algoritmene er dermed attraktive for selskaper som analyserer elektroniske medier eller sosiale nettverk for å måle graden av merkevarekjenning for et produkt eller suksessen til en markedsføringskampanje, sier Hoffart videre.

På Cebit vil Ambiverse videre presentere en smart forfatterplattform som hjelper forfattere til å forske og skrive tekster. Brukere som skriver inn tekster, leveres automatisk med bakgrunnsinformasjon, for eksempel selskapets interne retningslinjer og håndbøker eller webkoblinger. "Relevante konsepter knyttes automatisk og lenker for videre forskning vises", sier datavitenskapsmann.

Besøkende til Ambiverse Cebit messe (hall 6, messe 28) vil også ha mulighet til å konkurrere med sin nye AI-teknologi ved å spille et spørsmålssvarespill. Ambiverse finansieres av det tyske forbundsdepartementet for økonomiske saker gjennom et eksistent overføring av forskningsbidrag.

annonse



Historie Kilde:

Materialer levert av Universitetet Saarland . Merk: Innholdet kan redigeres for stil og lengde.