Das Pro­jekt Data Mining und Wert­schöp­fung der Uni­ver­si­tät Leip­zig erar­bei­tet gemein­sam mit 1000°DIGITAL einen Pro­to­ty­pen, wel­cher Infor­ma­tio­nen aus unstruk­tu­rier­ten Quel­len voll­au­to­ma­tisch in ein Chat­bot-Sys­tem inte­griert, zum Bei­spiel von Web­sites, Foren oder Doku­men­ta­tio­nen. Auf die­se Wei­se soll sich der digi­ta­le Assis­tent auch für indi­vi­du­el­le Anwen­dun­gen von Unter­neh­men eige­nen kön­nen und den anfal­len­den Kon­fi­gu­ra­ti­ons­auf­wand redu­zie­ren. Das For­schungs­pro­jekt, wel­ches sich über einen Zeit­raum von zwei Jah­ren erstreckt, wur­de nun gestartet.

Ers­te Ver­su­che mit DocChat

Die Pro­jekt­grup­pe prüft und imple­men­tiert zunächst einen bestehen­den Ansatz namens Doc­Chat. In dem For­schungs­bei­trag wer­den ver­schie­de­ne Tech­no­lo­gien in einem Ensem­ble ein­ge­setzt. Dazu gehö­ren klas­si­sche Metho­den aus dem Infor­ma­ti­on Retrie­val (IR) wie TF/IDF gewich­te­te Wort­ver­glei­che, Con­vo­lu­tio­nal Neural Net­works (CNN) for Text, Werk­zeu­ge aus der auto­ma­ti­schen Über­set­zung, z.B. Giza++ von IBM oder etwa Topic Model­le (TM). Durch die Imple­men­tie­rung des Doc­Chat-Ansat­zes soll ergrün­det wer­den, wel­che die­ser Tech­no­lo­gien den größ­ten Ein­fluss auf eine erfolg­rei­che chat­ba­sier­te Suche in unstruk­tu­rier­ten Text-Daten haben.

Am Bei­spie­le wird gezeigt, wie mit Hil­fe des Doc­Chat Ansat­zes aus einer Samm­lung von 1000 Wiki­pe­dia Arti­keln eine rich­ti­ge Ant­wort akqui­riert wird. Die Metho­de ist eng ver­wandt mit dem Open Ques­ti­on Ans­we­ring und dem Infor­ma­ti­on Retrie­val. Nur eben auf der Basis von dia­log­ba­sier­ter Kom­mu­ni­ka­ti­on. Der fol­gen­de Pro­jekt­ab­lauf sieht vor, wei­te­re ähn­li­che Ansät­ze zu prü­fen und zu erproben.

Neue gra­fi­sche Schnitt­stel­len für die Konfiguration

Die Nach­voll­zieh­bar­keit von Ent­schei­dun­gen, die inner­halb der Kom­mu­ni­ka­ti­on mit einem Dia­log­sys­tem getrof­fen wer­den, ist eine nöti­ge Infor­ma­ti­on für die Pfle­ge und den Betrieb die­ser Sys­te­me. Anhand der sequen­zi­el­len Abfol­ge von Ent­schei­dun­gen und Nut­zer­ein­ga­ben ver­steht der Chat­bot-Betrei­ber, wel­che Dau­er, Dyna­mik, Umwe­ge und Feh­ler die Kom­mu­ni­ka­ti­on mit sich bringt.

Feh­ler und die Dau­er der Kon­ver­sa­ti­on kön­nen im lau­fen­den Betrieb, wie mit einem Debug­ger, kor­ri­giert wer­den. Die Nut­zer­er­fah­rung wird wäh­rend des Betriebs kon­ti­nu­ier­lich verbessert.

Zur Dar­stel­lung der Log­da­tei­en sol­len in der künf­ti­gen Doc­Bot-Anwen­dung gerich­te­te Gra­phen genutzt wer­den. Die in den Log­da­tei­en ent­hal­te­nen his­to­ri­schen Nut­zer­ein­ga­ben und Chat­bo­t­ant­wor­ten kön­nen in Form eines Dia­log­baums abge­bil­det wer­den. Dabei sol­len vor allem Abschnit­te im Graph her­vor­ge­ho­ben wer­den, die für eine pro­ble­ma­ti­sche Nut­zer­er­fah­rung ste­hen (z.B. beson­ders lan­ge Dia­lo­ge oder Schlei­fen). Mit die­ser Unter­stüt­zung kann der Betrei­ber deren Ursa­chen  erken­nen, ent­fer­nen und das Sys­tem verbessern. 

Durch die Dar­stel­lung als gerich­te­ter Graph kann wei­ter­hin unter­sucht wer­den, ob genü­gend Sprach­er­ken­nungs­re­geln defi­niert sind, damit die defi­nier­ten Intents im Chat­bot­sys­tem trenn­scharf sind oder ob ein Nut­zer uner­wünscht zwi­schen ver­schie­de­nen Infor­ma­ti­ons­be­rei­chen sprin­gen kann.

In einer ers­ten Imple­men­tie­rung wid­men wir uns der Dar­stel­lung kom­ple­xer Dia­log-Bäu­me und wie bestimm­te Visua­li­sie­rungs­merk­ma­le (wie z.B. Zoom, Pan und View) bei der Arbeit hel­fen können.

Sie möch­ten über die Ent­wick­lun­gen des Doc­Bot-For­schungs­pro­jek­tes auf dem Lau­fen­den gehal­ten wer­den? Dann abon­nie­ren Sie jetzt unse­ren kos­ten­lo­sen Newsletter!

DocBot Projekt Chatbots ESF