Die Nadel im Heuhaufen

Hintergrund

Unternehmen haben eine riesige Menge an Informationen zur Verfügung, die nur wenige Klicks entfernt sind. Das Problem bei diesen großen Mengen an Informationen ist, dass wir als Menschen nicht in der Lage sind, sie richtig zu verdauen. Suchmaschinen wie Google helfen dabei, Informationen auf der Grundlage von Suchanfragen und Interessen zu priorisieren. Mit dem Trend zu offenen Daten haben wir jedoch festgestellt, dass nicht alle Daten in Google indexiert sind, so dass viele Quellen "unauffindbar" bleiben. 

Eine Art von Informationen sind die lokalen, regionalen und föderalen politischen Informationen. Unmengen von Berichten, detaillierten Forschungsdokumenten, ... stehen zur Verfügung, aber es ist schwierig, sie zu verwerten, da die Informationen in PDF-Dateien "stecken" oder, wie bereits erwähnt, von Google nicht indiziert werden. Viele politische Entscheidungsdokumente sind mehr und mehr Open-Source geworden. Wenn auch auf lokaler Gemeinde- oder Bezirksebene, haben diese Daten und Metadaten ihren Weg in Linked Open Data-Plattformen und Datenbanken gefunden.

In diesem Projekt möchten wir diese Herausforderung lösen. Wir wollen es vielen Unternehmen ermöglichen, diese Informationen auf einfache Weise zu erhalten, je nach Interesse an dem politischen Gerede, das über ihr Unternehmen, ihre Branche oder ihren Sektor verfügbar ist.

Eine traditionelle Herangehensweise an dieses Problem besteht darin, dass buchstäblich Menschen stundenlang Regierungserklärungen und Sitzungsnotizen durchkämmen, um Informationen zu einem bestimmten Kontext herauszufiltern. Ein modernerer Ansatz besteht jedoch darin, fortgeschrittene NLP-Techniken zu verwenden, um dies automatisch und in großem Umfang zu tun.

Ziel

Wir wollen diese Lücke schließen, indem wir eine End-to-End-Anwendung entwickeln, die:

Um Unternehmen zu bekommen:

  • Um in dieser riesigen Menge an Informationen die entscheidenden und relevanten Themen zu finden, muss man die Nadel im Heuhaufen suchen.
  • Gezielte Einblicke in besonders wichtige Ereignisse

Ihr Auftrag, lieber ML6 Intern-Agent, wenn Sie ihn annehmen wollen, ist genau das!

Funktionelle Lösung

Aus technischer Sicht könnte die Lösung wie folgt aussehen:

Natürlich sind die Dinge nicht in Stein gemeißelt, und die endgültige Festlegung des funktionalen Designs sowie die Umsetzung in das technische Design kann in Zusammenarbeit mit den leitenden Ingenieuren von ML6 erfolgen.

Beteiligte Technologien

Auf der Ebene des maschinellen Lernens:

  • NLP
  • Schlüsselwort-Extraktion
  • Erkennung benannter Entitäten
  • Extraktive Verdichtung
  • Technisch gesehen
  • Serverlose Backend-Anwendungen
  • Microservice-Architektur
  • Apache Beam
  • Ereignisgesteuerte Aufgabenarchitektur
  • Data Warehousing
  • Scraping (Scrapy-Framework)
  • Allgemeine Arbeitsweise
  • Google Cloud-Plattform
  • Trello
  • Bitbucket

Wenn Sie also eine Person mit breit gefächerten Interessen in den Bereichen Machine Learning, Data Engineering und Software Engineering sind: Sie sind der/die Richtige für diesen Job 😎!