Mit Wirkung zum 29. Dezember 2022 hat The Motley Fool seine Geschäftsanteile an Fool.de an Aktienwelt360 verkauft. Ab diesem Zeitpunkt trägt Aktienwelt360 die alleinige Verantwortung und Kontrolle für alle neuen Inhalte auf Aktienwelt360.de.

SimFin – Mit KI automatisiert von der IR-Seite zu aufbereiteten Finanzdaten

Big Data Aktie
Foto: Getty Images

In den letzten beiden Teilen hat Thomas Flassbeck, der Gründer und Geschäftsführer von SimFin, die Idee von möglichst kostengünstigen Unternehmensdaten für alle vorgestellt. Daneben hat er uns einen Ausblick auf die Internationalisierung der Fundamentaldaten gegeben. Heute möchten wir uns vor allem mit der technischen Seite hinter dem Angebot beschäftigen.

Der Blick in den Maschinenraum, um Fundamentaldaten zu erzeugen

Kannst du den Prozess beschreiben, mit dem ihr Finanzdaten für neue Firmen einbindet?

🙌 Was ist dir unsere Arbeit wert?

Wir bei Aktienwelt360 denken, dass gutes Investieren mit guten Informationen beginnt. Das treibt uns an, täglich neue kostenlose Artikel für dich zu veröffentlichen, die tiefer gehen als die Berichte der anderen Aktienportale dort draußen.

Leider hat gute Recherche ihren Preis. Aber wir sträuben uns dagegen, deshalb aus Aktienwelt360 eine Halde für unseriöse Onlinewerbung zu machen. Um weiter unabhängig bleiben zu können, wenden wir uns heute an dich: Sag uns, was dir unsere Artikel wert sind! Über den folgenden Link kannst du kinderleicht einen Beitrag leisten, der uns hilft, dich weiter mit hochwertigen Inhalten zu versorgen.

TRINKGELD GEBEN

Wir haben verschiedene Crawler. Mit diesen lassen sich automatisiert Dokumente im Web durchsuchen. Für amerikanische Unternehmensdaten wird auf der SEC Website nach den Daten von einer Firma gesucht. Für internationale Finanzdaten werden erst mal Jahres- und Quartalsberichte in PDF Form gecrawlt. Wenn der Crawler nicht alles findet, werden die notwendigen Dokumente manuell hochgeladen.

Was passiert dann mit den Dokumenten?

Aus den Berichten extrahieren wir die Rohdaten. Dieser Vorgang ist für PDFs relativ kompliziert und für die US-Finanzdaten vergleichsweise einfach. Die Daten werden dann an eine API geschickt. Diese konsolidiert die Fundamentaldaten von allen Berichten. Das heißt, mehrere Zeitperioden werden zusammengeführt. An dieser Stelle entscheidet sich auch, welche Daten von den Rohdaten relevant sind und welche nicht. Wir standardisieren dann die zusammengeführten Finanzdaten. Das bedeutet, dass wir die Rohdaten vereinheitlichen. So können wir die Kennzahlen in einer aggregierten Tabelle im Zeitverlauf darstellen.

Wie stellt ihr die Datenqualität für die importierten Daten sicher?

Wir überprüfen für alle Unternehmensdaten im Prinzip, ob die „Summen“, die eine Firma in ihren Rohdaten veröffentlicht hat, mit unseren berechneten Zahlen übereinstimmen. Also zum Beispiel für die GuV: Stimmt der von der Firma veröffentlichte Gewinn mit dem von uns berechneten Gewinn (also Umsatz minus Kosten etc.) überein? Wenn eine falsche Zuordnung stattgefunden hat, gibt es hier eine Differenz.

Hört sich nach viel manueller Arbeit an.

Ja, am Anfang. Mittlerweile haben unsere Algorithmen aber schon so viel von unseren manuellen Korrekturen „gelernt“, dass der ganze Prozess sehr effizient abläuft. Das ist ja das Gute an Machine Learning, dass das System über die Zeit immer besser wird, wenn man die Fehler kontinuierlich korrigiert.

Die Vor- und Nachteile der Methoden

Für die amerikanischen Unternehmen verwendet ihr die Finanzdaten, die von der SEC zur Verfügung gestellt werden. Was sind hier die Probleme?

Wir haben bis vor Kurzem die maschinenlesbaren XBRL-Daten verwendet, weil diese am „einfachsten“ auszulesen sind. Jeder Zahl sind zum Beispiel bereits eine Periode und eine Größeneinheit zugeordnet. In den XBRL-Daten sind aber leider relativ viele Fehler, also echte Zahlendreher oder ein Minuszeichen das fehlt. Teilweise fehlen die Unternehmensdaten auch einfach komplett.

Nicht die besten Voraussetzungen …

Ja, genau, deshalb sind wir jetzt dazu übergegangen, die HTML-Daten auf der SEC-Seite zu verwenden. Diese enthalten viel weniger Fehler. Jedoch muss man bei diesen mehr automatisiert erkennen. Welcher Zeitperiode ist eine Zahl in einer Tabelle zuzuordnen? Welche Einheit wird verwendet? Hierfür haben wir jetzt verschiedene neuronale Netze, die das sehr gut hinbekommen. Wir überprüfen dann noch mal den finalen Output von dem neuen HTML-Crawler mit den XBRL-Daten. Aber XBRL ist jetzt nicht mehr unsere primäre Datenquelle.

Ende 2018 habt ihr euch recht zuversichtlich zu eurem neuen PDF-Crawler gezeigt, welcher die Finanzdaten auch für internationale Unternehmen sammeln kann. Weshalb sind trotzdem wenige internationale Unternehmen in eurer Datenbank?

Ende 2018 war die Alpha-Version des PDF-Extractors fertig, mit dem man aus den PDFs die Rohdaten für die GuV, Bilanz etc. extrahieren kann. Für viele Unternehmen hat das auch sehr gut funktioniert, für einige gab es aber noch Probleme. Das heißt, es gab ein „Proof of Concept“, aber das Ganze wirklich zu skalieren, also nicht nur für 5 Unternehmen anzuwenden, sondern für 100 oder 1.000, ist noch einmal eine andere Sache.

Was ist jetzt der Stand?

Nach der kompletten Überarbeitung des Backends sind wir zuversichtlich hinsichtlich der Verwendung des PDF-Crawlers. Das Ziel ist es, damit noch im Januar den DAX abzudecken.

Der Bärenmarkt-Überlebensguide: Wie du mit einer Marktkorrektur umgehst!

Ein erneutes Aufflammen von Corona in China, Krieg innerhalb Europas und eine schwächelnde Industrie in Deutschland in Zeiten hoher Inflation und steigender Zinsen. Das sind ziemlich viele Risiken, die deinem Depot nicht guttun.

Hier sind vier Schritte, die man unserer Meinung nach immer vor Augen haben sollte, wenn der Aktienmarkt einen Rücksetzer erlebt.

Klick hier, um diesen Bericht jetzt gratis herunterzuladen.



Das könnte dich auch interessieren ...