The Motley Fool
Werbung

SimFin – Mit KI automatisiert von der IR-Seite zu aufbereiteten Finanzdaten

Foto: Getty Images

In den letzten beiden Teilen hat Thomas Flassbeck, der Gründer und Geschäftsführer von SimFin, die Idee von möglichst kostengünstigen Unternehmensdaten für alle vorgestellt. Daneben hat er uns einen Ausblick auf die Internationalisierung der Fundamentaldaten gegeben. Heute möchten wir uns vor allem mit der technischen Seite hinter dem Angebot beschäftigen.

Der Blick in den Maschinenraum, um Fundamentaldaten zu erzeugen

Kannst du den Prozess beschreiben, mit dem ihr Finanzdaten für neue Firmen einbindet?

3 Aktien, die jetzt von der Digitalisierung der Welt profitieren Das Coronavirus verändert nachhaltig die Welt, in der wir leben. Die Digitalisierung der Welt ist nicht mehr aufzuhalten und erfährt aktuelle eine massive Beschleunigung. The Motely Fool hat jetzt 3 Unternehmen identifiziert, die von diesem Mega-Trend in 2020 und den kommenden Jahren stark profitieren werden. Für uns Kerninvestments der neuen, digitalen Welt 2.0. Fordere die kostenlose Analyse jetzt hier ab..

Wir haben verschiedene Crawler. Mit diesen lassen sich automatisiert Dokumente im Web durchsuchen. Für amerikanische Unternehmensdaten wird auf der SEC Website nach den Daten von einer Firma gesucht. Für internationale Finanzdaten werden erst mal Jahres- und Quartalsberichte in PDF Form gecrawlt. Wenn der Crawler nicht alles findet, werden die notwendigen Dokumente manuell hochgeladen.

Was passiert dann mit den Dokumenten?

Aus den Berichten extrahieren wir die Rohdaten. Dieser Vorgang ist für PDFs relativ kompliziert und für die US-Finanzdaten vergleichsweise einfach. Die Daten werden dann an eine API geschickt. Diese konsolidiert die Fundamentaldaten von allen Berichten. Das heißt, mehrere Zeitperioden werden zusammengeführt. An dieser Stelle entscheidet sich auch, welche Daten von den Rohdaten relevant sind und welche nicht. Wir standardisieren dann die zusammengeführten Finanzdaten. Das bedeutet, dass wir die Rohdaten vereinheitlichen. So können wir die Kennzahlen in einer aggregierten Tabelle im Zeitverlauf darstellen.

Wie stellt ihr die Datenqualität für die importierten Daten sicher?

Wir überprüfen für alle Unternehmensdaten im Prinzip, ob die „Summen“, die eine Firma in ihren Rohdaten veröffentlicht hat, mit unseren berechneten Zahlen übereinstimmen. Also zum Beispiel für die GuV: Stimmt der von der Firma veröffentlichte Gewinn mit dem von uns berechneten Gewinn (also Umsatz minus Kosten etc.) überein? Wenn eine falsche Zuordnung stattgefunden hat, gibt es hier eine Differenz.

Hört sich nach viel manueller Arbeit an.

Ja, am Anfang. Mittlerweile haben unsere Algorithmen aber schon so viel von unseren manuellen Korrekturen „gelernt“, dass der ganze Prozess sehr effizient abläuft. Das ist ja das Gute an Machine Learning, dass das System über die Zeit immer besser wird, wenn man die Fehler kontinuierlich korrigiert.

Die Vor- und Nachteile der Methoden

Für die amerikanischen Unternehmen verwendet ihr die Finanzdaten, die von der SEC zur Verfügung gestellt werden. Was sind hier die Probleme?

Wir haben bis vor Kurzem die maschinenlesbaren XBRL-Daten verwendet, weil diese am „einfachsten“ auszulesen sind. Jeder Zahl sind zum Beispiel bereits eine Periode und eine Größeneinheit zugeordnet. In den XBRL-Daten sind aber leider relativ viele Fehler, also echte Zahlendreher oder ein Minuszeichen das fehlt. Teilweise fehlen die Unternehmensdaten auch einfach komplett.

Nicht die besten Voraussetzungen …

Ja, genau, deshalb sind wir jetzt dazu übergegangen, die HTML-Daten auf der SEC-Seite zu verwenden. Diese enthalten viel weniger Fehler. Jedoch muss man bei diesen mehr automatisiert erkennen. Welcher Zeitperiode ist eine Zahl in einer Tabelle zuzuordnen? Welche Einheit wird verwendet? Hierfür haben wir jetzt verschiedene neuronale Netze, die das sehr gut hinbekommen. Wir überprüfen dann noch mal den finalen Output von dem neuen HTML-Crawler mit den XBRL-Daten. Aber XBRL ist jetzt nicht mehr unsere primäre Datenquelle.

Ende 2018 habt ihr euch recht zuversichtlich zu eurem neuen PDF-Crawler gezeigt, welcher die Finanzdaten auch für internationale Unternehmen sammeln kann. Weshalb sind trotzdem wenige internationale Unternehmen in eurer Datenbank?

Ende 2018 war die Alpha-Version des PDF-Extractors fertig, mit dem man aus den PDFs die Rohdaten für die GuV, Bilanz etc. extrahieren kann. Für viele Unternehmen hat das auch sehr gut funktioniert, für einige gab es aber noch Probleme. Das heißt, es gab ein „Proof of Concept“, aber das Ganze wirklich zu skalieren, also nicht nur für 5 Unternehmen anzuwenden, sondern für 100 oder 1.000, ist noch einmal eine andere Sache.

Was ist jetzt der Stand?

Nach der kompletten Überarbeitung des Backends sind wir zuversichtlich hinsichtlich der Verwendung des PDF-Crawlers. Das Ziel ist es, damit noch im Januar den DAX abzudecken.

Buffetts Mega-Milliardenwetten zum Nachahmen

Bis zu 130 Mrd. US-Dollar investiert Investorenlegende Warren Buffett in nur ein einziges Unternehmen. Das zeugt von riesigem Vertrauen in das Zukunftspotential.

Buffett hat so einige Mega-Milliardeninvestments in seinem Portfolio. Wir haben sie näher analysiert, und angesehen, inwieweit sie sich zum Nachahmen eignen.

Du kannst alle Details und unsere Tipps dazu erfahren, indem du unseren kostenlosen Spezialreport hier anforderst.

Wo du jetzt 1.000 EUR investieren kannst

Anlage-Experte Bernd Schmid von Stock Advisor Deutschland hat soeben seine 5 Top Aktien veröffentlicht, in die du seiner Meinung nach jetzt investieren kannst. Immerhin schlägt Stock Advisor Deutschland den Markt um den Faktor 3.

Tausende von Anlegern vertrauen deshalb bereits seinen Aktien-Empfehlungen, von denen sich viele bereits verdoppelt, verdreifacht oder sogar vervielfacht haben. Plus: 6 Monate nutzen, nur 3 Monate zahlen.

Teste jetzt 30 Tage lang Stock Advisor Deutschland und erhalten sofortigen Zugriff auf alle aktuellen Kaufempfehlungen und Inhalte!

Klick hier für alle Details!