The Motley Fool

Wie sieht die Zukunft der künstlichen Intelligenz aus?

Langsam wird die Sache interessant.

Die künstliche Intelligenz hat sich bereits durchgesetzt. Unternehmen verwenden NVIDIAs (WKN:918422) GPUs, Xilinxs (WKN:880135) feldprogrammierbare Gate-Arrays oder ihre eigenen kundenspezifischen Chips, um maschinelle Lernmodelle zur Erkennung einer Vielzahl von verschiedenen Daten zu trainieren. Diese Methode des Trainings neuronaler Netze ist der technische Grund, warum Teslas selbstfahrende Autos Stoppschilder erkennen können und das soziale Netzwerk von Facebook Gesichter erkennen kann.

Aber wir erreichen eine aufregende und seltsame neue Ära, die auf einem Prozess namens maschinelles Lernen basiert. Anders als beim Training geht es bei der Inferenz darum, dass Computer alles, was wir ihnen beigebracht haben, nehmen, um etwas völlig Neues zu produzieren.

Nehmen wir diese Seite als Beispiel. Sie zeigt hochauflösende Bilder von normal aussehenden Menschen, die leicht deine Mitarbeiter sein  oder nebenan wohnen könnten.

Aber der Haken ist, dass keiner dieser Menschen tatsächlich existiert. Jedes der Bilder ist eine Fälschung, künstlich geschaffen von einem generativen Netzwerk, das darauf trainiert wurde, wie Augen, Nasen und Haare aussehen. Die KI hat etwas für sich allein geschaffen, basierend auf allem, was wir ihr beigebracht haben.

Das gleiche Konzept der maschinellen Inferenz ermöglicht es Google (WKN:A14Y6H) Duplex, Termine für dich zu vereinbaren, oder Amazons (WKN:906866) Alexa, proaktiv individuelle Produktempfehlungen zu geben.

Hinter den Kulissen braucht Inferenz jede Menge Rechenleistung, um tatsächlich zu funktionieren. Amazon Web Services schätzt, dass die Inferenz bis zu 90 % der für eine bestimmte Anwendung erforderlichen Rechenkosten ausmachen kann.

Mit anderen Worten, wir brauchen Innovationen bei der Hardware. Wir können nicht mehr einfach alles auf Intels CPUs laufen lassen, zumindest nicht ohne bei der Stromrechnung einen Herzinfarkt zu bekommen. Das Rennen geht weiter, um neue Chips und Software-Ökosysteme zu entwickeln, die Inferenzen am effizientesten ausführen können.

Der Weg nach vorne

Um zu sehen, was die Zukunft bringt, habe ich kürzlich mit dem Chefagitator John Cohn von IBM (WKN:851399) gesprochen. John ist einer der innovativsten Computerköpfe der Welt, mit mehr als 116 Patenten und 36 technischen Papieren, die er nach fast 40 Jahren bei einem der größten Unternehmen der Welt erworben hat.

In unserem Gespräch auf der Austin’s South by Southwest Konferenz diskutiert John, warum und wie künstliche Intelligenz so populär wurde, und die wachsende Rolle der KI-Beschleuniger. Er erklärt auch, warum er ein Fan von Field Programmable Gate Arrays (FPGAs) ist und von kundenspezifischen Siliziumchips für kommerzielle Anwendungen mit höheren Volumina.

Hier das Transkript unserer Unterhaltung

John Cohn: Nun, lasst mich nur sagen, dass ich ein großer Fan von Hardware bin. Damit habe ich mich sehr lange auseinandergesetzt und es ist sehr interessant.

Als wir vorher darüber gesprochen haben, wie die Cloud die Welt erobern würde, wie bei vielen Dingen liegt die eigentliche Wahrheit irgendwo dazwischen. Es wird ein Rebalancing zwischen lokaler Hardware und Cloud-Hardware geben. Auf beiden Seiten wird es viele technologische Fortschritte geben. Die Siliziumtechnologie, die sich ähnlich wie nach Moore’s [Gesetz] entwickelt, begann sich zu stabilisieren.

Nun, es gibt noch viel mehr Arbeit in der Architektur bei der Beschleunigung, etc. wie GPUs, TPUs. Wir haben gerade eine Milliardeninvestition in Albany für eine Gruppe angekündigt, die sich mit Technologieansätzen für KI beschäftigt.

Motley Fool Explorer Lead Advisor Simon Erickson: Ein Beschleuniger, sagst du, damit man den Code effizienter und schneller ausführen kann?

John Cohn:  Code ist eine Struktur wie ein GPU. GPUs funktionieren für die KI, weil man in einem neuronalen Netz – sagen wir mal beim Deep Learning – nur eine ganze Menge linearer Algebra macht. Du berechnest einen ganzen Haufen Kennzahlen. Das ist im Grunde genommen alles. Das Gleiche, was die Grafik für ein Spiel wirklich flüssig macht, ist, dass man nur eine Menge Matrix-Kennzahlen durchkaut.

Als 2012 damit begonnen wurde kommerzielle GPUs zu verwenden, war das eine Kombination aus Dingen wie CUDA und mehreren Schichten darüber. Ob es nun Pytorch, TensorFlow, Octave war, was auch immer, damit man den CUDA-Code nicht mehr schreiben musste. Zu diesem Zeitpunkt begannen KI und Deep Learning.

Das sind die Beschleuniger, wie viel man berechnen kann in einer bestimmten Zeit mit wie viel Strom. Denn letztendlich muss man alles in die gleiche Box stecken. Es wird immer schwieriger, da GPUs nicht dafür entwickelt wurden. Mittlerweile arbeiten viele Unternehmen, darunter wir, an weiteren Spezialbeschleunigern, den sogenannten TPUs.

Aber wir schauen sogar darüber hinaus. Ich bin dabei, einen Hardware-Cluster am MIT zu installieren, der etwa 112 Kilowatt hat. Das ist echt viel Strom. Unser menschliches Gehirn hat etwa 20 Watt, es gibt also noch viel zu verbessern.

Dort in Albany beschäftigt man sich mit allen möglichen Beschleunigungstechnologien. Wir befassen uns mit analogen Technologien. Wir sehen uns Phasenwechselspeicher an, um in der Lage sein, analoges Rechnen auf diesen Modellen neuronaler Netze durchzuführen.

Nicht unbedingt, um Code, linearen Code auszuführen, wie man es bei einem GPU tun würde. Aber um tatsächlich die analoge Berechnung durchzuführen, die ein Neuronalmodell in Analogie durchführen würde. Mit weniger Präzision, aber viel weniger Leistung. Eine ganze Menge weniger Leistung kann – wegen der Parallelität – in eine ganze Menge mehr Leistung oder ein ganzes viel größeres Modell umgewandelt werden.

Nun, du hast nach FPGAs gefragt. Du musst herausfinden, was du versuchst zu tun.

Ich glaube sehr an FPGAs als Technologie für Innovationen. Eines der wichtigsten Dinge, die du tun musst, ist, dass du in der Lage sein musst, sehr schnelle Wendungen bei der Innovation zu erreichen. Man muss einiges ausprobieren, echte Workloads darauf ausführen, repräsentative Menge, und dann einige Änderungen vornehmen.

Simon Erickson: Aber was brauchst du, um die Änderungen vorzunehmen?

John Cohn: Zur eigentlichen Architektur, wenn man also wirklich versucht, die Leistung zu optimieren – was eine Box ist – “Wie viel Leistung kann ich innerhalb eines bestimmten Energiebudgets erreichen?” Das ist im Grunde das, worum es geht. Das ist Tuning. Viele Jahre lang haben wir nur die Software getuned und die Hardware war das, was sie war., wir können es uns nicht mehr wirklich leisten, das jetzt zu tun, wenn das nicht mehr Leistung bei der Hardware bringt.

Was wir also tun müssen, ist, dass wir in der Lage sein müssen, die Softwareschichten und die Hardware-Schichten wirklich noch viel mehr zu optimieren. Fast wie in den Anfängen der Hardware. Fast wie die Tage, an denen man die Speicherbits zählen konnte. Du musstest dich wirklich, wirklich darum kümmern, wo jedes Picowatt hingeht.

Wenn man versucht, das zu tun, erstellt man eine Berechnungsstruktur wie: “Nun, ich mache das in 64 Bit, oder in 32 Bit, oder mache ich es sogar in acht Bit?” Bestimmte Berechnungen in der Bilderkennung sind tatsächlich viel schneller und wesentlich energieeffizienter bei geringerer Auflösung und gleicher Genauigkeit. Stell dir das mal vor?

Nun, der einzige Weg, eine Hardwarebeschleunigung zu erzeugen, besteht darin, die Architektur des Beschleunigers radikal verändern zu können. Um das als Chip-Zyklus zu tun, könnte es viele Millionen Dollar kosten und vier Monate dauern. Oder drei bis sechs Monate, um einen neuen Chip herzustellen, das kann sich ja kein Mensch wirklich leisten.

Simon Erickson: Ja.

John Cohn: FPGAs sind eine Art Rapid Prototyping. Ich kann eine Änderung vornehmen und in die Nähe davon kommen, aber das dauert einen Tag.

Als Bereitstellungstechnologie – wie Deep Learning – ist es eine Art abnehmende Rendite. Zu einem bestimmten Zeitpunkt gibt man so viel mehr Geld aus, und man wird wirklich in Bezug auf Kosten, Dichte und Leistung überfahren. Dass es Sinn macht, einen Chip zu machen, wenn man das entsprechende Volumen hat, ist klar. Wenn du eine sehr kleine Nische hast, etwas, wo du nicht sehr viel brauchst, dann sind die tatsächlichen Komplexitäten – die Kosten- und Risikokomplexitäten des tatsächlichen Aufbaus eines kundenspezifischen Chips – vielleicht keine gute Idee. Wenn es ein ganz spezieller Zweck ist: “Ich erkenne nur eine bestimmte Art von Bild und muss es beschleunigen, weil ich etwas in Echtzeit mache”, dann könnte ein FPGA Sinn machen. Aber wenn du ein hohes Volumen hast, denke ich persönlich, dass du dazu einen benutzerdefinierten Chip] brauchst.

Interessant ist auch, dass es Hybride zwischen einem Standard-FPGA, das jede Art von Logik emulieren kann, und feldprogrammierbaren Kombinationen höherer Funktionen gibt. Du wirst Dinge sehen, die eigentlich übergeordnete Einheiten sind, die du anpassen könntest, aber nicht den Aufwand haben, die einzelnen Logikeinheiten in FPGAs zu erstellen.

Simon Erickson: Das Beste aus beiden Welten.

John Cohn: Ja, und das ist eine Art Gleichgewicht. Letztendlich solltest du dir so etwas wie Bitcoin-Mining ansehen – und ich bin kein großer Fan von Bitcoin-Mining. Man musste schließlich einen speziellen Zweck damit verfolgen, um wettbewerbsfähig zu bleiben.

Simon Erickson: Die Frage, die ich zu beantworten versuche, die grundlegende Frage, die ich habe, ist, dass es so aussieht, als ob alle Cloud-Unternehmen jetzt FPGAs verwenden oder anfangen, sie zu verwenden, richtig? Machine Learning-Inferenz als Dienstleistung. Warum verwenden sie FPGAs?

John Cohn: Wegen der Flexibilität. Man kann die Logik an einen Workload anpassen. Ich persönlich glaube, als Hardware-Typ, dass sich das ändern wird. Wir stehen nur an einem neuen Punkt. Wo immer man diese Flexibilität braucht. Die Workloads, die bei der Inferenzierung auftreten. Dinge wie Inferencing sind irgendwie nuanciert. Wenn du tatsächlich in einer Welt landest, in der du so etwas wie GAN machst (generalized adversarial network). Was wir als Inferencing bezeichnen würden, hat tatsächlich einiges an Vorberechnung, Berechnungen dabei. Du brauchst Beschleunigung dafür. Sonst geht das nicht.

Solche Dinge sind neu. Wir wissen nicht, wie diese Hardware aussehen soll. Ich persönlich glaube, dass man irgendwann zu einem Punkt kommen wird, an dem wir aus ein paar Klassen auswählen können. Es wird schließlich eine Art Kombination aus größeren Komponenten und schließlich kundenspezifischem Silizium sein. Aber ich mag Silizium!

Bist du bereit, wie ein Profi zu investieren?

Profis schätzen nicht den richtigen Zeitpunkt ab, um zu kaufen oder zu verkaufen. Sie bauen Finanzmodelle, um den Wert eines Unternehmens zu errechnen und sie nutzen diese Modelle, um Schnäppchen zu jagen. Jetzt kannst du hinter den Vorhang blicken und sehen wie diese Modelle funktionieren. Im neuen Sonderbericht von The Motley Fool Deutschland bringt dir unser Geschäftsführer bei, wie man Finanzmodelle baut. Klick hier, um deine kostenlose Kopie zu sichern.

John Mackey, CEO von Whole Foods Market, einer Amazon-Tochtergesellschaft, ist Mitglied des Vorstands von The Motley Fool. Suzanne Frey, eine Führungskraft bei Alphabet, ist Mitglied des Vorstands von The Motley Fool. Randi Zuckerberg, ehemalige Direktorin für Marktentwicklung und Sprecherin von Facebook und Schwester von dessen CEO Mark Zuckerberg, ist Mitglied des Vorstands von The Motley Fool.

Dieser Artikel wurde von Simon Erickson auf Englisch verfasst und am 12.04.2019 auf Fool.com veröffentlicht. Er wurde übersetzt, damit unsere deutschen Leser an der Diskussion teilnehmen können.

The Motley Fool besitzt Aktien von Alphabet (A-Aktien), Alphabet (C-Aktien), Amazon, Facebook und NVIDIA und empfiehlt diese. The Motley Fool besitzt eine Shortposition auf IBM. The Motley Fool empfiehlt Xilinx.