Thanks to visit codestin.com
Credit goes to www.datacamp.com

Direkt zum Inhalt

GPT-4o API-Tutorial: Erste Schritte mit der API von OpenAI

Um über die GPT-4o-API eine Verbindung herzustellen, hol dir deinen API-Schlüssel von OpenAI, installiere die OpenAI Python-Bibliothek und benutze sie, um Anfragen an die GPT-4o-Modelle zu senden und Antworten von ihnen zu empfangen.
Aktualisierte 9. Juli 2025  · 8 Min. Lesezeit

OpenAI's GPT-4o bringt Audio, Bildverarbeitung und Text in ein einziges, starkes Sprachmodell zusammen.

Diese Entwicklung ist ein wichtiger Schritt in Richtung einer natürlicheren und intuitiveren Interaktion zwischen Mensch und Computer.

In diesem Tutorial zeige ich dir Schritt für Schritt, wie du GPT-4o über die OpenAI-API nutzen kannst.

Auch wenn OpenAI kürzlich das o3-Modellrausgebracht hat – seinleistungsfähigstes Modell für logisches Denken –, sind GPT-4o und GPT-4o mini immer noch die besten Optionen für Anwendungen, die schnelle Antworten, Bildverarbeitung oder Funktionsaufrufe brauchen. Wenn dein Projekt fortgeschrittenes Schlussfolgern erfordert, solltest du dir dieses OpenAI O1 API-Tutorial ansehen, das dich durch den Prozess der Verwendung eines Schlussfolgerungsmodells über die API führt.

Was ist GPT-4o?

GPT-4o, kurz für „omni“, ist ein großer Schritt vorwärts in der KI. Anders als GPT-4, das nur mit Text klarkommt, ist GPT-4o ein multimodales Modell, das Text, Audio und visuelle Daten verarbeitet und generiert.

GPT-4o im Vergleich zu GPT-4 Turbo

Durch die Einbindung von Audio- und Videodaten neben Text bricht GPT-4o aus den Grenzen traditioneller, rein textbasierter Modelle aus und ermöglicht so natürlichere und intuitivere Interaktionen.

GPT-4o hat eine schnellere Reaktionszeit, ist 50 % günstiger als GPT-4 Turbo und kann Audio- und Bilddaten besser verstehen als andere Modelle.

Wenn du einen genaueren Überblick über GPT-4o haben willst, schau dir diesen Artikel über „Was ist OpenAI’s GPT-4o?“ an.

Anwendungsfälle für GPT-4o

Neben der Interaktion mit GPT-4o über die ChatGPT-Schnittstelle können Entwickler auch über die OpenAI-API mit GPT-4o interagieren und so die Funktionen von GPT-4o in ihre Anwendungen und Systeme integrieren.

Die GPT-4o-API macht mit ihren multimodalen Funktionen jede Menge Anwendungsmöglichkeiten möglich:

Modalität

Anwendungsfälle

Beschreibung

Text

Textgenerierung, Textzusammenfassung, Datenanalyse und Kodierung

Erstellen von Inhalten, kurze Zusammenfassungen, Erklärungen zum Code und Hilfe beim Programmieren.

Audio

Audio-Transkription, Echtzeit-Übersetzung, Audioerzeugung

Audio in Text umwandeln, in Echtzeit übersetzen, virtuelle Assistenten erstellen oder Sprachen lernen.

Vision

Bildbeschriftung, Bildanalyse und Logik, Barrierefreiheit für Sehbehinderte

Bilder beschreiben, visuelle Infos analysieren, Barrierefreiheit für Sehbehinderte sicherstellen.

Multi

Multimodale Interaktionen, Rollenspielszenarien

Kombiniere verschiedene Sachen nahtlos und schaffe echt coole Erlebnisse.

GPT-4o API: So verbindest du dich mit der API von OpenAI

Schauen wir uns jetzt mal an, wie man GPT-4o über die OpenAI-API nutzen kann.

Schritt 1: API-Schlüssel erstellen

Bevor wir die GPT-4o-API nutzen können, müssen wir uns für ein OpenAI-Konto anmelden und einen API-Schlüssel holen. Wir können ein Konto auf der OpenAI API-Website erstellen.

Sobald wir ein Konto haben, können wir zur Seite mit den API-Schlüsseln gehen:

OpenAI API

Jetzt können wir einen API-Schlüssel erstellen. Wir müssen es sicher aufbewahren, da wir es sonst nicht mehr sehen können. Aber wir können jederzeit einen neuen erstellen, wenn wir ihn verlieren oder für ein anderes Projekt brauchen.

OpenAI API

Schritt 2: Importiere die OpenAI-API in Python

Um mit der GPT-4o-API zu programmieren, müssen wir die OpenAI Python-Bibliothek installieren. Dazu kannst du den folgenden Befehl ausführen:

Nach der Installation können wir die benötigten Module in unser Python-Skript importieren:

from openai import OpenAI

Schritt 3: Mach einen API-Aufruf

Bevor wir API-Anfragen stellen können, müssen wir uns mit unserem API-Schlüssel authentifizieren:

# Set the API keyclient = OpenAI(api_key="your_api_key_here")

Ersetz einfach „ "your_api_key_here" “ durch deinen echten API-Schlüssel.

Nachdem die Verbindung zum Client hergestellt ist, können wir mit der Textgenerierung mit GPT-4o loslegen:

MODEL = "gpt-4o"completion = client.chat.completions.create(    model=MODEL,    messages=[        {"role": "system", "content": "You are a helpful assistant that helps me with my math homework!"},        {"role": "user", "content": "Hello! Could you solve 20 x 5?"}    ])print("Assistant: " + completion.choices[0].message.content)

Dieser Codeausschnitt nutzt die Chat-Vervollständigungs-API mit dem GPT-4o-Modell, das mathematische Fragen als Eingabe nimmt und eine Antwort gibt:

GPT-4o-Codeausgabe

GPT-4o API: Anwendungsfälle für Audio

Die Transkription und Zusammenfassung von Audioaufnahmen sind mittlerweile echt wichtige Tools in vielen Bereichen, von der Verbesserung der Barrierefreiheit bis hin zur Steigerung der Produktivität. Mit der GPT-4o-API können wir Aufgaben wie das Transkribieren und Zusammenfassen von Audioinhalten ganz einfach erledigen.

GPT-4o kann zwar Audio direkt verarbeiten, aber die direkte Audioeingabe ist über die API noch nicht verfügbar. Im Moment können wir mit der GPT-4o-API in zwei Schritten Audioinhalte transkribieren und dann zusammenfassen.

Schritt 1: Audio in Text umwandeln

Um eine Audiodatei mit GPT-4o zu transkribieren, musst du die Audiodaten an die API senden. Hier ein Beispiel:

# Transcribe the audioaudio_path = "path/to/audio.mp3"transcription = client.audio.transcriptions.create(    model="whisper-1",    file=open(audio_path, "rb"),)

Ersetz „ "path/to/audio.mp3" “ durch den tatsächlichen Pfad zu deiner Audiodatei. In diesem Beispiel wird das Modell „ whisper-1 “ für die Transkription verwendet.

Schritt 2: Audio-Text zusammenfassen

response = client.chat.completions.create(    model=MODEL,    messages=[        {            "role": "system",            "content": """You are generating a transcript summary. Create a summary of the provided transcription. Respond in Markdown."""        },        {            "role": "user",            "content": [                {"type": "text", "text": f"The audio transcription is: {transcription.text}"}            ],        }    ],    temperature=0,)print(response.choices[0].message.content)

GPT-4o API: Anwendungsfälle für Vision

Die visuelle Datenanalyse ist in vielen Bereichen super wichtig, von der Gesundheitsversorgung bis zur Sicherheit und darüber hinaus. Mit der GPT-4o-API kannst du Bilder ganz einfach analysieren, über visuelle Inhalte quatschen und wichtige Infos aus Bildern rausholen.

Schritt 1: Füge Bilddaten zur API hinzu

Um ein Bild mit GPT-4o zu analysieren, musst du erst die Bilddaten an die API schicken. Dazu können wir entweder ein lokales Bild als „ base64 “-Zeichenkette kodieren oder eine URL zu einem Online-Bild angeben:

import base64IMAGE_PATH = "image_path"# Open the image file and encode it as a base64 stringdef encode_image(image_path):    with open(image_path, "rb") as image_file:        return base64.b64encode(image_file.read()).decode("utf-8")base64_image = encode_image(IMAGE_PATH)
 "url": "<https://images.saymedia-content.com/.image/c_limit%2Ccs_srgb%2Cq_auto:eco%2Cw_538/MTczOTQ5NDQyMzQ3NTc0NTc5/compound-shapes-how-to-find-the-area-of-a-l-shape.webp>"

Schritt 2: Analysiere die Bilddaten

Sobald wir das Bild verarbeitet haben, können wir die Bilddaten zur Analyse an die API weiterleiten.

Versuchen wir mal, ein Bild zu analysieren, um die Fläche einer Form zu bestimmen. Schauen wir uns erst mal das Bild unten an:

Form für GPT-4o zur Berechnung

Jetzt bitten wir GPT-4o, die Fläche dieser Form zu ermitteln – beachte, dass wir unten eine Base64-Bildeingabe verwenden:

response = client.chat.completions.create(    model=MODEL,    messages=[        {            "role": "system",            "content": "You are a helpful assistant that responds in Markdown. Help me with my math homework!"        },        {            "role": "user",            "content": [                {"type": "text", "text": "What's the area of the shape in this image?"},                {                    "type": "image_url",                    "image_url": {                        "url": f"data:image/png;base64,{base64_image}"                    }                }            ]        }    ],    temperature=0.0,)print(response.choices[0].message.content)

Schauen wir uns jetzt mal diese Form an:

Form für GPT-4o zur Berechnung

Wir schicken die Bild-URL an GPT-4o, um den Bereich der Form zu finden:

response = client.chat.completions.create(    model=MODEL,    messages=[        {            "role": "system",            "content": "You are a helpful assistant that responds in Markdown. Help me with my math homework!"        },        {            "role": "user",            "content": [                {"type": "text", "text": "What's the area of the shape in the image?"},                {                    "type": "image_url",                    "image_url": {                        "url": "https://images.saymedia-content.com/.image/c_limit%2Ccs_srgb%2Cq_auto:eco%2Cw_538/MTczOTQ5NDQyMzQ3NTc0NTc5/compound-shapes-how-to-find-the-area-of-a-l-shape.webp"                    }                }            ]        }    ],    temperature=0.0,)print(response.choices[0].message.content)

Schau mal, GPT-4o hat die Breite des vertikalen Rechtecks falsch gemessen – sie sollte vier Zentimeter betragen, nicht zwei. Diese Abweichung kommt daher, dass die Messangaben und die echten Proportionen des Rechtecks nicht ganz passen. Das zeigt mal wieder, wie wichtig es ist, dass Menschen alles checken und bestätigen.

Preise für die GPT-4o-API

Ab Juli 2025 gilt für GPT-4o die folgende Pay-as-you-go-Preisgestaltung:

  • Eingabetoken: 5,00 $ pro Million Tokens

  • Zwischengespeicherte Eingabetoken: 2,50 $ pro Million Tokens

  • Ausgabe-Token: 20,00 $ pro Million Tokens

GPT-4o Mini: Eine kostengünstige Alternative

Für Anwendungen, die viele API-Aufrufe brauchen, hat OpenAI GPT-4o Mini, eine vereinfachte Version von GPT-4o:

  • Eingabetoken: 0,60 $ pro Million Tokens

  • Zwischengespeicherte Eingabetoken: 0,30 $ pro Million Tokens

  • Ausgegebene Token: 2,40 $ pro Million Tokens

Rabatte für die Batch-API

Die Batch-API von OpenAI bietet einen Rabatt von 50 % auf die Kosten für Eingabe- und Ausgabetoken für GPT-4o:

  • Eingabetoken: 2,50 $ pro Million Tokens

  • Ausgabe-Token: 10,00 $ pro Million Tokens

Das ist super, um viele Daten gleichzeitig zu verarbeiten.

GPT-4o API: Wichtige Überlegungen

Bei der Arbeit mit der GPT-4o-API solltest du ein paar wichtige Punkte beachten, um optimale Leistung, Kosteneffizienz und die richtige Anpassung an den jeweiligen Anwendungsfall sicherzustellen. Hier sind drei wichtige Punkte, die du beachten solltest:

Preise und Kostenmanagement

Die OpenAI-API funktioniert nach einem Pay-per-Use-Modell, bei dem die Kosten von der Anzahl der verarbeiteten Tokens abhängen.

Obwohl GPT-4o günstiger ist als GPT-4 Turbo, ist es wichtig, die Nutzung gut zu planen, um die Kosten richtig einzuschätzen und im Griff zu behalten.

Um die Kosten niedrig zu halten, kannst du Techniken wie Batching und die Optimierung von Eingabeaufforderungen nutzen, um die Anzahl der API-Aufrufe und verarbeiteten Tokens zu reduzieren.

Latenz und Leistung

Auch wenn GPT-4o echt beeindruckend schnell ist und wenig Zeit braucht, ist es trotzdem ein großes Sprachmodell. Das heißt, dass die Verarbeitung von Anfragen ziemlich viel Rechenleistung braucht, was zu einer etwas längeren Wartezeit führen kann.

Wir müssen unseren Code optimieren und Techniken wie Caching und asynchrone Verarbeitung einsetzen, um Latenzprobleme zu verringern.

Außerdem können wir die speziellen Instanzen von OpenAI ausprobieren oder das Modell für unseren speziellen Anwendungsfall optimieren, um die Leistung zu verbessern und die Latenz zu verringern.

Anpassung der Anwendungsfälle

GPT-4o ist ein starkes allgemeines Modell mit vielen Möglichkeiten, aber wir müssen sichergehen, dass unser spezieller Anwendungsfall zu den Stärken des Modells passt.

Bevor wir uns nur auf GPT-4o verlassen, sollten wir unseren Anwendungsfall genau anschauen und überlegen, ob das Modell das kann, was wir brauchen.

Wenn nötig, können wir kleinere Modelle optimieren oder andere Modelle ausprobieren, die für unsere spezielle Aufgabe besser passen.

Fazit

Die multimodalen Fähigkeiten von GPT-4o's lösen die Probleme früherer Modelle, die Schwierigkeiten hatten, verschiedene Datentypen nahtlos zu integrieren und zu verarbeiten.

Mit der GPT-4o-API können Entwickler innovative Lösungen entwickeln, die Text, Audio und visuelle Daten nahtlos zusammenbringen.

Wenn du mehr mit GPT-4o üben willst, empfehle ich dir diesen Code-Along zum Erstellen von KI-Assistenten mit GPT-4o. Wenn du mehr über die Arbeit mit APIs erfahren möchtest, empfehle ich dir diese Ressourcen:

Häufig gestellte Fragen

Was ist GPT-4o und wie unterscheidet es sich von früheren Modellen?

GPT-4o ist ein multimodales Sprachmodell von OpenAI, das Text, Audio und visuelle Daten verarbeiten und erstellen kann. Anders als frühere Modelle wie GPT-4, die nur Text verarbeiten konnten, integriert GPT-4o Audio- und visuelle Infos, was natürlichere Interaktionen und verbesserte Fähigkeiten über verschiedene Modalitäten hinweg ermöglicht.

Wie können Entwickler über die OpenAI-API auf GPT-4o zugreifen?

Entwickler können auf GPT-4o über die OpenAI-API zugreifen, indem sie sich für ein OpenAI-Konto anmelden, einen API-Schlüssel anfordern und die OpenAI Python-Bibliothek installieren.

Was kostet die Nutzung der GPT-4o-API und wie sieht's im Vergleich zu anderen Modellen aus?

Die GPT-4o-API funktioniert nach einem Pay-per-Use-Modell, bei dem die Kosten von der Anzahl der verarbeiteten Tokens abhängen. Im Vergleich zu früheren Modellen wie GPT-4 ist GPT-4o um 50 % günstiger und damit erschwinglicher. Ein Preisvergleich mit anderen Modellen findest du im Artikel.

Kann GPT-4o für bestimmte Anwendungsfälle oder Branchen angepasst werden?

Ja, GPT-4o kann durch Techniken wie Transferlernen für bestimmte Anwendungsfälle oder Branchen angepasst werden. Durch die Feinabstimmung auf domänenspezifische Daten oder Aufgaben können Entwickler die Leistung des Modells verbessern und es an ihre individuellen Anforderungen anpassen.

Welche Ressourcen gibt's für mehr Infos und die Nutzung der GPT-4o-API?

Für das weitere Lernen und die Implementierung der GPT-4o-API gibt's verschiedene Ressourcen, wie Tutorials, Kurse und praktische Beispiele. Der Artikel empfiehlt, den Kurs „Arbeiten mit der OpenAI-API“ von DataCamp, das OpenAI-Cookbook und das Spickzettel von DataCamp für schnelle Referenz und praktische Implementierungshinweise zu checken.

Wann sollte ich GPT-4o und wann GPT-4o-mini verwenden?

GPT-4o ist super für komplexere Sachen, die eine gründliche Analyse, Sprachverständnis oder längere Interaktionen brauchen. Andererseits ist GPT-4o-mini schneller und kostengünstiger, sodass es sich besser für einfache Aufgaben oder wenn eine schnelle Antwort gebraucht wird, eignet. Beide Modelle können mehrere Modi gleichzeitig bedienen, aber GPT-4o ist besser, wenn es um komplexeres Denken und Interaktion zwischen verschiedenen Modi geht.

Wie schneidet die GPT-4o-API im Vergleich zur o1-API bei bestimmten Anwendungsfällen ab?

Während GPT-4o super für Aufgaben mit multimodalen Daten (Text, Audio und Bilder) ist, ist die o1-API echt gut bei komplexen Denk- und Problemlösungsaufgaben, vor allem in den Bereichen Wissenschaft, Programmierung und Mathe. Wenn du schnelle Antworten mit moderater Argumentation brauchst, ist GPT-4o die beste Wahl. Für Aufgaben, die eine gründliche logische Analyse und Genauigkeit erfordern, wie zum Beispiel das Erstellen von kompliziertem Code oder das Lösen von schwierigen mathematischen Problemen, bietet die o1-API aber mehr Möglichkeiten.

Einführung in KI-Agenten

Lerne die Grundlagen von KI-Agenten, ihre Komponenten und ihre Anwendung in der Praxis - ohne Programmierkenntnisse.
Kurs erkunden

Ryan Ong's photo
Author
Ryan Ong
Codestin Search App
Codestin Search App

Ryan ist ein führender Datenwissenschaftler, der sich auf die Entwicklung von KI-Anwendungen mit LLMs spezialisiert hat. Er ist Doktorand für natürliche Sprachverarbeitung und Wissensgraphen am Imperial College London, wo er auch seinen Master in Informatik gemacht hat. Außerhalb der Datenwissenschaft schreibt er einen wöchentlichen Substack-Newsletter, The Limitless Playbook, in dem er eine umsetzbare Idee von den besten Denkern der Welt teilt und gelegentlich über zentrale KI-Konzepte schreibt.

Themen

Lerne KI mit diesen Kursen!

Lernpfad

KI-Grundlagen

0 Min.
Lerne die Grundlagen der KI, entdecke Modelle wie ChatGPT und enthülle die Geheimnisse generativer KI – für deinen erfolgreichen Einstieg in die Welt der künstlichen Intelligenz.
Siehe DetailsCodestin Search App
Kurs starten
Mehr anzeigenCodestin Search App
Verwandt

Der Blog

Top 30 Generative KI Interview Fragen und Antworten für 2024

Dieser Blog bietet eine umfassende Sammlung von Fragen und Antworten zu generativen KI-Interviews, die von grundlegenden Konzepten bis hin zu fortgeschrittenen Themen reichen.
Hesam Sheikh Hassani's photo

Hesam Sheikh Hassani

15 Min.

Der Blog

Arten von KI-Agenten: Ihre Rollen, Strukturen und Anwendungen verstehen

Lerne die wichtigsten Arten von KI-Agenten kennen, wie sie mit ihrer Umgebung interagieren und wie sie in verschiedenen Branchen eingesetzt werden. Verstehe einfache reflexive, modellbasierte, zielbasierte, nutzenbasierte, lernende Agenten und mehr.
Vinod Chugani's photo

Vinod Chugani

14 Min.

Der Blog

Die 50 besten AWS-Interview-Fragen und Antworten für 2025

Ein kompletter Leitfaden zur Erkundung der grundlegenden, mittleren und fortgeschrittenen AWS-Interviewfragen, zusammen mit Fragen, die auf realen Situationen basieren.
Zoumana Keita 's photo

Zoumana Keita

15 Min.

Der Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

15 Min.

Der Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

4 Min.

Der Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

Mehr anzeigenMehr anzeigen