Watchtower/Documentation.Rmd

---
title: "Git Commits analysieren"
author: "Jannis von Hagen (PFWC123A)"
date: "`r Sys.Date()`"
output: html_document
---
<div style="font-family=sans-serif; font-size:1.5rem; line-height:2;">


```{r echo=FALSE, include=FALSE, warning = FALSE}

#system("get.data.bat")
#system("format.data.bat")

diffs <- read.delim("data/diffs.txt")
commits <- read.csv("data/commits.txt", sep=";")

install.packages('plyr', repos = "http://cran.us.r-project.org")
install.packages('anytime', repos = "http://cran.us.r-project.org")
library('plyr')
library('anytime')
library('ggplot2')
library('lubridate')
```

<hr />

## 0 Inhalt

- 0 Inhalt
- 1 Einleitung
  - 1.0 Was ist git ?
  - 1.1 Angriffsvektor
  - 1.2 Hypothese
- 2 Aufbereitung der Daten
  - 2.0 Quelle
  - 2.1 Variablen
  - 2.2 Bedeutungen
- 3 Untersuchung
  - 3.1 Commits über Zeit
  - 3.2 Tageszeit der Commits einer Person
  - 3.3 Menge an Commits pro Person
  - 3.4 Menge an Änderungen pro Person
  - 3.5 Unterzeichnete Commits

## 1 Einleitung

### 1.0 Was ist git ?

**[Git](https://git-scm.com/)** ist ein Program zur Versionskontrolle von Software und ermöglicht das Kollaborieren von mehreren Personen an einem Projekt. Alle Änderungen im Quellcode werden aufgezeichnet und können bei Fehlern zurückgezogen werden um immer stabile Funktionalität zu gewährleisten. Häufig gibt es einen oder mehrere Benutzer oder Organisationen, welche die Kontrolle über ein sogennantes git *"Repository"* haben in dem sie Änderungen von Mitarbeitern akzeptieren können. Bei Quelloffener Software werden auch Änderungen von anderen, nicht zum Projekt gehörigen Personen aktzeptiert.


### 1.1 Angriffsvektor

Git zeichnet zwar Änderungen auf aber von sich aus findet keine automatische Validierung der Änderung statt.
Wenn der Zugang eines Projektmitarbeiters kompromisiert wird, kann es einem Angreifer möglich sein ohne Probleme schädlichen Code in ein Softwareprojekt zu schleußen. Auch kann ein Angreifer einfach eine schädliche Änderung anfragen und falls diese Änderung nicht richtig überprüft wird, könnte sie in das Projekt gelangen.

Der Vorteil von diesem Angriffsvektor gegenüber anderen Methoden ist, dass es eine potentiell größere Gruppe trifft.
Die Ausführbaren Versionen einer Software werden aus dem Quellcode generiert sodass jede Verbreitungsquelle der Software infiziert wird, anstatt nur eine einzige. Auch umgeht diese Methode eine Verteidigungsmethode bei der der Hash der Software geprüft wird, indem sie vor dem Hashprozess funktionert.

### 1.2 Hypothese

Git speichert alle Änderungen und Metadaten über jede Änderung im Repository. Somit sollte es also möglich sein anhand von verschiedenen Faktoren eine Wertung für jeden einzelnen Commit zu erstellen der die Auffälligkeit der Änderung im Vergleich zu anderen Änderungen im Repository beschreibt. Dies kann automatisiert passieren und kann auch von Dritten eingesetzt werden um Repositories zu überwachen, welche man nicht direkt kontrolliert aber mit dem eigenen Projekt zu tun haben.

Wichtig zu erwähnen ist hier, dass es sich dabei nur um eine Auffälligkeit handelt und jede Aufälligkeit manuell geprüft werden muss. Die Nutzererfahrung bei falsch positiven Ergebnissen sollte nur minimal beinträchtigt werden.

*Das Ziel dieser Arbeit ist nicht praktischer realer Nutzen, denn es existieren bereits ähnliche, weitsaus komplexere Konzepte zum Schutz von Repositories. Commits werden meistens schon von mindestens einer anderen Person analysiert, sodass einfach Aufälligkeiten schnell herausgefiltert werden, und echte Angreifer nutzen meist weit **[diskretere](https://nvd.nist.gov/vuln/detail/CVE-2024-3094)** Angriffswege die durch diese Analyse nicht gefunden werden können.*

Ziel ist also eine Wertung für jeden Commit zu erstellen und die potentiell relevanten Faktoren für diese Wertung in dieser Arbeit zu analyiseren.

<hr />

## 2 Aufbereitung der Daten

### 2.0 Quelle
Solange genug Datenpunkte vorhanden sind, soll das System jedes beliebiges Repository analysieren können, aber um den Anforderungen dieser Arbeit gerecht zu werden und um meine Analysen validieren zu können werde ich ein Beispiel Repository benutzen.Hierbei habe ich mich für das Git Repository von **[SDL](https://www.libsdl.org/)**entschieden.
SDL ist eine Software Bibliothek für Platformübergreifende Software. Es wird sehr häufig zur Entwicklung von unter anderen Videospielen benutzt, hat 17000 Commits und ist inzwischen 26 Jahre alt.

### 2.1 Variablen
Die Variablen, die analysiert werden, sind in zwei Dateien vorhanden, da eine 1:n Beziehung besteht.
Ein einzelner Commit kann mehrere Änderungen an Dateien besitzen, sodass dort diese Beziehung entsteht.

#### commits
- Commit Hash *//Representiert die Id des jeweiligen Commits*
- Name *//Name*
- Email *//Email*
- Time *//Zeitcode wann der Commit erstellt wurde*
- Signed *//Ob dieser Comit mit einem Schlüssel "unterschrieben" wurde*
- Binaries *//Wie viele binäre Dateien mit dem Commit verändert wurden*

#### diffs
- Commit Hash *//Representiert die Id des jeweiligen Commits*
- Add *//Menge an hinzugefügten Codezeilen*
- Remove *//Menge an entfernten Codezeilen*
- File *//Die spezifische Datei die verändert wurde*

### 2.2 Bedeutungen

Die Daten besitzen keine Fehler, müssen allerdings noch interpretiert werden.  


**Time** Ist eine Unix Timestamp, also die Zeit in Sekunden seit 1970, da wir für die Analyse aber eher die Tageszeit benötigen müssen die Daten erst umgewandelt werden.

```{r}
commits$time  <- anytime(commits$time)
```

**Signed** nutzt ein einzelnes Zeichen um anzuzeigen, ob der Commit signiert wurde,
dies kann bei der Analyse berücksichtigt werden und benötigt keiner eigenen Umwandlung.

**add** und **remove** von aus **diffs** hat manche Einträge die ein "-" anstatt einer Zahl besitzen.
Dies wird von Git benutzt, um anzuzeigen, dass es sich um eine binäre Datei handelt, bei welcher Zeilen Unterschiede keine logische Bedeutung haben.  
Diese Einträge werden mithilfe eines Skriptes entfernt und die Anzahl pro Commit, wird zu dem Commit als **binaries** hinzugefügt.

## 3 Untersuchung

### 3.1 Commits über Zeit
```{r}
  ggplot(as.data.frame(
    table(paste(
          format(na.omit(anydate(commits$time)), "%Y"), #Get the year
          sprintf("%02i", na.omit((as.POSIXlt(commits$time)$mon)) %/% 3L + 1L), #Quarter of the year
    sep = "/"))),
  aes(x=Var1, y=Freq)) + geom_point() + theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1)) +
  xlab("Zeit") +
  ylab("Commits")
```

Die vorhergehende Graphik zeigt an, wie viele Commits pro Quartal eines Jahres angefallen sind,
interessant ist hier, dass die commits in Monaten in welchen eine neue Version der Software veröffentlicht wurde besonders hoch sind. Auch gibt es einen Commit der angeblich 1970 erstellt wurde. Dies zeigt eine der ersten Möglichkeiten auf, mit der man auffällige Commits erkennen kann.


- **Falls die Jahreszahl stark von der Jahreszahl anderer Commits aufweicht ist sie auffällig**

### 3.2 Tageszeit der Commits einer Person

Man kann theoretisch die Tageszeit des Datensatzes analysieren, allerdings gäbe das keine Guten Ergebnisse, da Zeitzohnen existieren und theoretisch von jedem Land aus commited werden kann. Eine Bewertung der muss daher von den anderen Commits der Person abhängen.

```{r warning = FALSE}
times <- aggregate(as.numeric(hm(format(as.POSIXlt(time), "%H %M"))) ~ email, commits, mean)
times$`as.numeric(hm(format(as.POSIXlt(time), "%H %M")))` <- as.POSIXlt(times$`as.numeric(hm(format(as.POSIXlt(time), "%H %M")))`)

ggplot(times,
  aes(x=as.POSIXct(`as.numeric(hm(format(as.POSIXlt(time), "%H %M")))`, "%H %M"))) +  geom_histogram(bins=48) +
  scale_x_datetime(date_labels = "%H:%M") +
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1))
```
Das Diagram zeigt das Arithmetische Mittel der Zeiten wann ein Nutzer einen Commit erstellt hat. Aufällig hier ist, dass trotz der Theoretischen Zeitzonenverteilung ein Großteil der Nutzer zu ähnlichen Zeiten Commited.
Dies ist dadurch zu erklären, dass ein Großteil der Nutzer aus den USA bzw. Europa kommt und das somit diese Zeiten besonders häufig vorkommen.  
Zum bestimmen von auffälligen Commits sollte die Abweichung von eines Commits von der sonstigen Tageszeit des Nutzers benutzt werden. Hierzu muss ein Nutzer aber schon eine gewisse Menge an Commits haben.

### 3.3 Menge an Commits pro Person

```{r}
```
Die Menge an vorherigen Commits einer Person ist ebenfalls ein Faktor der einberechnet werden kann.
Je weniger commits eine Person besitzt destso aufälliger sollte ein Commit gewertet werden.
Hier zu bedenken ist, dass die Zahl der Commits einer Person bei 0 startet und langsam wächst,
nur weil eine Person wenig Commits hat, heißt das also nicht das ein Commit schädlich ist, es kann lediglich ein Faktor sein.

### 3.4 Dateien die Geändert wurden
Wir können geänderte Dateien in den Zusammenhang miteinander setzen um auffälige Muster zu finden,
wenn Dateien geändert werden die sonst nicht zusammen geändert werden.


### 3.5 Unterzeichnete Commits
```{r}

```
Signierte Commits existieren um den Urheber eines Commits festzustellen zu können, sodass keine Commits unter falschen Namen veröffentlicht werden können, ohne das dass System des Nutzers gehackt wurde. Ein Commit der signiert wurde ist somit vertrauenswürdiger als andere Commits, aber falls ein Nutzer der sonst nie Signiert plötzlich Signiert sollte dies auch einberechnet werden.

## 4 Ausblick
- Diagramme für andere Faktoren fertigstellen
- Datensatz transformieren um besser für die ML nutzbar zu sein
- ML Ansatzum für jeden Commit einen Confidence Score generieren

## Quellen

Sämtlicher Quellcode dieser Arbeit ist online verfügbar unter:  
  https://code.booklordofthe.dev/Booklordofthedings/Watchtower

- Git
  - Url: https://git-scm.com/
  - Zugriff: 20.11.2024
- Diskrete Code Backdoor
  - Url: https://nvd.nist.gov/vuln/detail/CVE-2024-3094
  - Zugriff: 20.11.2024
- SDL
  - Url: https://www.libsdl.org/
  - Zugriff: 20.11.2024
  
## Dependencies
- **Git**
  *Repository herunterladen und statistiken extrahieren*
- **Windows**
  *Die Setup Skripts sind aktuell nur als .bat Dateien vorhanden*
- **Beef**
  *C# Ähnliche Sprache, welche ich als Skriptsprache verwende*
- **R**
  *Analysesprache für dieses Projekt*
- **R Markdown**
  *Um dieses Dokument zu generieren*
- **Anytime**
  *Unix Timestamp zu Zeit Objekt umwandeln*
- **Plyr**
  *Utility Funktionen für Datensätze*

## Worterklärungen
  - Repository  
    *Ein Aufbewahrungs/Sammlungs -ort für Software Quellcode*
  - Commit  
    *Eine bestimmte Änderung an einem Repository. Kann Datein hinzufügen, entfernen oder Ändern*
  - Binäre Datei  
    *Ein Dateityp, welcher ein bestimmtes Program zum lesen braucht und nicht in Textform vorhanden ist. Die meisten Bild            Dateien sind zum Beispiel Binäre Dateien*
    
</div>
Added R markdown 2024-11-18 12:57:50 +01:00			`---`
More changes and diagrams 2024-12-06 20:15:54 +01:00			`title: "Git Commits analysieren"`
changes 2024-12-13 15:03:48 +01:00			`author: "Jannis von Hagen (PFWC123A)"`
Added R markdown 2024-11-18 12:57:50 +01:00			date: "`r Sys.Date()`"
			`output: html_document`
			`---`
changes 2024-12-13 15:03:48 +01:00			`<div style="font-family=sans-serif; font-size:1.5rem; line-height:2;">`
More stuff and documentation 2024-11-26 10:14:53 +01:00

Some general writeups for stuff and more things 2024-11-21 14:04:49 +01:00
More stuff and documentation 2024-11-26 10:14:53 +01:00
Fix document formatting a bit Warning: there is still a bug here that seemingly limits binaries to 0 2024-12-02 19:18:36 +01:00			```{r echo=FALSE, include=FALSE, warning = FALSE}
More changes and diagrams 2024-12-06 20:15:54 +01:00
			`#system("get.data.bat")`
			`#system("format.data.bat")`
More stuff and documentation 2024-11-26 10:14:53 +01:00
Yea I dont rly like git 2024-11-18 13:56:53 +01:00			`diffs <- read.delim("data/diffs.txt")`
More stuff and documentation 2024-11-26 10:14:53 +01:00			`commits <- read.csv("data/commits.txt", sep=";")`
Yea I dont rly like git 2024-11-18 13:56:53 +01:00
			`install.packages('plyr', repos = "http://cran.us.r-project.org")`
More stuff and documentation 2024-11-26 10:14:53 +01:00			`install.packages('anytime', repos = "http://cran.us.r-project.org")`
Yea I dont rly like git 2024-11-18 13:56:53 +01:00			`library('plyr')`
More stuff and documentation 2024-11-26 10:14:53 +01:00			`library('anytime')`
More changes and diagrams 2024-12-06 20:15:54 +01:00			`library('ggplot2')`
			`library('lubridate')`
Added R markdown 2024-11-18 12:57:50 +01:00			```
Yea I dont rly like git 2024-11-18 13:56:53 +01:00
Some general writeups for stuff and more things 2024-11-21 14:04:49 +01:00			`<hr />`

changes 2024-12-13 15:03:48 +01:00			`## 0 Inhalt`
More stuff and documentation 2024-11-26 10:14:53 +01:00
changes 2024-12-13 15:03:48 +01:00			`- 0 Inhalt`
More stuff and documentation 2024-11-26 10:14:53 +01:00			`- 1 Einleitung`
			`- 1.0 Was ist git ?`
			`- 1.1 Angriffsvektor`
			`- 1.2 Hypothese`
			`- 2 Aufbereitung der Daten`
			`- 2.0 Quelle`
			`- 2.1 Variablen`
More changes and diagrams 2024-12-06 20:15:54 +01:00			`- 2.2 Bedeutungen`
			`- 3 Untersuchung`
			`- 3.1 Commits über Zeit`
			`- 3.2 Tageszeit der Commits einer Person`
			`- 3.3 Menge an Commits pro Person`
			`- 3.4 Menge an Änderungen pro Person`
			`- 3.5 Unterzeichnete Commits`
More stuff and documentation 2024-11-26 10:14:53 +01:00
Some general writeups for stuff and more things 2024-11-21 14:04:49 +01:00			`## 1 Einleitung`

			`### 1.0 Was ist git ?`

changes 2024-12-13 15:03:48 +01:00			[Git](https://git-scm.com/) ist ein Program zur Versionskontrolle von Software und ermöglicht das Kollaborieren von mehreren Personen an einem Projekt. Alle Änderungen im Quellcode werden aufgezeichnet und können bei Fehlern zurückgezogen werden um immer stabile Funktionalität zu gewährleisten. Häufig gibt es einen oder mehrere Benutzer oder Organisationen, welche die Kontrolle über ein sogennantes git "Repository" haben in dem sie Änderungen von Mitarbeitern akzeptieren können. Bei Quelloffener Software werden auch Änderungen von anderen, nicht zum Projekt gehörigen Personen aktzeptiert.
Some general writeups for stuff and more things 2024-11-21 14:04:49 +01:00

			`### 1.1 Angriffsvektor`

changes 2024-12-13 15:03:48 +01:00			`Git zeichnet zwar Änderungen auf aber von sich aus findet keine automatische Validierung der Änderung statt.`
			`Wenn der Zugang eines Projektmitarbeiters kompromisiert wird, kann es einem Angreifer möglich sein ohne Probleme schädlichen Code in ein Softwareprojekt zu schleußen. Auch kann ein Angreifer einfach eine schädliche Änderung anfragen und falls diese Änderung nicht richtig überprüft wird, könnte sie in das Projekt gelangen.`

			`Der Vorteil von diesem Angriffsvektor gegenüber anderen Methoden ist, dass es eine potentiell größere Gruppe trifft.`
			`Die Ausführbaren Versionen einer Software werden aus dem Quellcode generiert sodass jede Verbreitungsquelle der Software infiziert wird, anstatt nur eine einzige. Auch umgeht diese Methode eine Verteidigungsmethode bei der der Hash der Software geprüft wird, indem sie vor dem Hashprozess funktionert.`
Some general writeups for stuff and more things 2024-11-21 14:04:49 +01:00
			`### 1.2 Hypothese`

changes 2024-12-13 15:03:48 +01:00			`Git speichert alle Änderungen und Metadaten über jede Änderung im Repository. Somit sollte es also möglich sein anhand von verschiedenen Faktoren eine Wertung für jeden einzelnen Commit zu erstellen der die Auffälligkeit der Änderung im Vergleich zu anderen Änderungen im Repository beschreibt. Dies kann automatisiert passieren und kann auch von Dritten eingesetzt werden um Repositories zu überwachen, welche man nicht direkt kontrolliert aber mit dem eigenen Projekt zu tun haben.`

			`Wichtig zu erwähnen ist hier, dass es sich dabei nur um eine Auffälligkeit handelt und jede Aufälligkeit manuell geprüft werden muss. Die Nutzererfahrung bei falsch positiven Ergebnissen sollte nur minimal beinträchtigt werden.`

			`Das Ziel dieser Arbeit ist nicht praktischer realer Nutzen, denn es existieren bereits ähnliche, weitsaus komplexere Konzepte zum Schutz von Repositories. Commits werden meistens schon von mindestens einer anderen Person analysiert, sodass einfach Aufälligkeiten schnell herausgefiltert werden, und echte Angreifer nutzen meist weit [diskretere](https://nvd.nist.gov/vuln/detail/CVE-2024-3094)* Angriffswege die durch diese Analyse nicht gefunden werden können.*`
Yea I dont rly like git 2024-11-18 13:56:53 +01:00
changes 2024-12-13 15:03:48 +01:00			`Ziel ist also eine Wertung für jeden Commit zu erstellen und die potentiell relevanten Faktoren für diese Wertung in dieser Arbeit zu analyiseren.`
Yea I dont rly like git 2024-11-18 13:56:53 +01:00
Some general writeups for stuff and more things 2024-11-21 14:04:49 +01:00			`<hr />`

			`## 2 Aufbereitung der Daten`

			`### 2.0 Quelle`
changes 2024-12-13 15:03:48 +01:00			`Solange genug Datenpunkte vorhanden sind, soll das System jedes beliebiges Repository analysieren können, aber um den Anforderungen dieser Arbeit gerecht zu werden und um meine Analysen validieren zu können werde ich ein Beispiel Repository benutzen.Hierbei habe ich mich für das Git Repository von [SDL](https://www.libsdl.org/)entschieden.`
			`SDL ist eine Software Bibliothek für Platformübergreifende Software. Es wird sehr häufig zur Entwicklung von unter anderen Videospielen benutzt, hat 17000 Commits und ist inzwischen 26 Jahre alt.`
Some general writeups for stuff and more things 2024-11-21 14:04:49 +01:00
			`### 2.1 Variablen`
Changes 2024-12-13 23:27:41 +01:00			`Die Variablen, die analysiert werden, sind in zwei Dateien vorhanden, da eine 1:n Beziehung besteht.`
			`Ein einzelner Commit kann mehrere Änderungen an Dateien besitzen, sodass dort diese Beziehung entsteht.`
Some general writeups for stuff and more things 2024-11-21 14:04:49 +01:00
			`#### commits`
			`- Commit Hash //Representiert die Id des jeweiligen Commits`
			`- Name //Name`
			`- Email //Email`
			`- Time //Zeitcode wann der Commit erstellt wurde`
			`- Signed //Ob dieser Comit mit einem Schlüssel "unterschrieben" wurde`
Fix document formatting a bit Warning: there is still a bug here that seemingly limits binaries to 0 2024-12-02 19:18:36 +01:00			`- Binaries //Wie viele binäre Dateien mit dem Commit verändert wurden`
Some general writeups for stuff and more things 2024-11-21 14:04:49 +01:00
			`#### diffs`
			`- Commit Hash //Representiert die Id des jeweiligen Commits`
			`- Add //Menge an hinzugefügten Codezeilen`
			`- Remove //Menge an entfernten Codezeilen`
			`- File //Die spezifische Datei die verändert wurde`

More changes and diagrams 2024-12-06 20:15:54 +01:00			`### 2.2 Bedeutungen`
More stuff and documentation 2024-11-26 10:14:53 +01:00
			`Die Daten besitzen keine Fehler, müssen allerdings noch interpretiert werden.`


			`Time Ist eine Unix Timestamp, also die Zeit in Sekunden seit 1970, da wir für die Analyse aber eher die Tageszeit benötigen müssen die Daten erst umgewandelt werden.`

			```{r}
More changes and diagrams 2024-12-06 20:15:54 +01:00			`commits$time <- anytime(commits$time)`
More stuff and documentation 2024-11-26 10:14:53 +01:00			```

			`Signed nutzt ein einzelnes Zeichen um anzuzeigen, ob der Commit signiert wurde,`
			`dies kann bei der Analyse berücksichtigt werden und benötigt keiner eigenen Umwandlung.`

			`add und remove von aus diffs hat manche Einträge die ein "-" anstatt einer Zahl besitzen.`
			`Dies wird von Git benutzt, um anzuzeigen, dass es sich um eine binäre Datei handelt, bei welcher Zeilen Unterschiede keine logische Bedeutung haben.`
More changes and diagrams 2024-12-06 20:15:54 +01:00			`Diese Einträge werden mithilfe eines Skriptes entfernt und die Anzahl pro Commit, wird zu dem Commit als binaries hinzugefügt.`

			`## 3 Untersuchung`

			`### 3.1 Commits über Zeit`
			```{r}
			`ggplot(as.data.frame(`
			`table(paste(`
			`format(na.omit(anydate(commits$time)), "%Y"), #Get the year`
			`sprintf("%02i", na.omit((as.POSIXlt(commits$time)$mon)) %/% 3L + 1L), #Quarter of the year`
			`sep = "/"))),`
			`aes(x=Var1, y=Freq)) + geom_point() + theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1)) +`
			`xlab("Zeit") +`
			`ylab("Commits")`
			```

			`Die vorhergehende Graphik zeigt an, wie viele Commits pro Quartal eines Jahres angefallen sind,`
			`interessant ist hier, dass die commits in Monaten in welchen eine neue Version der Software veröffentlicht wurde besonders hoch sind. Auch gibt es einen Commit der angeblich 1970 erstellt wurde. Dies zeigt eine der ersten Möglichkeiten auf, mit der man auffällige Commits erkennen kann.`


			`- Falls die Jahreszahl stark von der Jahreszahl anderer Commits aufweicht ist sie auffällig`

			`### 3.2 Tageszeit der Commits einer Person`

			`Man kann theoretisch die Tageszeit des Datensatzes analysieren, allerdings gäbe das keine Guten Ergebnisse, da Zeitzohnen existieren und theoretisch von jedem Land aus commited werden kann. Eine Bewertung der muss daher von den anderen Commits der Person abhängen.`

			```{r warning = FALSE}
			`times <- aggregate(as.numeric(hm(format(as.POSIXlt(time), "%H %M"))) ~ email, commits, mean)`
			times$`as.numeric(hm(format(as.POSIXlt(time), "%H %M")))` <- as.POSIXlt(times$`as.numeric(hm(format(as.POSIXlt(time), "%H %M")))`)

			`ggplot(times,`
			aes(x=as.POSIXct(`as.numeric(hm(format(as.POSIXlt(time), "%H %M")))`, "%H %M"))) + geom_histogram(bins=48) +
			`scale_x_datetime(date_labels = "%H:%M") +`
			`theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1))`
			```
			`Das Diagram zeigt das Arithmetische Mittel der Zeiten wann ein Nutzer einen Commit erstellt hat. Aufällig hier ist, dass trotz der Theoretischen Zeitzonenverteilung ein Großteil der Nutzer zu ähnlichen Zeiten Commited.`
			`Dies ist dadurch zu erklären, dass ein Großteil der Nutzer aus den USA bzw. Europa kommt und das somit diese Zeiten besonders häufig vorkommen.`
			`Zum bestimmen von auffälligen Commits sollte die Abweichung von eines Commits von der sonstigen Tageszeit des Nutzers benutzt werden. Hierzu muss ein Nutzer aber schon eine gewisse Menge an Commits haben.`

			`### 3.3 Menge an Commits pro Person`

			```{r}
			```
			`Die Menge an vorherigen Commits einer Person ist ebenfalls ein Faktor der einberechnet werden kann.`
			`Je weniger commits eine Person besitzt destso aufälliger sollte ein Commit gewertet werden.`
			`Hier zu bedenken ist, dass die Zahl der Commits einer Person bei 0 startet und langsam wächst,`
			`nur weil eine Person wenig Commits hat, heißt das also nicht das ein Commit schädlich ist, es kann lediglich ein Faktor sein.`

			`### 3.4 Dateien die Geändert wurden`
			`Wir können geänderte Dateien in den Zusammenhang miteinander setzen um auffälige Muster zu finden,`
			`wenn Dateien geändert werden die sonst nicht zusammen geändert werden.`


			`### 3.5 Unterzeichnete Commits`
			```{r}

			```
			`Signierte Commits existieren um den Urheber eines Commits festzustellen zu können, sodass keine Commits unter falschen Namen veröffentlicht werden können, ohne das dass System des Nutzers gehackt wurde. Ein Commit der signiert wurde ist somit vertrauenswürdiger als andere Commits, aber falls ein Nutzer der sonst nie Signiert plötzlich Signiert sollte dies auch einberechnet werden.`

			`## 4 Ausblick`
			`- Diagramme für andere Faktoren fertigstellen`
			`- Datensatz transformieren um besser für die ML nutzbar zu sein`
			`- ML Ansatzum für jeden Commit einen Confidence Score generieren`
More stuff and documentation 2024-11-26 10:14:53 +01:00
Some general writeups for stuff and more things 2024-11-21 14:04:49 +01:00			`## Quellen`

			`Sämtlicher Quellcode dieser Arbeit ist online verfügbar unter:`
			`https://code.booklordofthe.dev/Booklordofthedings/Watchtower`

			`- Git`
			`- Url: https://git-scm.com/`
			`- Zugriff: 20.11.2024`
			`- Diskrete Code Backdoor`
			`- Url: https://nvd.nist.gov/vuln/detail/CVE-2024-3094`
			`- Zugriff: 20.11.2024`
			`- SDL`
			`- Url: https://www.libsdl.org/`
			`- Zugriff: 20.11.2024`
More changes and diagrams 2024-12-06 20:15:54 +01:00
			`## Dependencies`
			`- Git`
			`Repository herunterladen und statistiken extrahieren`
			`- Windows`
			`Die Setup Skripts sind aktuell nur als .bat Dateien vorhanden`
			`- Beef`
			`C# Ähnliche Sprache, welche ich als Skriptsprache verwende`
			`- R`
			`Analysesprache für dieses Projekt`
			`- R Markdown`
			`Um dieses Dokument zu generieren`
			`- Anytime`
			`Unix Timestamp zu Zeit Objekt umwandeln`
			`- Plyr`
			`Utility Funktionen für Datensätze`
Some general writeups for stuff and more things 2024-11-21 14:04:49 +01:00
			`## Worterklärungen`
			`- Repository`
			`Ein Aufbewahrungs/Sammlungs -ort für Software Quellcode`
			`- Commit`
More stuff and documentation 2024-11-26 10:14:53 +01:00			`Eine bestimmte Änderung an einem Repository. Kann Datein hinzufügen, entfernen oder Ändern`
More changes and diagrams 2024-12-06 20:15:54 +01:00			`- Binäre Datei`
			`Ein Dateityp, welcher ein bestimmtes Program zum lesen braucht und nicht in Textform vorhanden ist. Die meisten Bild Dateien sind zum Beispiel Binäre Dateien`
More stuff and documentation 2024-11-26 10:14:53 +01:00
Some general writeups for stuff and more things 2024-11-21 14:04:49 +01:00			`</div>`