An experience of unsupervised learning

In my previous post I’ve explained why I think you should learn machine learning and promised to share my experiences with its unsupervised part.

The unsupervised machine learning has a mystical attraction. You don’t even bother to label the examples, just send them to the algorithm, and it will learn from them, and boom – it will automatically separate them to classes (clustering).

When I was studying electrical engineering, we’ve learned about the so called optimal filters, which are electrical circuits that can extract the useful signal from the noise, even though the noise is 100 times stronger than the signal, so that a human eye cannot even see the signal. This was like a magic, and a similar magic I have expected in this case: I would pass the examples to the clustering algorithm, and it will explore the hidden relationships between the data and give me some new, unexpected and useful insights…

Today, having tried it, I still believe that some other algorithms (maybe deep learning?) are able to produce such a magic (because well, you should never stop believing in magic), but my first impression was somewhat disappointing.

The very first thing the clustering algorithm wanted to know from me, is how many clusters it should look for. Pardon me? I’ve expected that you will find the clusters and tell me, how many clusters are there in my data? If I have to pass the number of clusters beforehand, it means I have to analyse the data to find out its inherent clustering structure, and it means I have to perform all that work what I’ve expected to be performed magically by the algorithm.

Well, it seems that the state of the art of current clustering algorithms indeed cannot find clusters autonomously and fully unsupervised, without any hint or input from the user. Some of them don’t require the number of clusters, but need some equivalent parameter, like the minimum number of examples needed in the neighborhood to establish a new cluster. But well, on the other case, this still allows for some useful applications.

One possible use case could be automatic clustering per se: if your common sense and domain knowledge tell you that the data has exactly N clusters, you can just run the data through the clustering algorithm, and there is a good chance that it will find exactly the clusters you’ve expected: no need to define all the rules and conditions separating the clusters manually. Besides, it will define centroids or medoids of each cluster, so that if new, unclastered objects are added daily, you can easily assign them to existing clusters by calculating distances to all centroids and taking the cluster with the shortest distance.

Another use case would be, if you don’t really care about the contents of the clusters and the clusters aren’t going to be examined by humans, but rather use clustering as a kind of lossy compression of the data space. A typical example would be some classical recommendation engine architectures, where you replace the millions of records with some smaller number of clusters, with some loss of recommendation quality, just to make the computation task at hand to be feasible for available hardware. In this case, you’d just consider how many clusters, at most, your hardware can handle.

Yet another approach, and I went this way, is to ask yourself, how many clusters is too little and how many clusters is too many? I was clustering people, and wanted to provide my clusters to my colleagues and to myself, to be able to make decisions on them. Therefore, due to well-known human constraints, I was looking for at most 7 to 8 clusters. I also didn’t want to have less than 5 clusters, because intuitively, anything less in my case would be underfitting. So I’ve played with parameters until I’ve got a reasonable number of clusters, and clusters of reasonable (and understandable for humans) content.

Speaking of which, it took a considerable amount of time for me to evaluate the clustering results. Just like with any machine learning, it is hard to understand the logic of the algorithm. In this case, you will just get clusters numbered from 0 to 7, and each person will be assigned to exactly one cluster. Now it is up to you to make sense of the clusters and to undestand, what kind of people were grouped together. To facilitate this process, I’ve wrote a couple of small functions returning to me the medoids of each clusters (i.e. the single cluster member who is nearest to the geometrical center of the cluster, or in other words, the most average member of the cluster), as well as average values of all features in the cluster. For some reason, most existing clustering algorithms (I’m using scikit-learn) don’t bother of computing and giving this information to me as a free service, which, again, speaks about the academic rather than industrial quality of modern machine learning frameworks.

By the way, another thing that was not provided for free was pre-scaling. In my first attempts, I’ve just collected my features, converted them to real numbers, put them in a matrix and fed this matrix to the clustering algorithm. I didn’t receive any warnings or such, just fully unusable results (like, several hundreds of clusters). Luckily for me, my previous experience with supervised learning had taught me that fully unusable results normally mean some problem with the input data, and I’ve got to the idea to scale all the features to be in the range of 0 to 1, just like with the supervised learning. This had fixed this particular problem, but I’m still wondering, if the clustering algorithms usually cannot meaningfully work on unscaled data, why don’t they scale data for me as a free service? In the industrial grade software, I would rather needed to opt-out of the pre-scaling by setting some configuration parameter, in case I wanted to turn it off in some very unique and special case, than having to implement scaling myself, which is the most common case anyway. If it is some kind of performance optimization, I’d say it is a very, very premature one.

But I digress. Another extremely useful tool helping to evaluate clustering quality was the silhouette metric (and a framework class implementing it in scikit-learn). This metric is a number from 0 to 1 showing how homogeneous the cluster is. If a cluster has silhouette of 0.9, it means that all members of this cluster are very similar to each other, and unsimilar to the members of another clusters.

Least but not last, clustering algorithms tend to create clusters for many, but not for all examples. Some of the examples remain unclustered and are considered to be outliers. Usually, you want the clustering algorithm to cluster the examples in a such way that there will me not too many outliers.

So I’ve assumed the following simple criteria:

  • 5 to 8 clusters
  • Minimal silhouette of 0.3
  • Average silhouette of 0.6
  • Less than 10% of all examples are outliers

and just implemented a trivial grid search across the parameters of the clustering algorithm (eps and min_samples of the DBSCAN, as well as different scaling weights for the features), until I’ve found the clustering result that suited all of my requirements.

To my astonishment, the results corresponded very well to my prior intuitive expectations based on some domain knowledge, but also have created a very useful quantitative measure of my previous intuitive understanding.

All in all, unsupervised learning can be used to gain some benefits from the data, if you don’t expect too much from it. I think, to gain more business value, we have to make the next step and to start a project including deep learning. In USA and China it seems to be that virtually everyone is doing deep learning (I wonder if Bitcoin farms can be easily repurposed for that), but it Germany it is rather hard to find anyone publicly admitting doing this. Although the self-driving cars of German manufacturers, already existing as prototypes, would be impossible without some deep learning…


Wir haben mal eine Fertighaus-Welt besucht und uns 10 Fertighäuser angeschaut. Am Ende war ich dermaßen frustriert und enttäuscht, dass ich nun unbedingt einen Post schreiben muss, um mich zu beruhigen.

Das hängt damit zusammen, dass ich kein einziges Haus gefunden habe, das für meine persönliche Begriffe ausreichend praktisch (geschweige denn: gemütlich) konzipiert wurde.

Die meisten gezeigten Fertighäuser haben einen Wohnzimmer-Bereich, der von der Fläche her vergleichbar oder größer war, als die Küche oder Essbereich. Wer bitte schön braucht noch im 21. Jahrhundert ein Wohnzimmer!? Was könnte man dort tun? Fernseher schauen? Gibt es echt noch so viele Familien, die regelmäßig Fernseher schauen? Und was schauen sie dort? Nachrichten? Das kann man gut beim Abendessen im Essbereich tun. Fußball? Ebenso im Essbereich, Tisch beiseite schieben, Sandsäcke o.ä. zum sitzen holen. Filme und TV-Serien? Lieber im Schlafzimmer. Was könnte man noch im Wohnzimmer tun? Buch lesen, Musik hören? Wieso kann man es nicht im Schlafzimmer tun? Zocken? Esstisch beiseide stellen, Sandsäcke, loszocken. Eine Party empfangen? Wie oft empfangt man denn pro Jahr eine Party, so dass dafür schätzungsweise 30000€ für einen expliziten Wohnzimmer-Bereich ausgegeben werden soll? Und sind Parties nicht besser draußen auf der Terrasse?

Die nächste Frage: ein Gäste-WC direkt nach dem Eingang. Ich bin bald 40, und in all diese Zeit hat sich bei uns niemals jemand geklingelt, um mal kurz auf die Toilette zu gehen. Also weg damit.

Dann, eine Eckwanne oder Jacuzzi im Badezimmer. Alle Häuser hatten sie ausnahmslos. In einem Haus stand die Badewanne sogar im Schlafzimmer. Hier bin ich extrem subjektiv, aber solche Einrichtungen sind für mich Luxus. Ich habe schon mal in 5-Sterne Hotels übernachtet, die solche große Badewannen gehabt haben. Ich kann mir aber nicht leisten, jedes Mal in einem 5-Sterne Hotel zu übernachten. Wieso soll ich dann diesen Luxus bei mir Zuhause jeden Tag leisten können? Insbesondere wenn es um Fertighäuser geht, wo Menschen doch sehr oft aus der Zielgruppe sind, die sich kein Architektenhaus leisten kann.

Für meine Begriffe, der einzige standfeste Grund, überhaupt eine Badewanne im Hause zu haben (egal wie groß) ist, dass man dort Kleinkinder badet, solange sie sich nicht selber duschen können.

Ja, ja, ich habe schon gehört, wie schön es ist, in der aromatisierten Badewanne sich mal zu entspannen, kann aber nicht sehen, wieso man sich dieses Luxus täglich gönnen können muss? Denn alles, was im Hause steht, sollte auch idealerweise jede Woche benutzt werden. Fürthermare ist um die Ecke und ist viel preiswerter, großer und gesünder als eine Möchte-Gern-Jacuzzi in einem Fertighaus.

Als nächstes kommen die unfassbaren Quadratmeterzahlen pro Person. Das schlimmste war das LUX-Haus, das mit ca. 200qm für nur maximal zwei Personen konzipiert wurde. Hallo? Leute? Wer in einem Schloss wohnen möchte, der kommt doch bestimmt nicht zu euch nach Heßdorf, um sich ein LUX-Fertighaus zu bestellen? Aber auch die anderen Häuser waren nicht deutlich besser. Die meisten Häuser waren für eine Familie aus Eltern und 1 bis 2 Kinder gedacht. Dabei hatten sie ruhig mal um die 200qm Wohnfläche, also durchschnittlich 50qm pro Person. Was soll denn diese Person mit so viel Fläche machen? Go-Kart fahren? Reiten? Putzen müsste man sie aber auf jeden Fall.

Oder auch so: wenn ich es mal wieder mit Hotels vergleiche, würde dieses Verhältnis der Quadratmeter pro Person eher einer Suite entsprechen. Inwiefern wird gedacht, dass jeder, der sich ein Haus bauen möchte, sich es leisten kann, täglich in einer Suite zu wohnen?

Oder noch ein Vergleich. Wieso gelten die gleichen Maßstäbe nicht für die Wohnungen? Eine 4-Zimmer Wohnung für die gleich große Familie hat nur 100qm Wohnfläche. Wieso muss ein Haus plötzlich doppelt so viel Fläche haben? Bloß wenn jemand ein Haus kaufen möchte, heißt doch noch nicht, dass er doppelt so viel verdient, als die Familien, die in einer Wohnung wohnen.

Wir haben ein Mehrgenerationshaus gesucht, zwei Etagen, für zwei Familien, mit 70-80qm pro Familie. Dass wir nichts sofort Passendes finden, war uns schon bewusst. Aber dass die Lage so schlimm ist, dass sich die Einfamilienhäuser nicht ohne viel Aufwand in MGH umwandeln können, habe ich nicht erwartet. Vor allem verstehe ich dann nicht, wieso sie einerseits so viel Fläche haben, und andererseits absolut unflexibel sind? Einige Häuser waren sogar eindeutlich für Kinder von 5 bis 12 Jahren konzipiert. Ab 13 Jahren würde das Kind sein Haus schon extrem hassen, und mit 18 zieht er dann sofort weg. Dann steht die teuer bezahlte und aufwendig gebaute Fläche leer.

Und generell, wieso bezahlen Leute für eine Fläche, die ungenutzt Staub fängt? Nur damit sie sie einmal pro Monat mal für drei Stunden verwenden können? Auf dem Land könnte man es noch verstehen, aber in der Stadt, wo man jederzeit in eine Kneipe um die Ecke, oder in eine öffentliche Bibliothek, oder zum Kino, oder in eine Therme gehen kann?

Ich hege den schrecklichen Verdacht, dass diese Häuser kein Krankenzimmer haben (mit der Ausrüstung einer Intensivstation oder so), nicht weil die Hersteller das etwa nicht gewollt hätten, sondern weil es in Deutschland durch irgendeine Verordnung verboten ist. Sonst hätten sie auch dafür mehr Wohnfläche verschwendet. Denn dann hätte man alles, was so zum Leben gehört, bequem bei sich Zuhause gehabt.

Ein ganz anderer Aspekt, der mich in den Wahnsinn getrieben hat, ist diese ganze Öko-Thematik mit Passivhäuser usw. Leute! Die Grünen haben bei den letzten Bundestagwahlen 8,4% erreicht. Auch wenn es drei Mal mehr Menschen gäbe, für die das Öko-Thema so wichtig ist, dass sie viel mehr Geld dafür bezahlen wollen, wären das trotzdem nur 25% der Bevölkerung. Wieso haben dann 100% der ausgestellten Häuser etwas damit zu tun?

Klar möchte ich in meinem EnEV eine niedrige Zahl sehen, weil die Heizung ins Geld geht. Wer aber ein Fertighaus bauen will, wohnt häufig in den Wohnungen, wo die Zahl 250 kWh/qm·a schon normal ist. Mein Vater wohnt in einem Mietshaus, sie haben gar 350 kWh/qm·a. Da wäre man im Bereich 150 kWh/qm·a bereits superglücklich, und dafür braucht man bloß beim Bau moderne Materialien und Kessel zu verwenden. Was ich nicht möchte sind Lösungen, die sich erst in 10 Jahren rechnen (und nur, wenn die aktuellen Ölpreise stabil bleiben, was sie nicht tun werden). Oder Lösungen, wo man im Winter keine Fenster öffnen darf, weil sonst der Wärmetauscher nicht benutzt wird.

Auch hier verstehe ich, dass ich voll subjektiv bin und dass es viele Menschen gibt, die anderes denken, oder dazu keine Meinung haben. Was mich stört ist, dass die ausgestellten Häuser dieses Thema so einseitig und einstimmig aufgenommen haben, und keiner der Hersteller genug Eier gehabt hat, um zu sagen, ich mach nicht mit. Das riecht bloß zu stark nach der Einheitsbrei der Sowjetunion.

Bei dem Grundriss sowieso. Zwei Häuser von unterschiedlichen Firmen wurden innen identisch geplant. Ich meine, denkt einfach daran, wie wahrscheinlich ist es, dass zwei kreative Menschen unabhängig voneinander zum identischen Grundriss kommen? Nein, in denke in dem Fall hat man einfach das gemacht, was wie man denkt den meisten Menschen gefallen würde. Also etwas auf dem RTL 2 Niveau oder so.

Gut, dass auf dem Gelände ein Archtektenhaus der Firma Huf Haus steht (Nr. 7), wo man den Unterschied zwischen einem durch Planner geplanten und einem durch einen Architekten konzipierten Haus sehr haptisch spüren kann. Da hat man schon seine Wow-Effekte. Ist aber leider schon wieder für einen Luxus-Segment konzipiert worden.

Fazit: ich habe schon einige wichtige Eckpunkte und Erkenntnisse von dem Besuch der Fertighaus-Welt in Heßdorf erhalten, bin aber mit der Gesamtsituation unzufrieden und musste einen Post schreiben, um mich zu beruhigen.



Erst nach einem Shanghai-Besuch beginnt man zu bemerken, wie fortschrittlich wir in Deutschland in Sachen Datenschutz sind.

In Shanghai gibt es eine RFID-Plastikkarte, mit der man Reisen mit der U-Bahn, mit dem Bus oder in der Taxi bezahlen kann. Die Karte muss sowohl beim Eingang als auch beim Ausgang benutzt werden, so dass man exakte Bewegungsprofile erstellen kann. Falls man mindestens einmal einen Automaten benutzt, um das Geld darauf einzuzahlen, und dabei nicht Bargeld, sondern eine Bankkarte verwendet, kann man die Bewegungsprofile dem Gesamtprofil einer Person zuordnen.

Bei jedem U-Bahn-Eingang ist ein Röntgen-Gerät installiert, der ähnlich wie beim Sicherheitscheck in den Flughäfen das Inhalt der Taschen durchleuchtet. Ein Sicherheitsmitarbeiter sorgt dafür, dass alle Taschen auch zwingend durchleuchtet werden. Ihre Inhalte kann man mit einer gewissen Wahrscheinlichkeit einem Bewegungsprofil zuordnen, so dass das Personenprofil nicht nur die Information enthält, wann und wohin man gefahren ist, sondern auch was man dabei hatte.

Steigt man aus und geht man auf die Strasse, wird man mit den Blitzer konfrontiert. Anders als in Deutschland, wo der Blitzer im Strassenverkehr nur im Verstoßfall aktiviert wird, habe ich in Shanghai einige Strassen gesehen, wo jegliches vorbeifahrendes Auto auf allen Spuren der Strasse mit einem Blitzer fotografiert wurde. Benutzt man Gesichtserkennung und vergleicht man das Blitzerfoto mit dem Foto auf der Bankkarte, kann man Personen erkennen und ihr Bewegungsprofil auch überirdisch aufzeichnen.

Jeder Gebäudeeingang, jede Parkhaus-Einfahrt und viele weitere Ecken werden durch Überwachungskameras überwacht. Verbindet man alle Videosignale in ein Netz und benutzt man Gesichtserkennung, kann man die Bewegungsprofile weiter vervollständigen.

Und wenn ich eine Bankkarte einer chinesischen Bank beim Einkaufen benutze, könnte sein, dass die Bank verpflichtet ist, die Transaktionen an den Staat mitzuteilen. Daraus lässt sich mit einer gewissen Wahrscheinlichkeit schließen, wieviel man verdient und welcher Anteil davon Schwarzgeld ist.

Reist man mit dem Flugzeug, mit dem Zug oder mit dem Fernbus, muss man überall den Pass vorzeigen. Beim Checkin im Hotel sowieso. Man könnte diese Informationen ebenfalls zentral aufzeichnen und die Personenprofile vervollständigen.

An jeder Ecke gibt es einen freien WiFi-Zugang. Das einzige Problem ist nur, dass man vor der Benutztung sich kurz mit seiner Handy-Nummer anmelden muss. Da beim Kauf einer Sim-Karte es zwingend erforderlich ist, den Pass vorzuzeigen, kann durch Aufzeichnung dieser Information nicht nur das Bewegungsprofil vervollständigt werden, sondern auch gespeichert werden, was eine konkrete Person im Internet getan hat. Das letztere ist sowieso stets gewährleistet, egal wie und von wo man das Internet in China bezieht. Durch diese Informationen können Benutzerkonten in den sozialen Netzwerken und bei Taobao oder JD mit den echten Personen verknüpft werden.

Der Rest ist Profilanalyse: trifft ein Profil das andere zum ersten mal, wird es als eine beginnende Bekanntschaft gekennzeichnet. Wird öfters getroffen, entwickelt sich daraus Liebe oder Freundschaft. Daraus lässt sich ein real-life social graph erstellen; und seine Anwendungsfälle sind vielfältig und mächtig.

Insofern könnte der Staat in China über jeden Bürger wissen, wo er wohnt, was er tut, wen er liebt, wie seine Gesundheit ist, und auch vorhersagen, was er in der nächsten Stunde, Tag oder Woche tun wird.

Ich schreibe bewusst überall “kann”, “könnte”, weil zum einen das oben beschriebene eine kostspielige und technisch nicht-triviale Aufgabe ist, und zum anderen ich keine Anhaltspunkte habe, dass der chinesische Staat das tatsächlich tut. Allerdings existiert meines wissens in China auch keine funktionierenden Mechanismen, die die Macht des Staates an dieser Stelle hätten wirksam begrenzen können.

Die 10 Tagen in China waren wohl die am besten dokumentierten und protokollierten Tage in meinem Leben. Und es gibt meines Wissens keine Option, dieses Konto löschen zu lassen.


Why Should You Learn Machine Learning

In the end of 80ies and early 90ies, the topics of fourth generation programming languages and genetic algorithms were very popular in mass media. We had read in the magazines that software developers would become obsolete, because users could create their programs themselves using 4GL, or else AI systems would soon be created that would extend themselves. By that time, I’ve learned my first programming languages, was about to choose my subject in the university; and therefore had doubts about job perspectives in software development.

Fortunately (or not), Steve Jobs and Bill Gates have popularized the graphical user interfaces by around that time, so that this first AI wave calmed down (or returned to its academic roots), because software development became less about finding an answer to a question, but more about displaying windows, buttons, menus and textboxes. Computer games’ focus has shifted from “what exactly you are doing” to “how cool is looks like”. Internet has changed from the source of scientific or personal information to a ingenious marketing tool and became a thing about pictures, graphic design and neuromarketing.

But, if you are a software developer and have not yet realized that you need to teach yourself machine learning, you should be concerned about your job. Because machine learning is coming and it is the next logical step of losing the full control about your software.

First, we’ve lost the control about exact machine instructions put in our program, and gave it up to the compilers. Next, we’ve lost the control about memory management and gave it up to the garbage collector. Next, we’ve partially lost the control about the order of execution and gave it up to event loops, multithreading, lambda expressions, and other tools. With machine learning, we will lose control about the business logic.

In the classic computer programming, we were trained for the situation when the desired business logic is exactly known and specified beforehand. Our task was to implement the specification as exact as possible. And in the first decades of software development practice, there were enough useful problems that could be specified with more or less acceptable efforts. Remember, the first computers were used for ballistic calculations. Having all formulae already invented by the scientist, the programming task at hand had a perfect specification.

Now, we want to go to the areas, where creating a specification is impossible, or too expensive, or just not the optimal course of action.

We will take fraud detection as example. Let’s say we have data about payment transactions of some payment system, and want to detect criminal activity.

A possible non-machine learning approach would include establishing some set of rules for fraud detection, based on common sense. For example, some limit on the transfer sum, above of that the transaction gets suspicious. Also, transactions from different geographical locations within some short period of time are suspicious, etc.

One obvious limitation of this approach is that the alarm thresholds are based on common sense, so that the objective quality of the fraud detection is highly dependent on how good the subjective common sense of its developers reflects the reality.

Another obvious limitation of the common-sense approach is that such a rule system cannot be infinitely complex. Humans can comprehend only a limited amount of rules at once, so that they usually stop having defined 5 or 7 rules; and see a system with 20 rules as “very complex” and a system with 100 rules as “we need a whole new department to make sense what is really going on here”. For comparison, Square, Inc is using a machine learning algorithm for fraud detection based on (my conservative guess) over 3000 rules (not mentioning that they can re-tune these rules automatically every day or more often).

It is even harder for human to comprehend possible interplay between the rules. A typical geo-based rule should usually fire for distance D and time period T, but not in the public holidays season (as many people travel in this time), but even in this season it must still fire if the amount is above M, if the recipient is a registered merchant, or above the amount P, if the recipient is a private person, but it still must not fire, if the money holder had already did similar money transfers one year before and that transfer was not marked as a fraud, but it must still fire if any automatic currency conversion is taking place… At some point, a classic software developer will raise her arms and declare herself out of the game. Usually, she will then create a generic business rule engine and assert that business guys will have to configure the system with all their chaotic business rules. Which doesn’t solve the problem, just shifts it from one department to the other.

Now, remember the Shannon-Hartley theorem? Me neither, but the main thing about it was that there is a difference between the information – the useful signal that is valued by the receiver – and merely the data, the stream of zeros and ones in some particular format. The fraud detection issue can be seen as an information extraction problem. Somewhere in the transaction data, the information is hidden from our eyes, signalizing criminal activity. We as humans have practical limits extracting this information. Machine learning, if done correctly, is a possibility to extract and to evaluate more information from data.

Classifiers in machine learning are algorithms that, based on a set of features (or attributes) of some event or object, try to predict its class, for example “benign payment” or “fraud”.

No matter what algorithm is used, the procedure is roughly the same. First, we prepare a training set of several (often at least 1000, the more the better) labeled events or objects, called the examples. “Labeled” means, for each of those examples, we already know the right answer. Then, we feed the classifier algorithm with the examples, and it trains itself. The particularities depend on exact algorithm, but what all algorithms are basically trying to do is to recognize how exactly the features are related to the class, and to construct a mathematical model that can convert any combination of input examples to the class. Often, the algorithms are not extremely complicated to understand, for example, they might try to count how often one of the features appears in one class and then in another class; or they might start with a more or less random limit for a rule, and then start to move it, every time counting the number of right predictions (the accuracy) and changing the direction when accuracy is getting worse. Unfortunately, not a single algorithm author cares about the learning curve of his users so that most of algorithm descriptions include some hardcore-looking math, even when it is not strictly necessary.

Finally, a trained classifier is ready. You can now pass unlabeled examples to it, and it will predict their classes. Some classifiers are nice and can even tell you how sure they are (like, 30% chance it is a benign payment and 70% chance it is a fraud), so that you can implement different warning levels depending on their confidence.

A huge disadvantage of machine learning (and welcome to the rant part of this post): only some of the classifiers can be logically understood by a human being. Often, they are only some probability distributions, or hundreds of decision trees, so that while it is theoretically possible, for a given input example, to work through the formulas with the pen and paper and to get the same result as the classifier did, but it would take a lot of time and won’t necessarily bring you a deep understanding of its logic, so that practically, it is not possible to explain classifiers. This means, sometimes you pass to the classifier an example, where you as a human can clearly see it is a fraud, and then get the class “benign” from the it, and you, like, “what the hell? is it not obviously a fraud case? And now what? How can I fix it?”.

I suppose, one could try to train a second classifier giving the wrongly predicted examples more weight in its training set, and then combine results of both classifiers using some ensemble methods, but I haven’t tried it yet. I haven’t found any solution to this problem in the books or training courses. Currently, most of the time you have to accept that the world is imperfect and to move on.

And generally, machine learning is still in a very half-backed state, at least in Python and R.

Another typical problem of contemporary machine learning, when teaching classifiers and providing them with too many features, or features in a wrong format, the classifying algorithms can easily become fragile. Typically, they don’t even try to communicate to you that they are overwhelmed, because they can’t even detect that. Most of them have still an academic software quality, so that they don’t have too much of precondition checking, strong typing, proper error handling and reporting, proper logging and other things that we accustomed to when using production-grade software. That’s why most of machine learning experts agree that currently, most of the time is getting spent on the process they call feature engineering, and I call “random tinkering with the features until the black box of the classifying algorithm suddenly starts producing usable results.”

But well, if you have luck or, more likely, after having invested a lot of time for feature engineering, you will get a well trained algorithm capable of accurately classifying most of the examples from its training set. You calculate its accuracy and are very impressed by some high number, like, 98% of right predictions.

Then you deploy it to production, and are bummed by something like 60% accuracy in the real conditions.

It is called overfitting and is a birth mark problem of many contemporary algorithms – they tend to believe that the (obviously limited) training set contains all possible combinations of values and underestimate training for combinations not present in the set. A procedure is developed by statisticians to overcome this, called cross-validation, which increases the training time of your algorithm by factor 5 to 20, but as a result giving you more accurate accuracy. In the example above, your algorithm would earn something like 64% accuracy after the cross-validation, so you are at least not badly surprised when running it in production.

Modern improved algorithms such as random forest have a built-in protection against overfitting, so I think this whole problem is an intermittent issue of the quickly developing tech and we will forget about it in a year or so.

I also have the feeling that machine learning frameworks authors consider themselves done as soon as a trained classifier is created and evaluated. Preparing and using it in production is not considered as a worthy task. As a result, my first rollout of a classifier had produced predictions that were worse than even the random guessing. After weeks of lost time, the problem has been found. To train the classifier, I’ve written an SQL query and stored my training set into a CSV file. This is obviously not acceptable for production, so I have reimplemented the code in Python. Unfortunately, it has been reimplemented in a different way, meaning that one of the features was encoded not in the same format as the format used during the training phase. The classifier has not produced any warnings and simply “predicted” garbage.

Another problem is that most algorithms cannot be trained incrementally. If you have 300 features, have spent weeks to train your algorithm, and want now to add the 301st feature, you will have to re-train the classifier using all 301 features, even though the relationships between the first 300 features hasn’t changed.

I think, there are more rants about the machine learning frameworks to come. But, at the same time, things in this area change astonishingly rapidly. I don’t even have time to try out that new shiny interesting thing announced every week. Its like driving bicycle on an autobahn. Some very big players have been secretly working in this area for 8 years and more, and now they are coming out, and you realize, a) how much more advanced they are compared to you, b) that all internet business will soon be separated by those who could implement and monetize big data, and those who was left behind, and c) I think, machine learning will be implemented as built-in statements in mainstream languages, in the next five years.

Summarizing, even the contemporary state-of-the-art machine learning has the advantages that are too significant to ignore:

– the possibility to extract more information from data than human-specified business logic;
– as a pleasant consequence, any pre-existing data (initially conceived for other primary purposes), can be repurposed and reused, meaning extracting more business value per bit;
– another pleasant consequence is the possibility to handle data with low signal-to-noise ratio (like user behavior data);
– and finally, if the legacy business logic didn’t have quality metrics, they will be introduced, because any kind of supervised machine learning includes measuring and knowing the quality metrics of the predictions (accuracy, precision, recall, f-scores).

In this post, I’ve only described the supervised machine learning. There is also a big area called unsupervised machine learning. In December last year, at the last day before my vacations, I’ve finished my first experiment with it and this will be the topic of my next post.

And Big Data is so much more than just machine learning. It also includes architecting and deployment a heterogeneous database landscape, implementing high-performance processing of online and offline data; implementing recommendation engines, computer linguistic and text processing of all kinds, as well as analytics over huge amounts of poorly-structured and ever growing data.

If you are interested to work in our big data team, contact me and I will see what can I do (no promises!)


People emerged from Afrika and have slowly, generation after generation, populated first Near East, then Europe, Black sea area, and continued their movement to the East. Something has forced them first to cross endless steppe of the central asia, and then to populate modern India and China. Maybe they wanted to reach the place where the sun sleeps. Or some very rational, economic reasons have forced them to go East.

Finally, after crossing what is now called the Taiwan Straight, they have reached the east border of Taiwan. What they saw looked something like this:DSC_1184

This is, literally, the end of the world. If you go to further to the east, you will see thousands and thousands miles of ocean, and then you hit that invisible line separating today from yesterday.

But, luckily, people didn’t know that, so Taiwan became the launchpad for miriads of expedictions. Taiwan is the last big piece of land that people saw, when they have departured on their small vessels and started their adventure to populate islands of Philippines, Indonesia, Polinesia, Melanesia and Micronesia.

But some people decided to stay on Taiwan. The languages they spoke are now classified to be closest to the proto-austronesian language, the common ancestor of all Astronesian languages. Specifically, if you take the puyuma language, some of the researchers believe it is at least 4000 years old. By its age, it can be compared with the (now dead) indo-european language, the common ancestor of such languages as Old German, Roman, Greek and Slavic.

Puyuma is as old as the Chinese language. But maybe, because the life of the East Taiwan so slow and peaceful, in this warm subtropical climate, it has changed less with the time. And this can be heard.

Every time I hear a puyuma song, I liteally feel the breeze of the ancient times. The times when they have already invented some consonants, but many words still consisted largely only from vowels. So the consonants don’t prevent the poetry to be sung.

And this is how puyuma sounds. Maybe, this lullaby is the last what mothers sung to their sons and daughters, at the evening before they boarded their ships, to leave their birthplace island and their family – forever:

(Link for readers from China:


When I was going to Shanghai, I was expecting the developing country situation like I have already ranted. And I have really found it that way.

So when I’m asked how I liked Shanghai, I can only answer: if after landing to the modern and clean western Pudong airport I was immediately directed to a personal limousine and was chauffeured to the Hilton hotel, and then next day if I ate my breakfast in the hotel, and then went by limousine to the Bund, then to the Super Brand Mall to pickup some fancy magazine in the book store and enjoy it with the cup of freshly made tea, then if I had had my lunch in the upper floors of the K11 art mall, and then enjoyed the exibition here, just to return back to my warm and air-conditioned Hilton to change my clothes and to prepare for a dinner somewhere in a fancy french restaurant — if I did only all of that, I would like Shanghai a lot. If you like design, fashion, and art, in Shanghai you can enjoy a more beautiful, more bold, more luxurious, more diverse, and more abundant design and art than in Germany.

But I haven’t ordered a limousine and Hilton.

soupFrom the Pudong Airport, I took the Metro line 2, at 5pm in a working day. My hotel was just a room in an apartment building, and it was roughly as cold as the street outside. Instead of being chauffeured, I have walked along the Chang Le Lu from Jing An Si to the People’s Square, and I’ve got a sore throat due to the air. For the breakfast I ate Rou Bao for 1,5 yuan, for lunch a soup for 4 yuan, and for dinner some russian “pirogi”-like stuff for 2 yuan per item. pirogiWhile I’m sure my exposure was too brief to really understand the different classes of people living in Shanghai, I think I saw at least the two of them. The people living in Hilton and visiting art exibitions. And the people eating meat buns for 1,5 yuan and driving scooter on Shanghai streets.

Once in a metro, I saw two girls sitting nearby. One was a janitor lady, dressed in the blue one-piece-overall. Her face features looked for me like maybe the West-China origin, her hands were like sand paper, her skin was red and inflammed, and she didn’t wear any makeup. Her neighbour was a hello-kitty-lady, very round Shanghai face, dressed in some brand clothes, having some lady bag, wearing eyelashes longer than her eyes and the high-heel boots, and fiddling with her iPhone.

Not only it was a very striking difference, but it has occured to me if I were asked to make friends with either one of those girls, I would immediately choose the janitor lady. She was so open, so simple, so powerful, and it seemed than her soul has not yet been crushed by the city of Shanghai.

I believe, Shanghai has the power to force you to be willing to belong to the elite class. If you live in Shanghai, you will automatically want to live in Hilton, eat in shopping malls and fancy restaurants, and be chauffeured around. And this desire will appear in you in many small details – how you try to be first in any waiting line, how you ignore everyone else in the metro, how you constantly honk in your car just to save 3 seconds of time per ride, how you start putting on fake brands just to appear more wealthy than you are.

I think, only very strong souls with very good upbringing can resist this Shanghai urge. I’m afraid I’m not strong enough, even after 3 days in this city, I’ve started to cut in line and to push and to hate other people in the metro. So I’m happy I don’t need to live in Shanghai and I don’t need to prove my soul qualities in the fight against of this monster.



Auto: +6 Monaten

Die Namen Fahrschule und Fahrprüfung sind insofern irreführend, dass sie vermuten lassen, dass man nach dem Bestehen der Fahrprüfung ein fahrtauglicher Autofahrer sein wird. Tatsächlich fängt mit der ersten Fahrt das Lernen vom Autofahren erst an. In der Fahrschule wird nur gerade so viel Kenntnis vermittelt, dass man bei diesem eigenständigen Lernen sich selbst oder die anderen nicht umbringt. In der letzten 6 Monaten habe ich bei praktisch jeder Fahrt etwas neues dazu gelernt. Ich bin ungefähr 7000 km gefahren, meistens zur Arbeit, aber auch Langstrecke nach München, Dresden und Berlin. Ich kann mich jetzt in Stau, im dichten Verkehr, auf super-engen Strassen und in der Nacht mit Regen einigermaßen gut bewegen. Ich bin mir aber sicher, dass ich in den nächsten 6 Monaten nochmals ungefähr so viel lernen werde, denn ich habe z.B. noch nicht auf dem Schnee und nicht in den Bergen gefahren.

Ich finde immer noch komisch wenig Informationsquellen, die den riesigen Informationsumfang darlegen würden, den man selbsständig durch Trial and Error mühsam erlernen muss. Ich habe nur diese Videos von einem Fahrlerner aus Kiew gefunden, wo z.B. solche triviale, aber wichtige Dinge thematisiert werden, welche Fallen es gibt, die zu einer Türbeschädigung führen können, nach welchen Kriterien man sich einen Eiskratzer aussuchen kann, oder in welchen Fällen Totwinkel wirklich gefährlich sein kann.

Natürlich kann man einiges nicht erzählen, das müssen deine Hände und Füsse selbst trainieren. Aber es gibt dort Fälle, die man einem einfach beibringen könnte:

– Linker Fahrspur auf der Autobahn, von hinten nähert sich ein Fahrzeug und deutet unmissverstänlich darauf hin, dass der Spur geräumt werden sollte, rechts gibt es aber noch keine Lücke? Blinker rechts schon mal betätigen, um zu signalisieren, dass du den Spur baldmöglichst freigibst.

– Spurwechsel in der Stau: Blinker betätigen, dann beobachten, wer von den Nachbars sich verlangsamt und dir eine Lücke schafft, zügig die Lücke nehmen und sich dafür bedanken. Falls keiner es freiwillig tut, langsam das eigene Fahrzeug an den Rand eigener Streife bewegen. Ebenso: im Stau den Nachbarspur genauso gut wie den Vorausfahrenden beobachten, die Spurwechsler rechtzeitig erkennen und das Wechseln ermöglichen.

– In Stau, wenn rechts oder links ein Abbiegestreifen anfängt und du stehen musst, schaue in den Spiegel, ob der hinter dir fahrende abbiegen möchte, und wenn ja, im eigenen Streifen möglichst weit nach links bzw. rechts einordnen, damit er noch an dir vorbei kann.

– Im Parkhaus, wenn du selbst in der Durchfahrt bist und ein Auto ausparken möchte und den Gang zurück eingelegt hat, anhalten und ausparken ermöglichen. Dabei nicht langsam heranrollen, damit der Ausparkende nicht unter Druck gesetzt wird.

– Auf der Tankstelle, falls zwei Zapfsäulen hintereinander in einem Durchgang stehen, bis zur hinteren vorfahren, auch wenn die Tankstelle momentan leer aussieht.

– Wenn der Vorausfahrende links abbiegen möchte und viel Gegenverkehr abwarten muss, kann man entweder wie viele Autofahrer unerlaubterweise Gehweg oder Radstreife benutzen. Ich habe aber herausgefunden, dass einfach nur stehen und warten durchschnittlich nur noch 10 Sekunden länger dauert, und ich habe bis jetzt noch keinen hinter mir Fahrenden erlebt, der so arschig gewesen wäre, um mir in diesen Situation zu hupen.

Wenn wir schon von den Ärschen sprechen, hat sich ihre Beschaffenheit mit meinem Fortschritt verändert. Nun werde ich äußerst selten von Dränglern belästigt. Dafür aber umso mehr von den Zu-Früh-Überholern. Ich fahre einem langsamen Fahrzeug hinterher, hinter mir bildet sich eine Schlange. Es gibt keine sichere Möglichkeit zum Überholen und die hinter mir her fahrenden sehen es genau so, denn sie überholen auch nicht. Sobald sich eine Überholmöglichkeit ergibt, schalte ich den Blinker ein und beginne den Überholvorgang, und bemerke in den Rückspiegeln gleichzeitig, dass der hinter mir fahrende ebenso den Überholvorgang gestartet hat. Mir bleibt keine Zeit zum Reagieren, denn ich bin bereits beim Ausscheren. Im besten Fall reagiere ich doch noch und schere wieder ein, oder das Auto hinter mit kommt nur noch gefährlich nah an mich heran. In einem Fall musste der hinter mir fahrende von mir vollständig auf den Gehweg ausweichen. Er hatte Glück, dass es an dieser Stelle keinen Bordstein gab! Dann, statt zu bremsen, hat er sich auch noch beschleunigt, und in der Staub- und Steinwolke auf dem holprigen Gehweg hupfend, hat er uns beide überholt. Ich meine mich zu erinnern, dass in der Theorieprüfung genau diese Situation thematisiert wird, mit der einzig richtigen Vorgehensweise: erst dem Vorausfahrenden das Überholen ermöglichen, dann selber überholen. Insofern müssten diese Fahrern entweder ihre Fahrprüfung zu lange her haben, oder sind einfach nur Ärsche.

Ich bin immer noch der Meinung, dass ich mit meiner Autokamera die Ärsche, die gegen die Strassenverkehrordnung mutwillig, bewusst, eindeutig und gefährlich für die anderen verstoßen, durch ein einfaches Upload von meinem Video auf müsste anzeigen können. Leider sind Datenschützer der anderen Meinung. Wer mir in dem nächsten Wahlkampf eine entsprechende Gesetzeänderung verspricht, kriegt meine Stimme (auch wenn er für CSU kandidieren würde).

Ebenso kriegt meine Stimme derjenige, der das Problem mit dem Geschäftsjahr in den Strassenbaubetrieben behebt. In November gab es zwei Wochen, wo ich fast jeden Tag eine neue Strecke zur Arbeit wählen musste, weil täglich neue Baustellen aufgemacht wurden. Insgesamt waren es 8 neue Baustellen, die meine Fahrtzeit momentan um 30% bis 100% verlängern. Wenn man viele Baustellen gleichzeitig aufmacht, bauen sich bei jeden kleinen Verkehrsbehinderung lange Staus. Man braucht eine Budgetierungsregelung, die dafür sorgen, dass Baustellen gleichmäßig über das Jahr verteilt aufgemacht werden und dass möglichst wenig Baustellen gleichzeitig auf sind.

Ich bin darauf gespannt, was mir die nächsten 6 Monate bringen.

Beginning software architecture (for Yun)

Every programmer starts her career with something small. Implement a small function. Then implement a couple of functions talking to each other. Then implement a module, with dozens of functions, and maybe error handling and an API.

But sooner or later, we all want to move on and to step up to the higher abstraction level. We want to oversee the whole software system. We want to learn how to design it – how to do software architecture. But because this is our first time when we are stepping up one abstraction level higher, it is often very hard to do. Where can I start? When am I finished? How do I know I’ve created a right architecture?

Teachers and universities often don’t help but instead make things even worse, because they overload us with huge amount of information and detailed requirements about the architecture.

Meanwhile, there is only one thing about software architecture that is really important.

Architecting software is like caring for your child.

You want that your child will be safe and healthy; and that he will be loved, and have a long and happy life.

Safety. Your software might crash in run-time, or destroy valuable data. If it depends on its environment (other software or hardware) to run – teach your software, how to recover, when its environment fails. Teach your software, how to protect against the input from hackers and unprofessional users. Teach your software to change or produce data, only if it is fully sure it is working correctly. Teach your software, how to sacrifice one part of it to protect the whole, and teach it to run without one of its parts.

Health. Obesity is the most important problem for software. Always try to implement the same functionality with less code. Do not implement functionality, which nobody needs, but do prepare the software for the challenges it will definitely expect in the future – plan for extensibility. Use refactoring to avoid code areas that nobody is able to understand and to change, because these are the dead areas of the software body, limiting its flexibility.

Software is often created it teams. You want that the other team members love and care about the software as you do. Make sure that everyone writes code that can be read by anyone – force a uniform programming style if needed. Ensure that it is safe for team members to use the code of other team members – no unexpected results, proper error handling, consistent conventions. Avoid code ownership, because you want to get a lovely software system, and not just a set poorly interconnected moving parts.

For software to have a happy life, it must be loved and used by users. Ensure you not only understand the software requirements, but also why the users have these requirements. Work with the users to define even better requirements, which will make your software faster, slimmer or robuster. Come up with the ideas how to make your software even more lovable – a successful software will get more loving and motivating hands to work on it, while an unsuccessful software will be abandoned and die.

It is not easy to care for a child, nor it is easy to create a good software architecture. There is no rules equally suitable for all children – every time you will have to find a proper answer, may be by trial and error. But the results of the job done right might make you equally proud and your life fulfilled.

Война систем

Война в 21-м веке. Дико, нелепо, не складывается. Не верится. Ведь Интернет уже, как в свое время Кольт, уравнял всех людей – по крайней мере по доступу к информации. Ведь давно уже все, кто поуспешнее, работают в интернациональных корпорациях с отделениями по всему миру и командами, разбросанными по всему глобусу. Ведь все уже привыкли, что можно просто сесть в самолет и через несколько часов появиться в любой точке планеты, чтобы поглазеть на людей, полюбоваться красотой архитектуры и ландшафта, насладиться незнакомой пищей. Ведь многие уже настроились и ждут что вот-вот сделают наконец единое планетарное правительство, чтобы исключить всю эту никому не нужную возню с паспортами, визами, пошлинами и прочим бюрократическим хламом. Что можно будет наконец освободить значительные средства, идущие на содержание армий, и оставить только полицию.

А тут, на тебе. Один атавизм – более-менее случайно выбранный кусок планеты с границей, гербом и гимном – страна – воюет с другим таким же атавизмом. Но обе стороны сидят при этом в Фейсбуке со своих айфонов. Оксюморон. Как такое в голову укладывается?

По моему, никак. Страна в 21 веке не может воевать с другой страной за территории. Это было бы просто детским садом.

Речь может идти только о конфликте несовместимых цивилизаций.

Возьмем Израиль и Палестину. С одной стороны, евреи, которые жили там веками, которым эта территория дана непосредственно Богом по нерушимому завету и у которых все религиозно значимые события произошли именно там. С другой стороны, палестинцы, которые также жили на этой территории веками, и которых силой и нахальством вытесняют с тех самых мест, где жили, трудились и похоронены их предки. Кстати, значительная часть палестинцев – христиане. И для них эта территория тоже является тем святым местом, где родился, учил и погиб Спаситель…

В конфликте между Россией и Западом, который сейчас происходит по всему миру, а в наиболее активной фазе на Украине, наверняка тоже идет речь о столкновении цивилизаций. Есть очень много отличий между Россией и Западом, но по-моему, весь конфликт можно привести к одному коренному отличию, а именно, к вопросу о государстве.

В современной западной концепции, государство стоит не выше каждого отдельного гражданина, а успешность государства определяется в первую очередь тем, насколько успешны (счастливы, здоровы и т.п.) его граждане, каждый в отдельности. В России успешность государства определяется тем, какие великие проекты (индустриализация, поворот рек, космос) государство осуществило и насколько его боятся или уважают другие государства. При этом интересы государства стоят выше интересов каждого отдельного гражданина.

Вследствие этого, в западной концепции очень четко различаются понятия страна, народ, государство и правительство. Государство предполагается исполнителем социального заказа – оно должно на наши налоги обеспечить безопасность, дороги, энергетику, экономику и прочую инфраструктуру. Грубо говоря, оно такой же исполнитель, как продавец автомобилей или строитель вашего дома. Исполнители часто хотят наебать заказчика: работать поменьше и взять побольше. Заказчики хотят обратного. Возникает ситуация торга или противоборствия, т.е. народ торгуется с государством, и каждый хочет заплатить государству поменьше и получить побольше. Поскольку на Западе народ и государство в принципе не бывают едины, понятие “страна” может обозначать либо народ, либо государство, в зависимости от контекста.

Государству для выполнения его обязанностей положено иметь силовой аппарат, который государство могло бы применить и против народа. Чтобы исключить эту ситуацию и обеспечить равноправный торг народа с государством, приняты некоторые инструменты демократии, например сменяемость правительства и независимость средств массовой информации, которые заботятся о том, чтобы не приходилось менять шило на мыло. На Западе правительство меняется, а государство остается. Можно быть недовольным текущим правительством, но гордиться государством. Можно быть недовольным государством, но любить страну.

В России, все эти четыре понятия слиты в одно. Критикуя Путина, критикуется не только текущее правительство, но и государство в целом. Критикуя российское государство, критикуется также и страна в целом, а значит и российский народ. Поэтому Путин, похоже, совершенно искренне считает российскую оппозицию врагами России и россиян – ведь они критикуют его действия.

Когда Запад вводит санкции против текущего правительства России, то он ожидает, что российский народ поймет, что его текущим правительством в мире недовольны, и может быть задумается на следующих выборах и подправит состав правительства. А в России это воспринимается как санкции против российской государственности в целом, а значит и против страны, и против каждого россиянина в отдельности. В результате все с радостью воспринимают ответные санкции против Запада. Хотя на самом деле произошло вот что: текущее правительство натворило дел в Украине, Запад наказал наиболее злостных чиновников, которые представили это дело так, как будто всю страну наказали, а в результате пострадали все россияне.

Т.е. говоря по простому, Путин наебал россиян. Ведь Западу не понравился только Путин и его соратники, а отвечать пришлось всем россиянам. Причем он сделал это так тонко, что все даже с радостью кинулись под топор санкций.

Это ему удалось только потому, что в российской концепции принято ставить государство выше отдельных граждан. Ведь если интересы государства выше интересов граждан, то торг неуместен и состояние противоборствия между народом и государством вредно. А значит, не нужна и демократия и независимая пресса, ведь народ в данной концепции не должен иметь права быть недовольным государством. При отсутствии демократии, сменяемость правительства также не может быть обеспечена, т.е. правительство перестает быть текущим управителем дел государства на определенный срок и становится самим государством. Критика правительства таким образом является критикой государства, а раз государство важнее народа и народ живет для того, чтобы государство осуществляло свои великие проекты, то критика правительства является и действием против народа и против страны в целом.

Да, такая система позволяет эффективно осуществить много великих проектов. Пока СССР запускало человека в космос, в Бельгии люди придумывали новые сорта вафель. Проблема только в том, что при этом народ утрачивает какую-либо возможность не быть наебанным государством. Потому что а) средства массовой информации под контролем государства, народ и не поймет, где его наебывают и б) те, кто тем не менее смогут понять, не смогут этому ничего противопоставить, не только потому, что они моментально станут “агентами” и “врагами народа” и пойдут лес валить или принудительно лечиться от головы, но и потому, что они и не должны себя противопоставлять государству. Ведь даже в концепции интересы государства важнее интересов отдельных личностей, а значит государство имеет право наебывать свой народ.

По-моему, весь конфликт на Украине и состоит в том, что простые украинцы помнят, как их каждое новое правительство наебывало, но хотят хотя бы сохранить шанс, что рано или поздно они выберут себе такое правительство, которое если и будет наебывать, то по-божески. В составе России у них такого шанса не будет вообще, потому что его не существует концептуально, в принципе. В России государство ебет народ – всегда. Против того и воюют.

Auto fahren: Monat eins

Die Fahrschule bereitet dich auf das Auto fahren ungefähr genauso gut vor, wie die Uni auf die reale Arbeitsbedingungen vorbereitet. Also, unzureichend.

Jede Fahrt mit dem eigenen Auto kostet mir mehr Nerven und Kräfte als die Fahrprüfung.

Zum einen, es fehlt eine zweite, erfahrenere Person im Auto. Niemand kann bestätigen, dass ich richtig fahre, oder auf meine Fehler hinweisen. Das macht mich ziemlich unsicher.

Zum anderen muss ich jetzt während der Fahrt all das übernehmen, was in der Fahrschule der Lehrer macht: Klimaanlage einstellen, Scheiben waschen und sagen, wohin es lang geht. Das lenkt ab vom Fahren selbst, das haben wir nicht in der Schule trainiert, und deswegen macht es mich unsicher.

Was wir noch nicht trainiert haben, ist parken in den Parkhäusern. Die Theorie, wie man ein- und ausfährt und bezahlt, die kenne ich. Aber: in welchem Gang muss ich einfahren? Darf ich die Gegenfahrbahn benutzen, um steiler einzufahren? In welchem Gang fahre ich auf? Muss ich Licht einschalten? Was ist sinnvoller – vorwärts oder rückwärts einparken? Und das wichtigste: spürt man im Auto, dass man gerade ein anderes Auto oder einen Pfeiler touchiert? Ich dachte, ich hätte noch rechtzeitig anhalten können, wenn ich was höre oder spüre. Tatsächlich habe ich erst dann was gehört, wenn der Außenspiegel schon angebrochen war. Man muss immer in alle Richtungen SCHAUEN!

Ich war auch nicht auf das Gefühl vorbereitet, das man spürt, wenn das Auto kaputt geht. Einen Tag nach dem Autokauf den Spiegel beschädigen fühlte sich so an, als ob ich meinen Arm gebrochen hatte.

Wenn dann der Service von Alfa Romeo mir einen Kostenvoranschlag von über 3000 € gemacht hat (nicht nur für den Spiegel, da gab es sonst noch vieles zu tun), war das nicht mehr lustig. Gut, einige Sachen habe ich über die Gewährleistung beheben lassen, und ein Ersatzspiegel hat mich auf Ebay 40€ gekostet. Aber man lernt unglaublich viel dazu. Zum Beispiel, wie man das CD Radio mit zwei Bügeln aus der Schacht herauszieht.

Das sonstige Thema, wo ich durch die Fahrschule nicht vorbereitet war, ist das Zubehör. An einen neuen Vebandskasten und die Warnweste habe ich noch gedacht. Was ich sonst noch mitfahre ist eine kompakte Lampe, ein Glasreinigungsmittel, eine Waschlappe,  ein KFZ-Ladeadapter, eine Parkuhr und Wasserflaschen. Ich habe das Gefühl, dass ich noch weitere Sachen mitfahren sollte, weiß aber nicht, welche.

Was ich auch nicht wusste, was genau würde mein Fahrzeug verkehrsuntauglich machen. Wenn z.B. die Sonnenblende und die Scheibenwischer nicht gehen, darf ich das Auto trotzdem fahren? Das hat mich noch zusätzlich verunsichert, abgesehen von den üblichen Schwierigkeiten (ein Benziner statt Diesel, andere Maßen, größerer Wendekreis).

Traurig fand ich die Tatsache, dass der Weg zur Arbeit über die Autobahn (24km und 29 Minuten) weniger Benzin verbraucht als der Weg über die Landstraße (17km und 37 Minuten). Die Alfa verbraucht bei 20kmh doppelt so viel als bei 80kmh. Wohl das technische Problem von allen Verbrennungsmotoren. Soll mein nächstes Auto elektrisch sein?

Spätestens nach einer 1,5stündiger Autobahnfahrt habe ich auch festgestellt, dass die einfachen Regeln meines Fahrlehrers, wie man den Sitz einstellt, nicht ausreichend sind. Einen Nackenkissen habe ich schon bestellt, und probiere gerade unterschiedliche Rückenneigungen aus. Abgesehen davon wundert es mich, dass ich in meiner Sitzposition manchmal den Ampel nicht sehen kann.

Was ich aber sehr gut sehen kann sind die Schnauzen von Autos hinter mir, die zu oft an meinem Heck kleben. Verstehe ich nicht. Das passiert entweder dann, wenn ich genau die angezeigte Höchstgeschwindigkeit + 9kmh fahre. Dann werde ich auch nicht schneller fahren und mein Fahrerlaubnis riskieren. Oder passiert es dann, wenn ich mich gerade verlangsame, um in den Parkhaus richtig einzufahren. Dann werde ich auch nicht schneller sein. Und genau das macht mich fertig, denn ich hasse es, wenn ich jemandem im Weg stehe, hier kann ich mich aber nicht anders verhalten.

Ach ja, den Aufkleber “Anfänger” habe ich entschieden nicht anzubringen, weil er die Ästhetik von Alfa stören würde. Trotzdem gibt es erstaunlich wenig Leute, die hupen oder abgesehen vom Drängeln sonst sich arschig verhalten würden.

Ansonsten lernt man unerwartet viele Kleinigkeiten dazu. Dass z.B. der Fahrzeugschein nicht in die Geldbörse passt und eine neue muss her. Dass die Kennzeichen nicht gleich sind und eins davon muss hinten sein. Dass die meisten europäischen Autos die Tankklappe rechts haben, und die asiatischen links. Dass der Ölstand beim warmen Motor überprüft werden muss, während alle anderen Flüssigkeiten beim kalten Motor zu prüfen sind. Dass Hemde mit einer Brusttasche praktischer ist, als die Hemde ohne, weil dann der Parkticket in der Haste mit dem Mund gehalten werden muss.

Fazit: es gibt noch ganz viel zu lernen und ich verstehe nicht, warum ich dabei nicht unterstützt werde. Ich finde keine sinnvollen Bücher oder Kurse für Fahranfänger. Als ob niemand bisher diesen Weg gegangen ist, oder als ob die gewonnene Erfahrungen es nicht Wert sind, geteilt zu werden…