Uncategorized
gtshp  

DIY Raspberry神經網絡看到了所有,認識到一些

作為一個有趣的項目,我認為我會把谷歌的inception-v3神經網絡放在覆盆子pi上,看看它在識別物體第一手方面所做的程度如何。它不僅要實現的樂趣,而且我實施的方式最終為我展示了所有人的樂趣,大多是在黑暗的人和這些聚會上的樂趣。是的,其中一些接壤的色情 – 厚臉皮黑客。

許多指出的額外優勢是,一旦安裝,就不需要互聯網。這是最先進的,獨立的對象識別與沒有大哥了解你已經做到了什麼,與那個八卦alexa不同。

但它會導致廣泛的有幫助的AI嗎?如果神經網絡可以識別它周圍的每個對象,那會導致人類的技能嗎?閱讀。

如何做對象識別

Inception對象識別器內部
實施包括:

覆盆子PI 3型號b

放大器和揚聲器

帕米拉

瞬間swtich

用於PI的手機充電器電池

所需軟件的核心是谷歌的成立神經網絡,該網絡是使用其TensorFlow框架實現的。您可以按照遵循圖像識別的TensorFlow教程下載。教程不涉及任何編程,所以如果您不知道Python或Tensorflow,則不擔心。也就是說,除非您要根據我的示例代碼修改他們的示例。

classify_image.py打印它看到熊貓
示例代碼採用固定的命名文件,包括熊貓的圖片,並在其上進行對象識別。它通過打印出來的結果來給出結果。但那是不夠的樂趣。

我追捕一些文本到語音軟件並找到節日。現在,當它想說它看到一個熊貓時,我修改了示例代碼在Linux shell中運行節日,並告訴它實際上說“我看到了一個熊貓”給揚聲器。

Audio PlayerHTTPS://Hackaday.com/wp-content/uploads/2017/06/classify_speak_panda_audio.wav

00:00.
00:00
00:00.

但這仍然不夠有趣。我將Picamera連接到覆盆子PI,並拍攝照片並將其送到TensorFlow代碼以進行對象識別。在白話中,它現在在我的照片上耗盡了推斷。

最後,讓它成為所有真實的簡單,我將一個營業鏡頭開關連接到一個PI的GPIO引腳,並在按下瞬時開關時拍攝了照片。

這是Python程序的main()函數…

1
2
3.
4.
5.
def main(_):
may_download_and_extract()
image =(flags.image_file如果flags.image_file else
os.path.join(flags.model_dir,’compped_pa​​nda.jpg’))
run_inference_on_image(圖像)

… 之後。

1
2
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
def main(_):
os.system(“迴聲%s |節日–tts”%"等等我準備我的大腦…“)

may_download_and_extract()
#從已保存的graphdef創建圖形。
create_graph()

#準備開關
GPIO.SetMode(GPIO.BCM)
gpio.setup(17,GPIO.IN)

Camera = Picamera()

OS.System(“迴聲%s |節日–tts”%"我準備好看了。")

雖然是真的:
#開關循環
而(GPIO.INPUT(17)== GPIO.LOW):
Time.Sleep(0.01)

#拍攝並向文件寫一個快照
image = os.path.join(flags.model_dir,’seeing_eye_image.jpg’)
Camera.Capture(圖像)

OS.System(“迴聲%s |節日–tts”%“。我正在考慮你向我展示了什麼……”)
human_string = run_inference_on_image(圖像)
OS.System(" Echo I See A%S | Festion –TTS“%Human_String)

調用OS.System()是我運行節日文本到語音程序的地方,使其對揚聲器說些什麼。

May_Download_And_Extract()是谷歌的成立神經網絡將從Internet下載,如果它尚未存在。默認情況下,它將其下載到RAM磁盤上的/ TMP / ImageNet。它第一次執行此操作,我將其從/ home / imageNet複製到SD卡上/ home / Incepion,現在使用包含在哪裡找到開始網絡的命令行運行程序。

運行Inception對象識別器
對create_graph()的調用從run_inference_on_image()函數中移動。 create_graph()設置了神經網絡,只需執行一次。此前,該程序是單次交易,但現在它每次都會通過循環調用run_inference_on_image()的循環。顯然,建立神經網絡是您只做一次的東西(請參閱我們對Tensorflow的介紹,了解更多關於圖表),所以它必須在循環上方移動。

run_inference_on_image()函數是圖像被給予神經網絡以進行對象識別。它曾經只是打印出它認為在圖像中的任何東西,但我修改了它,而是返回包括它認為對象的文本字符串,例如它認為是“咖啡杯”。所以最後一行是它會說的“我看到一個咖啡杯”放大器和揚聲器。

拳擊所有這些都給了我一個小型獨立的包,可以被任何人攜帶並嘗試過。這是一個動作的視頻。

改進是添加一個小屏幕,以便用戶可以看到視頻攝像機看到的內容,但皮比拉具有廣泛的看到角度,並且屏幕不需要。

它的對象識別有多好

初始觀察煙草師
展示手機通常會導致它說它看到了手機,但在某些情況下是iPod。然而,到目前為止,它每次都有水瓶和咖啡杯。

但是,它與人不好。指向我在我的辦公室裡導致它說它看到了一個“煙草商店,煙花公士店,煙草店”,可能是由於設備和零件直接在我身後的架子。然而,站在一個空白的牆壁上它說它看到了一件運動衫,去除它看到了一個發球件襯衫,刪除了這一點,它說“沐浴樹幹,游泳褲”,儘管只看到我裸露的上部軀乾和頭部。 (我會讓你的照片。)

Imagenet樣品手機圖像

Imagenet樣品咖啡杯圖片

神經網絡在一個名為ImageNet的數據集中培訓,來自2012年的大型視覺識別挑戰的版本。該數據集包括龐大的圖像集成到1000類,每個類包括特定對象的圖像。從手機課上從這個小型樣本中看到,一些電話圖像有點日期。但是,咖啡杯等物體隨著時間的推移而不會改變。

但這並沒有阻止那些與之玩的每個人都玩得開心,走在視線上的一切,就像找到一隻魔杖一樣,第一次找到一個魔杖,看看它可以喚起它可以喚醒什麼。

這是最好的嗎?

好吧,首先,每個識別在覆盆子PI 3上需要大約10秒鐘,所以必須加速或使用更快的處理器,最好是具有CUDA的NVIDIA GPU,因為這是目前支持的唯一類型的GPU TensorFlow。

初始神經網絡只與它培訓的數據一樣好。我上面指出的缺陷關於識別手機和人員是想像特數據集的問題。只有3.46%的時間是所有5個最佳猜測錯誤,而在5%的時間裡,他們在5個最佳猜測中做出同樣的測試。不錯。

正如我們在我們的短篇小說中指出的關於怪胎的神經網絡今天,長期內存(LSTM)神經網絡可以檢查他們在視頻的單一幀中看到的內容,同時考慮到視頻之前出現了什麼。例如,如果前面的場景是海灘派對,它會看到海灘球而不是籃子球更有信心。與成立中的成立神經網絡不同的不同,只有您展示它繼續的圖像。

這讓我們得到了嗎?

將改善對象識別是否導致廣泛有用的AI與人類的技能?眼睛的演變通常被稱為生活中爆炸的主要原因,因為寒武統的爆炸在5.41億年前,雖然有很多論證是那種原因。

然而,當那些眼睛進化時,已經有某種形式的大腦來使用它們。大腦已經處理了觸摸,振動和氣味的感覺。因此,單獨的對象識別不會導致革命。對於人類的技能,我們的AI可能需要更多的智力。我們目前只有我們需要的東西的位和想法。

眾多同意是我們的AI需要做出預測,以便計劃計劃。為此,它可能具有世界上的內部模型或理解,以作為這些預測的基礎。對於對電線應用焊接建議的人類技能,內部模型將預測建議接觸時會發生什麼,然後根據該方法進行規劃。當建議與電線接觸時,如果事情不如上預測,則AI將反應。

Facebook的最新工作與生成逆境網絡(GANS)可能會在此處暗示,其中包含這樣的模型和預測能力(如果您不熟悉GAN,我們再次將您推薦給我們的簡短文章關於怪胎的神經網絡的簡短文章今天)。名稱的“生成”部分意味著它們會生成圖像。但更具體地,這些是深度卷積的GAN,這意味著它們包括了解他們在他們接受培訓的圖像中看到的內容。例如,他們了解Windows,DOOR和TVS以及他們在房間裡的地方。

ADGL視頻預測
預測怎麼樣? Facebook的更多工作涉及視頻生成。使用對抗性梯度差異損耗預測器(AGDL),它們預測視頻的接下來的兩個幀應該是什麼。在台球比賽的照片中,你可以看到格里恩D真相,即真正發生了什麼,以及AGDL網絡預測的是什麼。 它進入未來並不是很遠,但這是一開始。

那些在天真對象識別器到一個具有人類技能的路徑上的小步驟。

在結束時

您在哪裡可以看到成立神經網絡以前識別對象? 我們在RC汽車上使用它涵蓋了[Lukas BiewaLd],以識別他的車庫/車間的物品。

雖然這個[原來是]對每個人都使用的樂趣,你可以想到什麼其他用途? 您能想到什麼有用的應用程序? 可以添加什麼? 讓我們在下面的評論中了解。

Leave A Comment